Использование статистических характеристик синтезов Фурье электронной плотности для решения фазовой проблемы в кристаллографии белка тема автореферата и диссертации по физике, 01.04.18 ВАК РФ
Лунин, Владимир Юрьевич
АВТОР
|
||||
доктора физико-математических наук
УЧЕНАЯ СТЕПЕНЬ
|
||||
Москва
МЕСТО ЗАЩИТЫ
|
||||
1992
ГОД ЗАЩИТЫ
|
|
01.04.18
КОД ВАК РФ
|
||
|
РОССИЙСКАЯ АКАДЕМИЯ НАУК
ОРДЕНА' ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ИНСТИТУТ КРИСТАЛЛОГРАФИИ ИМ. А.В.ШУБНИКОВА
На правах рукописи
ЛУНИН ВЛАДИМИР ЮРЬЕВИЧ
УДК 548.737
ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК СИНТЕЗОВ ФУРЬЕ ЭЛЕКТРОННОЙ ПЛОТНОСТИ ДЛЯ РЕШЕНИЯ ФАЗОВОЙ ПРОБЛЕМЫ В КРИСТАЛЛОГРАФИИ БЕЛКА
Специальность 01.04.18 - Кристаллография, физика кристаллов
Автореферат диссертации на соискание ученой степени доктора физико-математических наук
Москва 1992
Работа выполнена в Научно-исследовательском вычислительном центре АН СССР (Пущино)
Официальные оппоненты :
Доктор физико-математических наук, профессор Н.С.Андреева Доктор физико-математических наук В.Р.Мелик-Адамян Доктор физико-математических наук К.Н.Козлов
Ведущая организация : Институт теоретической и экспериментальной биофизики РАН
Защита диссертации состоится п.З-" . 1992 г.
в ./0. часов 3.0 минут на заседании Специализированного совета Д 002.53.01 при Институте кристаллографии РАН го адресу : 117333 Москва, Ленинский проспект, 59.
С диссертацией можно ознакомиться в библиотеке Института кристаллографии РАН
Автореферат разослан .............. 199 г.
Ученый секретарь Специализированного совета кандидат фпзико-математичеких наук
В.М.Каневский
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
• ■ ■'"Актуальность теш исследования.
рентгеноструктурного анализа (РСА) постоянно 1ривлекает внимание широкого класса исследователей, работающих в >бластях науки, использущих информацию о структуре вещества на атойно-молекулярном уровне. Это связано с тем, что метод РСА галяется практически единственным методом, позволяющим определять структуру исследуемого объекта на атомном уровне, то есть шределять координаты в трехмерном пространстве всех атомов, зходящих в состав исследуемого вещества.
Принципиальной особенностью метода РСА- является неполнота э;анных, получаемых непосредственно в рентгеновском эксперименте. Эксперимент позволяет измерить лишь величины модулей Р8 гамплексши коэффициентов (структурных факторов) в разложении функции распределения электронной плотности в ряд Фурье :
Ипределение фаз фв структурных факторов представляет собой дентральную проблему ("фазовую проблему ») рентгеноструктурного анализа, и успех всей работы по определению структуры определяется во многом тем, насколько точно удалось решить ¡разовую проблему.
В силу неполноты данных рентгеновского эксперимента для решения фазовой проблемы необходима какая-то дополнительная шформавдя об исследуемом объекте. В настоящее время на практике 1рименяются, в основном, два класса методов решения фазовой 1роблемы. Для определения структуры низкомолекулярных соединений ( 100-150 атомов ) применяются "прямые метода определения фаз", пополнительной информацией для которых является "атомность" ясследуемого объекта. Основой для решения фазовой проблемы при «¡следовании биологических макромолекул является метод !зоморфного замещения, в котором в качестве добавочной информации зб исследуемом объекте (нативном белке) выступают данные по пополнительным рентгеновским экспериментам с близкими соединениями (изоморфными производными), огличаюцимися от гативного белка локальными добавками ("тяжелыми" атомами), не кжажающими нативную структуру. В этом методе тяжесть решения разовой проблемы смещается в биохимическую область. Получение !зоморфных тякелоатомных производных является сложной задачей, юторую далеко не всегда удается решить. Даже в тех случаях,
р(г) = ---I Р е 3 е
1ф -211(8,г)
( I )
когда производные вещества удается получить, изоморфизм может иметь место лишь приближенно - присоединяемые тяжелые атомы могут вносить некоторые искажения в нативную структуру. Это приводит (в зависимости от степени нарушения изоморфизма) к более или менее грубым ошибкам при расчете фаз и, как следствие, к усложнению задачи интерпретации в структурных терминах получаемой функции распределения электронной плотности (вплоть до полной неинтерпретируемости).
Указанные сложности применения метода изоморфного замещения стимулировали в последние годы значительные усилия го поиску дополнительных источников информации о структуре макромолекул и методов использования такой дополнительной информации для решения двух задач:
1) повышения интерпретируемости синтезов (уточнение значений фаз, определенных с ошибкой и, возможно, доопределение значений некоторых фаз, не определенных ранее);
2) решения фазовой проблемы для макромолекул при отсутствии тяжелоатомннх производных.
Диссертационная работа выполнена по плану научно-исследовательских работ Научно-исследовательского вычислительного центра АН СССР ( • комплексная
научно-техническая программа 0.74.05, номер государственной регистрации 0187.0 087038).
Цель работы заключалась в разработке и проверке применимости к решению фазовой' проблемы новых подходов, основанных на вовлечении в работу не использовавшихся ранее характеристик распределения электронной плотности в кристаллах белков - гистограмм .синтезов Фурье электронной плотности конечного разрешения.
Научная новизна работы.
Автором диссертации впервые (в 1984 г.) предложено использовать в качестве дополнительного источника информации о белках распределения частот, с которыми встречаются различные значения на синтезах электронной плотности конечного разрешения. (Несколько позже близкие идеи Оали высказаны независимо рядом зарубежных исследователей[1,2,33)). Впервые предложены подходы к практическому использованию этой информации в процессе решения фазовой проблемы и найдены пути к получению требуемой информации для исследуемого белка. Практическая реализация предложенных методов потребовала решения широкого круга разнообразных проблем, как теоретического, так и прикладного характера.
Научно-практическая значимость работы.
Гистограммы синтезов электронной плотности конечного азрешения дают новую информацию о кристаллах белков, практически в использовавшуюся ранее. Это позволяет рассчитывать на озможность продвижения в работе по определению структуры иологических макромолекул в ряде ситуаций, когда "классических" [е то до в становится недостаточно. Разработанные и реализованные шгоритмы практического использования этой информации позволили [ровести тестирование ее полезности и применить новые метода к «¡следованию реальных структур ( 7~кристаллина Illb и фактора 1Лонгации а). Теоретический анализ методов использования тютограммной информации привел к более четкому пониманию •механизма работа" и границ применимости одного из старейших летодов улучшения карт распределения электронной плотности -летода модификации электронной плотности.
Апробация работы.
Результаты исследований, изложенные в диссертации, докладывались и обсуждались на следующих конференциях :
Четвертый всесоюзный симпозиум "Структура биологических макромолекул". (Звенигород, I984 г.).
Мевдународная школа-симпозиум по структуре биологических макромолекул. (Пущине, 1986 г.).
Международная школа "Кристаллография в молекулярной биологии". (Эрте, Италия, 1988).
Первая международная конференция "Структура и функция рибонуклеаз". (Москва, 1988).
Двенадцатая Европейская кристаллографическая конференция. (Москва, 1989).
Пятнадцатый международный конгресс по кристаллографии. (Бордо, Франция, 1990).
Школа по кристаллографическим вычислениям. (Стратсбург, Франция, 1990).
Структура и объем диссертации.
Диссертация состоит из введения, шести глав, заключения, основных выводов, и списка цитируемой литературы. Диссертация содержит 191 страницу, включая 14 таблиц и 28 рисунков. Список цитируемой литературы содержит 126 наименований.
Публикации.
По теме диссертации опубликовано 28 печатных работ, список основных публикаций приведен в конце автореферата.
СОДЕРЖАНИЕ РАБОТЫ.
Во введении приводятся краткие сведения из рентгеновской кристаллографш, поясняющие постановку рассматриваемых далее проблем, излагается история вопроса и дается краткая аннотация результатов, полученных в работе.
Глава I. ГИСТОГРАММА СИНТЕЗА ЭЛЕКТРОННОЙ ПЛОТНОСТИ КОНЕЧНОГО РАЗРЕШЕНИЯ - НОВЫЙ ИСТОЧНИК ИНФОРМАЦИИ О КРИСТАЛЛАХ БЕЛКОВ,
В этой главе вводится в рассмотрение новый тип дополнительной информации о распределении электронной плотности в белках - гистограммы синтезов Фурье электронной плотности конечного разрешения - и обсуждаются основные свойства таких гистограмм.
Гистоерсша, отвечающая функции распределения электронной плотности.
Основой предлагаемых в диссертации подходов является попытка установить какие значения может принимать искомая функция р(г) и как часто принимает функция р(г) каждое из возможных значений. Наиболее прямой практический подход к ответу на этот вопрос может быть следующим. Введем в элементарной ячейке V равномерную сетку,и пусть {р }- совокупность значений функции р(г), вычисленных в узлах этой сетки. Разобьем интервал (Рт1п.Ртах)> в котором лежат значения (рр. на заданное число к равных частей (битов) и для каждого бина определим частоту попадания значений р^ в этот бин
т)к = як Г К , к = I.....К .
Здесь пк - число точек сетки со значениями р^ , лежащими в к-ом бине, то есть таких точек, что
Р - Р .> Р - Р ..
Р,п1п+ « - 1> --- 1 Р^ * Рш1П+ 3 ---•
N - общее число точек сетки. Совокупность (распределение) частот мы будем называть гистограммой, отвечающей функции р(г). Иногда более удобна для работы нормированная гистограмма
^ = пк / ( ДкИ ) , . к = 1.....К , ( 2 )
где Дк обозначает длину к-того бина. В зтом случае вероятность обнаружения точки (при случайном выборе узла сетки в области V) со значением р , лежащим в к-ом бине, равна ^кЛк.
Полученные расчетом по формуле (2) значения частот зависят, строго говоря, не только от исследуемой функции р(г), но и от
?ого, как введены бины. Чтобы избавиться от этой зависимости, мы гожем ввести меру на области значений исследуемой функции более жкуратно. Определим для функции р(г) кумулятивную функцию 1
B(t) = - mes { г : р(г) s t }
|V|
[ плотность кумулятивной функции
d I d
v(t) = - Mt) ---mes{r : p(r)*t } .
dt |V| dt
!3десь и далее {г: »4} обозначает множество точек из области V,
¡ля которых выполнено условие л, mes s обозначает объем области
|v| = mes v - объем области V). Функции'и (t) и v(t) зависят
галько от исследуемой функции р(г) и не связаны с выбором сетки в
юследуемой области и разбиения вещественной оси на бинн.
!еличина v(t)At при малых At представляет собой вероятность
(стретить (при случайном выборе точки из области V) значение
Кг), лежащее в интервале (p,p+At).
Нетрудно видеть, что нормированные частоты v , вычисляемые to формуле (2), являются приближенными значениями функции v(t) в •очках tk, отвечащих серединам бинов :
f Ct, ) = lira v, к L^O, N->oo k
Мы будем далее использовать термин "гистограмма" как для |бозначения наборов частот и . так и для
•бозначения плотности v(t) кумулятивной функции. Использование ¡ункции v(t) более удобно при рассмотрении теоретических опросов, в то время, как на практике удобнее оперировать с астотами.
Гистограммы синтезов Фурье конечного разрешэния.
На рис.1 показан типичный вид гистограммы, отвечающей интезу электронной плотности среднего разрешения (в данном лучае 4А) для бежа. Эта гистограмма имеет характерную симметричную форму, которая присуща и гистограммам, отвечагацим интезам электронной плотности для других белков.
Наиболее важным свойством, определяющим дальнейшее спользование гистограмм, является то, что. гистограмма казывается чувствительной к наличию ошибок в фазах структурных акторов и к отсутствию части структурных факторов при расчете ивтеза. На рис.2 показано как влияет на форму гистограммы замена очных значений фаз структурных факторов на случайные значения и ак влияет исключение из синтеза около 18% рефлексов вблизи оси 1 братного пространства. Эта чувствительность гистограммы к
4 А
аиЫШвет
Рис.1. Гистограмма синтеза электронной плотности разрешения 4А для белка субтили-зина.
ошибкам позволяет надеяться на то, что гистограмма синтеза электронной плотности может служить индикатором правильности определения фаз структурных факторов.
/ ш о 4А биШЫп
}
Рис.2. Влияние ошибок в значениях структурных факторов на гистограмму синтеза Фурье.
точные модули и фазы;
■•-— точные модули, случайные фазы;
+—I— 18% рефлексов исключено из синтеза.
На практике мы всегда имеем дело не с "идеальным' распределением электронной плотности р(г), а синтезом некоторого разрешения (мы называем сумму (I) синтезов
конечного
а ,
в нее
разрежения ат1п, если в нее включены всё слагаемые, отвечающие узлам б решетки обратного пространства с|в|а1/а ). Рис.С показывает как изменение разрешения синтеза Фурье влияет на формз соответствующей гистограммы.
Более подробный анализ обнаруюшает, также, чувствительности гистограмм к среднему значению температурного фактора атомов.
Глава 2. ПРЕДСКАЗАНИЕ ГИСТОГРАММ ДЛЯ БЕЛКОВ С НЕИЗВЕСТНО!
ПРОСТРАНСТВЕННОЙ СТРУКТУРОЙ.
В этой главе показывается, что гистограмма, отвечакда точному синтезу электронной плотности для кристалла исоледуемогс белка (то есть синтезу Фурье, рассчитанному с правильным значениями модулей и фаз структурных факторов) может быт
а
Рис.3. Изменение гистограммы синтеза Фурье при изменении разрешения синтеза.
олучена до того, как решена фазовая проблема для данного белка, ем самым, такая гистограмма может выступать в процессе решения азовой проблемы источником дополнительной информации об сследуемом объекте, ограничивая класс возможных решений фазовой роблемы : только такие наборы фаз являются приемлемыми, которые риводят к синтезу, обладащему предписанной гистограммой.
Здаирическая лоделъ для описания гистогрзхл.
Анализ гистограмм, отвечающих синтезам одного и того же азрешения для разных белков показывает (рис.4), что эти
г/м
4А
staphylococcal nuclease
chymotrypeinogen
Рис.4. Гистограммы синтезов Фурье для разных белков.
carbonic anhydrase
истограммы, хотя и имеют сходную форму, но не совпадают друг с ругом, то есть гистограмма, отвечающая какому-то белку с звестной структурой, не может быть непосредственно использована ак эталон гистограммы для другого белка. Однако, ситуация есколько улучшается, если применить к гистограммам ополнительную перенормировку, перейдя к "нормированным объемам"
V Vvl"/Pcoo . К.
v(t) = v(t) |V| / Pooo . Здесь |v| - объем, a F - суммарный электронный заряд элементарной ячейки. (При малых At, v(t)At - это приходящийся на один электрон объем области в элементарной ячейке, в. которой значения р(г) лежат в интервале (t,t+At) ). Как видно из рис.5, нормализованные гистограммы^ имеют похожие участки, соответствущие средним и большим значения р, а также, наименьшм значениям р. (Подчеркнем, что поскольку мы исследуем синтезы конечного разрешения, на этих синтезах обязательно будут области с отрицательными значениями р(г) и, более того, эти области будут сосредоточены в основном в области молекулы ).
Рис.5 позволяет высказать гипотезу , что "нормированный объем" v(p) для значений р, встречающихся только в области молекулы, одинаков для всех белков и может быть описан стандартным (одинаковым для всех белков) распределением v°(t). При этом, конечно, распределение v°(t)' меняется при изменении разрешения синтеза. Мы не можем определить непосредственно из графиков, приведенных на Рис.5, величины v°(t) для близких к нулю значений t. Такие значения встречаются не только в области молекулы, но и в "волнах обрыва ряда Фурье", и в кривой v(t) содержатся информация о "смеси" таких значений. Однако более аккуратный анализ кривых v(t) для разных белков позволяет определить значения стандартного распределения v°(t) для всех значений %.
Анализ функций v(t), отвечающих кристаллам разных белков,
озволяет заметить, что высота центрального пика на оответствущих графиках оказывается прямо пропорциональной еличине |^|/Р000> то есть чем "свободней" размещаются молекулы елка в кристаллической ячейке, тем боже высота этого пика. Это озволяет выдвинуть гипотезу , что объем области в ежмолекулярном пространстве элементарной ячейки, в которой начения функции р(г) попадают в некоторый интервал рямо пропорционален объёму межмолекулярного пространства.Это дает даирическую модель для распределения нормированных объемов
оо
= v0«) + ( |у|/р000- ] у°(хИх ) <10и>. ( 3 )
пи, что то же, к модель для гистограммы
= 1°°°. уоа) + ( ! _ Г ) ч0^). ( 4 )
|У| |У| ■»-«.
этих формулах v0(t) - одинаковая для всех белков функция, шсыванцая распределение значений р(г) внутри области молекулы, - одинаковая для всех белков функция, описыващая зспределение значений р(г) в меясмолекулярной области. Фактически, описывает распределение значений для "волн
5рыва ряда Фурье".)
Дискретным аналогом формул (3)-(4) является равенства к
( 5 )
< 6 )
IV, « IV, * - "
;есь зависящие от непрерывно меняющегося параметра t стандартные нкоди у°(1;) и ч°(1;) заменены на наборы значений этих функций =у0(гк) и ч£=5°(1;к) в отдельных точках
Расчет стандартных распределений и
Для определения содержащихся вУформулах (5)-(6) стандартных определений использовался набор белков ("базисный набор"), омная структура которых известна (таблица I). Для отобранных лков по атомной модели были найдены структурные факторы, строены синтезы электронной плотности и рассчитаны точные стограммы. Стандартные распределения и были
ределены из условия наилучшего совпадения "теоретических" стограмм, определенных по формуле (6 ) и точных гистограмм зисных белков.
На рис.6 показаны графики стандартных распределений у°(г) и (1), отвечающих разрешению 4А.
Таблица I.
белок точность предсказания
гистограммы
d = 4A d = 10A
белки базисного набор
Carbonic anhydrase 0.022 0.098
Chymotrypsinogen 0.033 0.051
Cytochrome Ъ5 0.053 0.106
HIPIP 0.028 0.135
B-J Protein 0.023 0.074
Insulin 0.024 0.408
LyBozyme 0.025 0.064
Mioglobin 0.056 0.039
Neurotoxin 0.088 0.212
Ovomucoid 0.030 0.145
Phospholipase 0.019 0.091
Plastocyanin 0.032 0.090
Prealbumin 0.020 0.063
Proteinase A 0.023 0.130
Ribonuclease 0.038 0.162
Staphylococcal nuclease 0.044 0.066
белки, не входившие в базисный набор
Ubiquitin 0.045 0.176
Crambin 0.044 0.076
Avian pancreatic polypeptide 0.051 0.128
Rubredoxine 0.076 0.170
Concanavalin 0.064 0.073
к
= У \ V1 ~ vt \ К • VZ ~ значения частот для h * к * к точного синтеза;
к=1
значения частот, рассчитанные по формуле (6).
Предсказанье гистогралл.
После того, как стандартные распределения и
(отвечающие разрешению йт1п) определены, формулы (4) или (6) позволяют предсказывать гистограмму (отвечающую разрешению а для произвольного белка, если только параметры V и Р000 для этого белка известны.
На рис.7 показаны точная и соответствующая найденым и "теоретическая" гистограммы для белка шоглобина
(наихудиее совпадение среди базисных белков). На рис.8 показаны точная и предсказанная гистограммы для белка конканавалина, не входившего в базисный набор белков.
Предсказание гистогралл для синтезов низкого разрешения.
_ Изложенная методика предсказания гистограмм дает приемлемую для практической работы точность при работе с синтезами среднего
и высокого разрешения. Однако при переходе к синтезам низкого разрешения точность предсказания убывает. Это вынудило нас при работе с низким разрешением ' использовать для предсказания гистограмм иную методику, основанную на использовании атомной лодели гомологичного белка или атомной модели, скомпонованной из сусков других белков, близкой по размерам и внешним очертаниям к лодели исследуемого бежа (такая информация может быть, например, язвестна из данных электронной микроскопии). В этом случае задача зредсказания гистограммы может быть решена в два этапа :
а) "размещение" атомной модели гомолога без самоналезаний в элементарной ячейке исследуемого белка;
б) расчет гистограммы, отвечащей такой гипотетической юдели (то есть расчет по атомной модели структурных факторов, ¡атем расчет синтеза Фурье нужного разрешения и гистограммы для юго).
Тесты показали, что рассчитываемые таким образом гистограммы >лабо зависят от возможных изменений способа упаковки модели и югут быть использованы в практической работе.
Рис.8. Точная (-)
и предсказанная (—— - ) гистограммы для синтеза Фурье разрешения 4А для белка конканавалина, не входившего в базисный набор белков.
Глава 3. ИСПОЛЬЗОВАНИЕ ГИСТОГРАММ ДЛЯ ВОССТАНОВЛЕНИЯ
В этой главе показано, как зная гистограмму, которой должен обладать точный синтез электронной плотности, можно решать задачу определения значений фаз для части структурных факторов или, даже, восстанавливать значения некоторых структурных факторов полностью (и модули и фазы).
Постановка завсни восстановления, невосжющих структурных фсшоров.
Предположим, что перед нами стоит задача вычисления синтеза Фурье конечного разрешения
причем не все необходимые для расчета значения структурных факторов известны. Обозначим через Эд множество иццексов' в, отвечающие структурным факторам с известными модулем и фазой Ф°, а Би , отвечающих структурным факторам, для которых либо фаза, либо и модуль и фаза неизвестны. Для расчета синтеза (7) этим неизвестным структурным факторам нужно приписать какие-то численные значения. Обычный путь - не включать эти рефлексы в синтез, то есть приписать соответсвущим структурным факторам нулевое значение - может приводить к заметным искажениям синтеза.
Мы можем попытаться сделать более обоснованный выбор значений для неизвестных структурных факторов, если у нас имеется ка&ая-то дополнительная информация о том, какими свойствами должен обладать синтез р(г), который .мы хотим получить. В таком случае мы можем пытаться доопределять неизвестные величины так, чтобы получаемая функция в максимальной мере отвечала этим
НЕДОСТАЮЩИХ СТРУКТУРНЫХ ФАКТОРОВ.
р(г) = и, X Р(8) (
( 7 )
дополнительным требованиям.
Допустим, что нам известна гистограмма , которой
юлжен обладать синтез Фурье р(г) будучи рассчитан с правильными значениями всех структурных факторов (мы будем называть ее эталонной гистограммой). Тогда для каждого пробного набора юизвестных структурных факторов мы можем проверить, насколько юрошо он согласуются с этой гистограммой, проделав следующую дегочку вычислений :
а) введем в элементарной ячейке некоторую, сетку и рассчитаем шачения пробного синтеза в узлах этой сетки
Р^ = Р°(гл) = 771 Е р ее Л +
зеЗ. ( 8 )
"ЛП
1 V, „ 1фС(в) -21С1(8,Г,)
IV цО/.! „ е 3
I Рс(г) е
б) рассчитаем гистограмму , отвечающую полученному интезу;
в) сравним, насколько близки эталонная и рассчитанная истограмма, например, воспользовавшись критерием близости истограмм типа
1 к . ( V? - V? )2
О ( р° ) = — I к „ к • . ( 9 )
К К
стественно считать, что наилучшим образом согласуется с менщейся гистограммой тот набор значений неизвестных
труктурных факторов, для которого величина (9) минимальна. То сть задача 'доопределения неизвестных значений структурных акторов может быть сформулирована как задача минимизации функции Э) , в которой величины частот V? зависят от значений р°
К О
зобного синтеза, а те в свою очередь определяются значениями Р° <р° искомых структурных факторов.
Разумеется, любые другие типы дополнительной информации об ¡следуемом объекте (наличие некристаллографической симметрии, {формация об области, .занятой растворителем и т.п.) могут тоже гаь подключены в работу. Обычный подход в таких случаях -шимизация составного критерия, где каждое из слагаемых ивечает" за выполнение одного из дополнительных условий.
Квазигистогралш.
Минимизация критерия (9) " представляет собой сложную числительную задачу, осложняющуюся еще и тем, что к функции (9) применимы методы, использующие информацию о производных (методы
минимизации первого порядка). Дело в том; что, как правило, при "малых изменениях" варьируемых параметров и <рв значения немного изменяются, но остаются лежать в тех же бинах, что ж раньше. Поэтому значения частот не меняются цри малых изменениях пробных значений структурных факторов, и все производные критерия (9) по варьируемым параметрам равны нулю. Поэтому, для практической работы использовался несколько иной критерий качества пробного набора структурных факторов , более удобный для проведения процесса минимизации.
Вычисляемые согласно формуле (2) частоты могут быть
определены формулой
К = у I рл> • _ < 10 >
где
3 = 1
=
1/Д при А/2 ,
О при |1;|> Д/2 ,
Л - длина бинов, tk - середины бинов.
"Плохие" свойства критерия (10) связаны, формально, с тем, что в вычислении величин ' участвует кусочно - постоянная функция А*(1;). Введем
ОПРЕДЕЛЕНИЕ. Пусть !Ш) - произвольная функция, для которой Ш) йх = 1
—оо
Будем называть квазичастоташ (связанными с функцией ли) ) величины, вычисляемые по формуле 1
n
"к =
I * (V-
м ^
Совокупность квазичастот будем называть
квазигистограммой.
Если функция \(Ъ) непрерывно дифференцируема (или,по крайней мере, кусочно-непрерывно дифференцируема), то квазичастоты гладким _ образом зависят от значений модулей и фаз структурных факторов, использованных при вычислении функции р(г). Это Дозволяет использовать более "удобный критерий качества пробного набора структурных факторов следующего вида.
Предположим,- что нам известна эталонная квазигистограмма {г'°}к_1, отвечающая искомой функции р(г). Для пробного набора неизвестных структурных факторов (Рс(в)ехр(1ф(8)))вед^ определим
и
критерий качества -
1 К / _
2 = — У к . * ■ ( II )
к к=1 к
Геперь задача определения неизвестных значений структурных факторов может быть сформулирована как задача минимизации значения критерия (II). Для минимизации этого критерия была 1аписана специальная программа, реализугацая алгоритм наискорейшего спуска с использованием алгоритмов быстрого 1реобразования Фурье и быстрого дифференцирования . При этом для вычисления квазичастот использовались кусочно - линейные функции айда
=
-(1/эег) |t| + 1/эе при |1;|*зе
( 12 )
О при |t|>ae .
Основная идея перехода к квазичастотам - мы перестаем этносить вклад отдельной точки сетки к одному бину и начинаем "распределять" его между несколькими соседними бинами. При этом, величины вкладов перераспределяются при изменениях значения рл и делают тем самым квазичастоты чувствительными к малым изменениям р. Показано, что эталонные квазичастоты могут бить вычислены по эталонным частотам при помощи формулы
1 S г00
v. = — У Я (t. - р.) » | /Ut-DvCDdi . ( 13 )
N j=i ' . Из этой формулы видно, также, что переход к квазичастотам предсталяет из себя некоторое "сглаживание" исходного распределения частот, и изменение критерия Q по сравнению с критерием (10) состоит в том, что мы переходим от сравнения гистограмм пробного и точного синтезов' к сравнению некоторых усредненных характеристик гистограмм.
Тестовое восстановление пропущенных структурных факторов для сувтилизит.
Для проверки работоспособности цредложенного подхода была ¡доведена серия тестов. В качестве тестового объекта была взята лодель белка субтилизина [4], которая была размещена в зространственной ячейке с размерами 73x64x48 А в пространственной группе Р2 2 2 . По координатам атомов были рассчитаны структурные факторы и рассчитан синтез разрешения 4А (Рис.9а). По этому синтезу были рассчитаны квазичастоты ( отрезок (-0.5, 1.5) был разбит на 30 битов, использовалась функция A(t) вида (12) с ае=5).
Далее была проимитирована ситуация отсутствия информации о части модулей структурных факторов. Около 1В% стуктурных факторов
{ 352 из 2104 ) были объявлены неизвестными и была поставлена задача определения их путем минимизации функции (II). В качестве набора su отсутствующих рефлексов выступал набор рефлексов, не отснятый по техническим причинам в одном из реальных рентгеновских экспериментов. Множество su было, в основном, сосредоточено около оси 1 обратного пространства.
Дальнейшие тесты проводились в двух модификациях. В первой из них предполагалось, что нам известны значения структурных факторов р°(б)ехр[1ф°(Б)] для набора sd рефлексов и известна эталонная квазигистограмма ^ Задача заключалась в
восстановлении и модулей, и фаз неизвестных структурных факторов. Во второй модификации мы считали, что для seSu неизвестны только фазы, а модули известны и задача состояла в определении неизвестных фаз.
Первый тест был посвящен попытке восстановить как фазы, так и модули структурных факторов с sesu. В качестве стартовых для неизвестных структурных факторов были взяты нулевые значения. Одно из сечений стартового синтеза Фурье (то есть синтеза,построенного по неполному набору рефлексов) показано на Рис.9ь. В результате 10 циклов минимизации значение критерия (II) уменьшилось с 0.3хЮ"г до О.бхЮ-5. При этом неизвестные ранее значения фаз определились со средней ошибкой в 37°, а значение R-фактора для восстановленных значений модулей структурных факторов составило 0.46. На Рис.9° показан фрагмент синтеза, построешого с восстановленными значениями неизвестных структурных факторов. Мы видим здесь существенный прогресс по сравнению со стартовой картиной.
Во втором тесте предполагалось, что для множества su модули структурных факторов известны,и проблема состоит лишь в восстановлении значений фаз. В качестве стартовых • значений фаз при минимизации критерия (II) были взяты значения полученные в первом тесте. Пять циклов минимизации привели к значение минимизируемого критерия О.бхЮ-6 и средней ошибке определения фаз 33°. На pnc.9d показан фрагмент синтеза, при расчете которого использовались доопределенные таким образом значения фаз структурных факторов (значения модулей были взяты точными).
Восстановление величин структурных факторов для "сухой"
формы 7-кристаллит шь.
Разработанная методика восстановления пропущенных структурных факторов была использована при исследовании "сухой" форш т-кристаллина I lib. Структура белка 7-криталлина III b из глазной линзы теленка'изучается в лаборатории д.б.н. Ю.Н.Чиргадзе
в
Рис.9. Сечение z=12/48 синтезов разрешения 4А для модели 'бтилизина : а) точный синтез; 0) стартовый синтез (около Ш фяексов исключено из синтеза; в) результат восстановления [ачений модулей и фаз удаленных рефлексов; г) результат вос-:ановления фаз (при известных модулях) удаленных рефлексов.
Институте белка АН СССР и в лаборатории проф. Т.Бланделла [рбек-колледже (Англия). Кристаллы белка принадлежат к юстранственной группе Р212121 и имеют параметры элементарной :ейки 58.7 х 69.5 х 116.9 А . Структура т-крисТаллина была 'очнена при разрешении 2.5 А . Был также собран дифракционный ¡бор разрешением до 1.9 А "подсушенных" кристаллов белка [5]. Он растеризовался меньшими размерами ячейки : 57.38 х 70.13 х 5.4 А. Расхождение в'данных для разных модификаций составило по не до 2.5 к
2 I Р - р I R = г -dz^L = 0_255 _
2 IF + Р I
S wet dry1
техническим причинам в первоначально отснятом наборе, вечагацем "сухой" фэрме, отсутствовала значительная часть
Рис.10. Синтез разрешения 4к для 7-кристаллина шь :
а) синтез с коэффициентами (14); (часть рефлексов отсутствует);
б) результат включения в синтез восстановленных значений для отсутствовать значений структурных факторов.
рефлексов (в зоне до 4 А отсутствовало 1390 рефлексов из 4224 возможных). Была сделана попытка восстановить часть утерянных данных, используя информацию о гистограмме синтеза электронной плотности.
В качестве стартовой точки был выбран синтез разрешения_до 4 А, построенный по 2852 рефлексам с коэффициентами
ехр[ 1(риеЪ(8) ] •, ( 14 )
где Р^уСэ) - модули структурных факторов второй ("сухой") модификации, <^.,.(8) - фазы, рассчитанные по уточненной атомной модели первой модификации. На Рис.10 приведено несколько сечений синтеза, рассчитанного с такими значениями структурных факторов. Следует подчеркнуть, что качество синтеза определялось не только отсутствием части необходимых рефлексов, но и некоторыми ошибками в фазах, поскольку они отвечали первой модификации, а не второй.
Далее была сделана попытка доопределения неизвестных структурных факторов (и фаз, и модулей), исходя из условия минимума величины (II). Теоретические значения эталонных частот были определены по методике, изложенной в главе 2. Значения эталонных квазичастот, входящих в выражение (II), были пересчитаны из значений частот по формуле (13). На рис.II приведены "теоретическая" гистограмма и гистограмма, отвечающая синтезу, рассчитанному с восстановленными значениями структурных факторов. Несколько сечений синтеза с восстановленными структурными факторами приведено на рис.10.
Глава 4. ИСПОЛЬЗОВАНИЕ ГИСТОГРАММ В ЗАДАЧЕ УТОЧНЕНИЯ ЗНАЧЕНИИ ФАЗ СТРУКТУРНЫХ ФАКТОРОВ.
В згой главе устанавливается какое место занимают процедуры уточнения значений фаз структурных факторов за счет дополнительной информации, поставляемой гистограммой синтеза Фурье, среди других методов уточнения фаз.
Представление дополнительной информации. в виде уравнения р(г)=1[р](г).
.Проведенный в диссертации анализ показывает, что во многих случаях дополнительная информация о свойствах синтезов электронной плотности может быть выражена математически как свойство функции распределения электронной плотности не меняться при некотором преобразовании этой функции
р(г) = -С[р](г) , ( 15 )
где х - специальным образом выбранное преобразование, зависящее от того какую именно дополнительную информацию мы пытаемся учесть. Так, например, наличие локальной (некристаллографической) симметрии эквивалентно уравнению (15) с преобразованием т[р] заключающимся в усреднении электронной плотности в симметрично-связанных точках. Аналогичные представления можно получить и для других видов дополнительной информации (уравнения Сейра, неотрицательность р(г), известные границы молекулы.
конечный набор значений, принимаемых функцией р(г) и т.п.).
Итерационный подход к определению фаз из уравнения. р=т[р].
Уравнение (15) эквивалентно системе уравнений для структурных факторов функции р(г) :
F(6) = I т[ — У Hu) ei(P(u) e-81tl(u-r)] }| ( 16 ) |V| £
1
<p(s) = arg{ t[ — У P(u) ei(p(u) e~2lti(u,r)] }} (17 ) |V| t
Здесь v } обозначает структурный фактор с индексами s,
отвечающий функции v(r), |z| - модуль a arg{z} - фаза комплексного числа z.
Считая модули структурных факторов {F(s)}s известными из рентгеновского эксперимента, мы можем рассматривать систему уравнений (16)-(17). как систему уравнений для определения или уточнения фаз {<p(s))s.
Основой большого набора методов уточнения значений фаз структурных факторов является итерационная процедура решения фазовой части этих уравнений - уравнений (17). Радиальная часть (16) при этом просто игнорируется, а для нахождения фаз решается методом последовательных приближений система уравнений (17). Многие работы по уточнению значений фаз структурных факторов основаны, явно или неявно, именно на этой итерационной процедуре и различаются лишь тем, какое преобразование т[р], вводящее ту или иную дополнительную информацию об исследуемом объекте используется.
В диссертации показано, что свойство распределения электронной плотности иметь предписанную гистограмму также может быть представлено в виде (15). При этом, преобразование т[р] строится в два этапа. Сначала по имеющейся функции р(г) строится модифицирующая функция Ap(t) (своя для каждой из возможных функций р(г)). Эта функция строится как решение уравнения
иехсу = Np(t) , ( 18 ) .
где Иех и Ир - кумулятивные функции, отвечающие соответственно точному синтезу Фурье и пробному синтезу р(г). Затем осуществляется модификация
р(г) —> pm(r) = Л, (р(г)) = т[р] (г) . ■ (19.).
Показано, что решение соответствую1цих этому преобразованию уравнений (17) методом последовательных приближений составляет основу предложенных недавно методов использования гистограмм для
уточнения значений структурных факторв таких, как histogram specification.[2] И histogram matching [3].
В этой главе показано также, что при наличии значительных ошибок в фазах структурных факторов преобразование (18)—(19), восстанавливающее правильную гистограмму, осуществляется с модифицирующей функцией A.p(t) весьма напоминающей широко используемую для модификации электронной плотности функцию Зрг-2р3. Это означает, что -"классический" метод модификации электронной плотности можно рассматривать как метод, использующий в неявном виде для работы специфичность формы гистограммы, отвечащей правильному синтезу Фурье.
Глава 5. ПРЯМОЕ РЕШЕНИЕ ФАЗОВОЙ ПРОБЛЕМЫ ДЛЯ НИЗКОУГЛОВЫХ
рефлексов:
В этой главе предлагается новый подход к прямому (без использования информации по тяжелоатомшм производным) решению фазовой проблемы для низкоугловых рефлексов. Подход предполагает использование гистограммы, которой должен обладать искомый синтез электронной плотности, в качестве индикатора правильности определения фаз.
Предложенная процедура может быть разделена на три этапа. На' первом этапе генерируется большое число разнообразных наборов фаз (например при помощи датчика случайных чисел) и те из наборов, которые приводят к гистограмме, близкой к предписанному эталону, отбираются как возможные "кандидаты" на правильное решение. На втором этапе методами кластерного анализа изучается множество отобранных "допустимых" наборов фаз. В этом множестве выделяется наиболее компактное подмножество, группирующееся вокруг предполагаемого решения фазовой проблемы. На третьем этапе фазовые наборы усредняются внутри выделенного кластера, что и дает предполагаемое решение фазовой проблемы.
Применение изложенной процедуры может быть проиллюстрировано на следующем тестовом примере.
Модельная структура.
Для проведения теста был искуственно смоделирован и размещен в элементарной ячейке с размерами 76x106x116 А в пространственной группе Р212121 димер, состоящий из двух молекул карбоксипептидазы. Этот тест предварял работу с белком фактором элонгации о [6], поэтому были взяты параметры элементарной ячейки этого белка и сконструирована модель эквивалентного молекулярного веса. По атомной модели были рассчитаны структурные факторы,
модули которых имитировали далее экспериментально определенные величины {Fex(s)L а фазы использовались лишь для анализа результатов теста. Задачей, решаемой в тесте, было определение фаз 29 низкоугловых рефлексов, лежащих в зоне разрешения d > ЗОЛ. При этом предполагалась известной гистограмма отвечащая синтезу, рассчитанному с точными значениями модулей {reic(s>} и фаз {фех(в)} структурных факторов.
В процессе проведения теста для генерируемых наборов фаз исследовались две характеристики :
а) критерий близости гистограмм, показывающий насколько близки мезду . собой гистограмма синтеза рассчитанного со сгенерированными фазами и гистограмма, ' отвечащая синтезу с точными значениями фаз ;
б) критерий близости синтезов Фурье, показывающий насколько значения сгенерированных фаз близки к правильным.
В этой главе в качестве величины, характеризущей различие в гистограммах, используется величина
к
л = v<vï> • {vr» = i i К ~ i \ • < 20 > к=1
Мы будем' называть эту величину расстоянием между гистограммами
и {1>®х}. Можно, естественно, вводить и другие меры близости гистограмм, например (10) и т.п. Наши тесты не выявили существенных преимуществ использования того или иного способа измерения расстояния между гистограммами перед другими.
Целью решения фазовой проблемы является получение интерпретируемого синтеза. Одинаковой величины ошибки в фазах сильных,и слабых рефлексов приводят к совершенно различным по величине искажениям синтеза. Особенно это заметно при использовании малого числа рефлексов для расчета синтеза. Поэтому, сравнивая наборы фаз, мы должны учитывать и то, каким по силе рефлексам эти фазы отвечают. Примерами взвешенных критериев близости наборов фаз являются "коэффициент корреляции"
С(р°,рех) = 1 F2(s)cos(ipc(s)-<pex(6)) / £Fa(6)
S Б
(его максимальное значение равно I при рс=рех, минимальное равно -I при р°=-рех, среднее значение равно 0) или критерий близости соответствующих синтезов
Qs(pc,pex) = = {{ [pc(r)-pex(r)]2dVr / J'tpsx(r)]2dVr}1/2 =
= ( 2 - 20 )1/г
(ero минимальное значение равно 0 при рс=рех, максимальное равно 2 при р°=-рех, " среднее значение равно vZ).
Решая фазовую проблему а& initia .нужно, однако, иметь в виду необходимость сведения наборов фаз перед сравнением к одному и тому же началу координат. Дело в том, что все функции вида
Pt.ae(r) = P°<« г + t) , (где t - произвольный вектор, ае = ±Г) будут иметь одинаковый набор модулей структурных факторов и одинаковые гистограммы Поэтому прежде, чем сравнивать два синтеза Фурье рс и рех, мы должны "сдвинуть" рс в систему координат, в которой он наиболее близок к рех (и, возможно, перейти к энантиоморфу). Мы определим "кристаллографическое" расстояние между рс и рех (или, что то же, взвешенное расстояние между наборами фаз {<p°(s)} и {<pBX(s)} ) как
Q_ = min min Q (р° , pex) . ( 21 )
s teT ae=±i 3
(здесь T - множество всевозможных сдвигов начала координат). В случае, когда функция рех(г) имеет группу симметрии, отличную от PI, множество допустимых сдвигов г может свестись к конечному числу вариантов. Например, для группы Р2 2 2 мы должны, вычисляя Q , перебрать 16 вариантов выбора начала координат и энантиоморфа.
Первый этап. Отбор допустгша вариантов.
В таблице 3 показано распределение значений величин ^ и 5s для 400 ООО наборов фаз (из 29 фаз каждый), сгенерированных при помощи датчика случайных чисел (условия симметрии группы Р2 2 21 были, естественно, учтены при генерации). Первое, что видно из этой таблицы - среди вариантов фазового набора с наименее отличающимися от точной (Qh < О. I0) гистограммами есть как близкие к точному набору, так и достаточно далекие от него (qg ~ I.O). Это означает, в частности, что хорошая гистограмма еще не гарантирует правильности синтеза.
Более внимательный взгляд на таблицу 3 позволяет увидеть, что варианты с хорошими гистограммами делятся на две группы : в одну попадают варианты с q ~ 0.5, в другую с Qs~ 1.0. По мере снижения требований к качеству гистограмм (увеличение q ) число вариантов в этих группах увеличивается, разброс значений критерия Qs внутри этих групп возрастает и, наконец, эти группы сливаются. Такая картина позволяет предположить, что существуют по крайней мере два набора фаз, приводящих к предписанной гистограмме при
Таблица 3. Распределение значений величин и
отвечающих пробным наборам фаз (в таблице даны количества, пробных вариантов, для которых значения и <2е лежат в соответствующих
интервалах, значения о и о вычисляются согласно (20) и (21) соответственно ). " 3
«3 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 .1 1 .2
0.075 1 0 0 0 0 0 0 0 0 0
О.ЮО 1 7 1 4 6 . 4 0 5 27 10 0
0.125 5 29 86 103 42 0 44 305 119 0
0.150 1 70 284 359 160 3 138 1290 689 2
0.175 4 84 531 846 428 24 451 3384 2146 9
0.200 1 93 701 1523 872 110 848 6301 4556 71
0.225 1 52 727 2139 1680 269 1502 9732 7571 191
0.250 0 32 685 2812 2852 569 2123 12326 10144 312
0.275 0 27 610 3265 4398 1220 2746 13828 11593 508
о.зоо 0 6 486 3594 5114 2235 2876 13752 11107 553
0.325 0 2 311 3645 7310 3298 2740 12483 9511 477
0.350 0 2 186 3186 8633 4763 2385 10359 7000 303
0.375 0 0 78 2504 8842 5995 1929 7784 4781 149
0.400 0 0 52 .1723 8476 7495 1465 5157 2887 49
0.425 0 0 26 1145 7424 8358 1383 2950 1716 26
0.450 0 0 8 651 6212 8566 1520 1492 891 10
0.475 0 0 3 377 4527 8204 2001 658 453 1
заданных модулях структурных факторов.
Второй этап. Кластерный анализ множества допустишх
вариантов.
Поскольку в реальной ситуации эталонная гистограмма предсказывается с некоторой ошибкой, все варианты фазового набора, обеспечивающие не слишком большое значений критерия <Эз, должны рассматриваться как не противоречащие эталонной гистограмме, в данном тесте такими допустимыми наборами можно считать, например, 39 вариантов, обеспечивающих значение Оп(р=,рех) ' < 0.1. В реальной ситуации точные значения фаз неизвестны и значения критерия близости оз(р°,рех) сгенерированных фаз к точным не могут быть вычислены. Однако, могут быть рассчитаны попарные расстояния между допустимыми наборами фаз Процедуры кластерного анализа позволяют
на основе анализа матрицы попарных расстояний мезду допустимыми вариантами согавить представление о том, как эти варианты распределены в многомерном "конфигурационном" пространстве : образуют ли они одну или несколько компактных групп или разбросаны равномерно по всему пространству. Суть процедуры кластерного анализа заключается в том, что мы пытаемся объединить в кластеры варианты, находящиеся достаточно близко друг от друга
(варианты с Qg(Pj.p£) < s). Понятно, что по мере увеличения порогового значения е число вариантов в кластерах возрастает, а число кластеров убывает. Ход процесса объединения вариантов в кластеры представлен на рис.II (порядок, в котором изображены варианты на рисунке, выбран исходя из удобства представления дерева; он не соответствует, конечно, порядку, в котором эти варианты были сгенерированы). Анализ проводился при помощи программы PIM пакета программ BMDP [7].
Рис. II показывает, что 39 допустимых вариантов распадаются на два кластера : кластер а из 21 варианта и кластер в из 18 вариантов. При этом оказалось (таблица 4), что в кластер А попали варианты фазового набора, находящиеся на расстоянии Qs от 0.23 до 0.66 от точного, а в кластер в варианты, находящиеся . на расстоянии Qs > 0.69 от точного. Подчеркнем, что при разбивке вариантов на кластеры использовалась только матрица попарных
Phc.II. Схема разделения на кластеры вариантов в тесте с модельным белком.
расстояний между, вариантами и никак не использовалась информация о том, насколько эти варианты на самом деле близки к точному набору.
Третий эшп. Усреднение вариантов впутри кластера.
В качестве .решения фазовой проблемы, представляющего кластер, для каждого из кластеров выбирался его "центр тяжести". Более точно, в каждом из кластеров определялись для каждого из рефлексов показатель достоверности m(s) и "наилучшая"
pbest(B) по формуле : ,icpbest(s) =
1
i(p,(S) о J
ш(в) е1^ = — У
М ;)=1
Здесь м - число вариантов в кластере (оно равно 21 для кластера У, Ф^8) - значение соответствующей фазы в з-ом наборе. Естественно, перед усреднением все варианты были приведены к
единому началу координат и энантиоморфу. Для этого один из вариантов кластера был принят за реперный, а остальные приводились каздый в ту систему координат, в которой обеспечивалось минимальное расстояние <23 от репера. С модулями {Рех(в)} и полученными таким образом значениями фаз {фЪез1;(в)} был рассчитан синтез РА(г). Аналогичная процедура усреднения была применена к 18 вариантам кластера в и был рассчитан аналогичным образом синтез рв(г). На рис.12 приведены карты распределения электронной плотности в одном из сечений элементарной ячейки, отвечающие синтезам рА(г) и рв(г) и синтезу рех(г), рассчитанному с точными значениями фаз.
В таблице 4 приведены средние значения показателей достоверности и фазовой ошибки для фаз {<рЬегз*(8)}, полученных усреднением по кластерам айв. Из таблицы видно, что кластер, соответствущий правильному решению (кластер А), характеризуется большим средним показателем достоверности ж меньшим разбросом вариантов вокруг среднего, нежели кластер в, отвечающий постороннему решению фазовой проблемы.
Тестовое определение фаз для цтохрот Ь5 •
В качестве следующего объекта для тестирования метода был выбран белок цитохром 1)5 [8] (пространственная груша Р2,2 2,. размеры элементарной ячейки 65x46x30 А).' По координатам атомов, взятым из банка белковых молекул, были рассчитаны точные значения
Таблица 4. Характеристики кластеров, выделенных в тесте с модельной структурой.
Кластер к Кластер в
Число вариантов в кластере 21 18
Расстояние Q между элементами кластера и тбчным решением фазовой проблемы min max average ООО 23 66 45 0.89 1.12 0.97
< m > 0 52 0.41
< Qs(Pbest>Pj) >, 0 42 0.54
ов(рЪезЧрех) 0 34 0.95
С (pbest,psx) 0 94 0.55
< Kpbest_ (pexi >s (deg.) 40 . 71
структурных факторов, по ним рассчитан синтез Фурье разрешения 13.6А (29 рефлексов) и построена эталонная гистограмма. Далее была поставлена задача определения значений фаз структурных факторов зоны 13.6А, используя для этой цели лишь значения модулей структурных факторов и эталонную гистограмму.
Для этой цели было сгенерировано 500 ООО случайных наборов фаз и из них отобрано 49 вариантов, дащих близкую к эталону гистограмму ( он< 0.1). Процесс разбивки этих 49 вариантов на кластеры иллюстрируется рис.13. В лучшем из них было получено решение фазовой проблемы со средней фазовой ошибкой 32° и коэффициентом корреляции с точными фазами с=0.92. На рис.14
О
б)
Рис.12. Сечение г=6/40 синтезов Фурье разрешения ЗОА для модельной структуры :
а) точные значения фаз;
б) фазы,полученные усреднением по кластеру А;
в) фазы,полученные усреднением по кластеру В.
Значения модулей брались точными.
в)
показаны карты распределения электронной плотности для точного синтеза и синтеза с определенными указанным методом фазами.
Тестовое определение фаз для белка Бена-Джонса.
Этот белок кристаллизуется в пространственной группе Рй^г в ячейке с размерами 55x52x43 А, определялись фазы 25 низкоугловых рефлексов (разрешения до 16А). Ход вычислительного эксперимента был аналогичен тесту с цитохромом. Было сгенерировано 100 ООО случайных вариантов фазового набора и отобрано для дальнейшего анализа 488 вариантов. Процесс разбиения этих вариантов на кластеры показан на рис.15. Выделение кластера и усреднение вариантов внутри кластера позволило получить решение фазовой проблемы со редней фазовой ошибкой 41* и коэффициентом корреляции.с правильным решением С=0.93. На рис.16 показаны карты
Рис.13. Схема разделения на кластеры вариантов в тесте с цитохромом.
Рис.14. Точный синтез Фурье для ци-тохрома и синтез с фазами , определенными ab initio.
Показана проекция вдоль кристаллографической оси z.
электронной плотности, рассчитанные с фазами, определенными предложенным методом.
Таким образом, результаты тестов показывают, что следунцая процедура :
а) генерация случайных наборов фаз и отбор вариантов
фазового набора, приводящих к правильной гистограмме;
б) разбивка отобранных вариантов на кластеры, исходя из матрицы попарных расстояний103 между вариантами;
в) усреднение вариантов внутри кластеров ,
приводит к получению небольшого- числа возможных решений фазовой проблемы, в число . которых входит и решение достаточно близкое к правильному.
Рис.15.' Схема разделения на кластеры вариантов в тесте с белком Бена-Джонса. .
Рис. 16. Сечения синтеза Фурье для бежа Бен-Джонса, рассчитанного с фазами, определенными ab initio. Показаны положения атомов в модели бежа. (На синтезе показаны линии уровня, выделяющие 10, 30 и 50 % объема элементарной ячейки).
Определение фаз при разрешении 30 А для фактора элонгации g.
Работа по определению структуры фактора элонгации G из Termus Termophilus ведется под руководством Ю.Н.Чиргадзе в Институте белка АН СССР и в НИВЦ АН СССР. Белок кристаллизован в пространственной группе Р2(2121 и имеет параметры ячейки около 76x106x116 А [ 6 ].
Для предсказания гистограммы, которой должен обладать "правильный" синтез электронной плотности разрешения ЗОА.для с-фактора был применен подход, изложенный в главе 2.
Описанная выше модельная структура из двух молекл карбоксипептидазы допускает различные варианты размещения в элементарной ячейке. Наш были взяты три различных варианта допустимой упаковки и рассчитаны соотвествующие гистограммы, отвечандие разрешению ЗОА. Эти гистограммы оказались близки мезвду собой (значения попарных расстояний Qh между гистограммами не превышали 0.1). Далее работа по определению фаз проводилась в нескольких вариантах : с использованием поочередно кавдой из этих трех гистограмм и с использованием усредненной гистограммы. Во всех четырех вариантах работы были получены сходные результаты. Ниже мы опишем кратко ход работ с использованием усредненной гистограммы.
Было. сгенерировано 500 ООО вариантов фазового' набора и из них отобрано 44 варианта, дающих наилучшее соответствие с смоделированной гистограммой ( Qh < 0.125 ). Рис.17 иллюстрирует процесс выделения кластеров. В результате усреднения вариантов по выделенному кластеру были получены фазы, обладающие средним показателем достоверности 0.54. Разброс вариантов в кластере относительно среднего характеризоваля величиной Qs=0.46.
Рис.18 представляет проекцию элементарной ячейки вдоль кристаллографической оси х. Полученный синтез находится в хорошем соответствии с результатами, полученными методами электронной микроскопии.
Глава 6. ВЫЧИСЛИТЕЛЬНЫЕ ПРОБЛЕМЫ.
В этой главе рассматриваются некоторые вычислительные проблемы, возникающие при практической реализации подходов, изложенных в предыдущих главах.
Алгоритм быстрого дифференцирования.
Центральная тема этой главы связана с задачами минимизации функций, зависящих от большого числа переменных. Многие из
Рис.17. Схема разделения на кластеры вариантов при решении фазовой проблемы для фактора элонгации о.
Рис.18. Синтез Фурье разрешения 221 для фактора элонгации G с фазами,. определенными ai Initia.
Показана проекция элементарной ячейки вдоль оси х.
разобранных выше подходов сводились в конечном счете к минимизации некоторого сложным образом определенного критерия качества пробного набора фаз. При этом вычисление каждого значения такого критерия требует обычно ощутимых затрат процессорного времени компьютера. До 'последнего времени считалось, что наиболее трудноразрешимой проблемой при минимизации такого рода функций является расчет градиента минимизируемой функции (необходимого при минимизации, поскольку именно он определяет направление, в котором надо сдвигать варьируемые параметры для того, чтобы уменьшить значение целевой функции). Так. при вычислении частных производных по разностным формулам для расчета градиента требуется в п раз больше времени, нежели для расчета одного значения функции (п - число варьируемых параметров). При времени расчета одного значения критерия, исчисляемого минутами, и значительном числе переменных (в задаче уточнения атомной структуры, это число может достигать десятков
тысяч) задача расчета градиента может выглядеть неразрешимой. Однако, оказывается [10], что для любой функции ;С(х) произвольного числа переменных п можно построить алгоритм, требующий для расчета значений всех компонент градиента практически такое же время, которое нужно для расчета одного значения функции I(х). Этот факт имеет чрезвычайно важное методологическое значений для задач рентгеноструктурного анализа. Из него следует, что при локальном уточнении структуры исследуемого объекта в качестве критерия, контролирующего правильность модели, может использоваться любая характеристика объекта, доступная для вычисления на имеющемся у исследователя компьютере. Б главе 6 излагается реализация этой общей идеи для задач, возникающих при определении пространственной структуры вещества методами -рентгеноструктурного * анализа. В частности, разработанные алгоритмы позволили практически реализовать подходы, изложенные в предыдущих главах.
Кристаллы исследуемого вещества обладают, как правило, нетривиальной симметрией. Это обстоятельство позволяет, в частности, существенно экономить время компьютерных расчетов за счет использования этой симметрии. В диссертации показано, как симметрия может быть учтена в процессе быстрого расчета градиента минимизируемой функции.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.
1. Гистограммы синтезов Фурье конечного разрешения для функций распределения электронной плотности в кристаллах белков представляют новый вид дополнительной информации" об исследуемом объекте. Эти гистограммы чувствительны к ошибкам в значениях фаз структурных факторов и к пропуску отдельных рефшексов и могут использоваться как индикатор правильности значений структурных факторов, использованных для расчета синтеза.
2. Анализ гистограмм, отвечающих синтезам электронной плотности в белках с известной пространственной структурой, показывает, что при среднем и высоком разрешении синтезов гистограммы определяются, по существу, одним параметром - средней электронной плотностью в кристалле. Получены формулы, позволяющие предсказывать гистограммы для белков с неизвестной пространственной структурой. Предложен подход к моделированию гистограмм, отвечающим синтезам низкого разрешения.
3. Знанйе эталонной гистограммы для искомого синтеза
позволяет существенно повышать интерпретируемость синтеза электронной плотности в ситуации, когда для части структурных факторов значения фаз (а иногда и модулей) неизвестны.
4. Предложенный в диссертации подход к уточнению значений фаз структурных факторов, а также предложенные недавно такие методы уточнения значений фаз , как Histogram Specification [2] и Histogram Matching [3], могут рассматриваться как разные подходы к решению одной и той же задачи - нахождению функции с заданными модулями структурных факторов, обладающей предписанной гистограммой. Широко распространенный на практике Density Modification метод может рассматриваться как' упрощенный подход к решению сформулированной выше задачи.
5. Знание эталонной гистограммы для исследуемого объекта позволяет решать задачу прямого (только по данным рентгеновского эксперимента с нативным белком) определения значений фаз низкоугловых рефлексов.
6. Использование алгоритмов быстрого преобразования Фурье и быстрого дифференцирования позволяет строить эффективные алгоритмы для практического решения задач, связанных с определением и уточнением значений фаз структурных факторов гсходя из информации, содержащейся в гистограммах синтезов Фурье.
Результаты диссертации опубликованы в следующих работах :
1. Чиргадзе Ю.Н., Сергеев Ю.В., Фоменкова Н.П., Орешин В.Д., йконов C.B., Лунин В.Ю. "Прос?ранственная структура f-кристаллинов п и шь из глазной линзы теленка при разрешении SA". Тезисы V Всесоюзного симпозиума по химии и физике белков и гептидов, Баку, 1980, стр.138.
2. Chirgadze Yu.N., Oreshin V.D., Sergeev Yu.V., Nikonov S.V., junin V.Yu. "Structure of 7-crystallin 111Ъ from calf lens at 5A ■esolution". PEBS Letters, 1980, 118, p.2, 296-298.
3. Chirgadze Yu.N., Sergeev Yu.V., Fomenkova N.P., Lunin '.Yu., Urzhumtsev A.G. "The structure of "/-cryatallin 11 lb from all lens"., 1981, Acta Cryst., A37, S C-40.
4. Фоменкова H.П., Чиргадзе Ю.Н., Сергеев Ю.В., Невская H.A., иконов C.B., Лунин B.D., Уржумцев à.Г. "Структура ч-кристаллина: од цепи, пространственная гомология доменов, расположение ункциональных групп", i Всесоюзный биофизический съезд. Тезисы окладов пленарных лекций и симпозиальных заседаний, Москва, 982, стр. 17.
5. Чиргадзе D.H., Невская H.A., Лунин В.Ю., Уржумцев А.Г. "Молекулярная структура белка глазной линзы 7-кристаллина при разрешении 2.7А". 16 конференция Европейских биохимических обществ., Тезисы докладов, Москва, 1984, стр.232.
6. Lunin V.Yu., Urzhumtsev A.C. "Program construction for refinement of the atonic structure of macromolecules based on the fast differentiation algorithm", 1984, Acta Cryst., A40, S C-18.
7. Chirgadze Yu.N., Fomenkova M.P., Nevskaya N.A., Lunin V.Yu., Urzhumtsev A.G. "Crystal structure of the calf lens protein 7-crystallin III", 1984, Acta Cryst., A40, S C-32&
8. Lunin V.Yu., Urzhumtsev A.G. "Improvement of Protein Phases hy Coarse Model Modification", 1984, Acta Cryst., A40, 269-277.
9. Lunin V.Yu., Urzhumtsev A.G., Vernoslova E.A., Chirgadze Yu.N., Nevskaya N.A., Fomenkova N.P. "Phase Improvement in Protein Crystallography Using a Mixed Electron Density Model",
1985, Acta Cryst., A41, 166-171.
10. Lunin V.Yu., Urzhumtsev A.C. "Program Construction for Macromolecule Atomic Model Refinement Based on the Past Fourier Transform and Fast Differentiation Algorithms", 1985, Acta Cryst., ¿41, 327-333.
11. Lunin V.Yu. "Use of the Fast Differentiation Algorithm for Phase Refinement in Protein Crystallography", 1985, Acta Cryst., ¿41, 551-556.
12. Лунин В.Ю. "Использование информации о распределении значений электронной плотности в белках. I. Восстановление недостающих структурных факторов.", Препринт, ОНТИ НЦБИ, Пущино,
1986.
13. Чиргадзе D.H., Невская H.A., Фоменкова Н.П., Никонов С.В., Сергеев D.B., Бражников Е.В., Гарбер М.Б., Лунин В.П., Уржумцев А.Г., Вернослова Е.А. "Пространственная структура гамма-кристаллина шъ из хрусталика глаза теленка при разрешении 2.5А", 1986, Доклады АН СССР, 290, В.2, 492-495.
14. Urzhumtsev A.G., Lunin V.Yu., Luzyanina T.B. "Macromolecular position determination with a noisy synthesis at low resolution", 1986, Tenth European Crystallographic Meeting, Collected Abstracts, Wroclaw, Poland, 1A-01, 51-52.
15. Lunin V.Yu. "Use of the Information on Electron Density Distribution in Macromolecules", 1988, Acta Cryst., A44, 144-150.
16. Лунин B.D. "Восстановление недостающих структурных факторов при рентгеноструктурном исследовании макромолекул", 1988, доклады АН СССР, 299, в.2, 363-366.
17. Urzhumtsev A.G., Lunin V.Yu., Luzyanina T.B. "Bounding a
Molecule In a Noisy Synthesis", 1989, Acta Cryst., A45, 34-3918. Chirgadze Yu.N., Nevskaya N.A. , Vemoslova E.A., Hikonov S.V., Sergeev Yu.V., Brazhnikov E.V., Fomenkova IT.P. ,Lunin V.Yu., Urzhumtsev А.С. "Refined Structure of calf lens f-crystallln IIlb at 2.5A resolution", 1989, Twelth European Crystallographic meeting, Collected Abstracts, Vol.2, p.362, Moscow.
19. Lunin V.Yu., Skovoroda T.P. "Frequency analysis - new approach to phase improvement in protein crystallography", 1989, Twelth European Crystallographic meeting. Collected Abstracts, Vol.3, p.146, Moscow.
20. Urzhumtsev A.a., Lunin V.Yu., Vemoslova E.A. "PROG : new refinement program", 1989, Twelth European Crystallographic ueeting, Collected Abstracts, Vol.3, p.193, Moscow.
21. Уржумцев А.Г., Лунин В.Ю., Вернослова E.A. "PROG -комплекс программ для локального уточнения атомной структуры чакромолекул", 1989, Программное обеспечение ЭВМ, вып.86 "Компьютерные методы белковой инженерии", стр.86-97, Минск.
22. Urzhumtsev A.G., Lunin V.Yu., Vemoslova E.A. "New refinement program PROG gives new possibilities to study nacromolecular models", 1989, Proceedings of the first international meeting on Structure and Chemistry of iibonucleases, 410-415, Moscow.
23. Lunin V.Yu. "The Calculation of the Second Moments for the felues of Pourier Syntheses with Random Structure Factors", 1989, lota Cryst., A45, 501-505.
24. Urzhumtsev A.G., Lunin V.Yu., Vemoslova E.A. "FROG -ligh-speed restraint-constraint refinement' program". 1989, I.Appl.Cryst., 22, 500-506.
25. Lunin V.Yu., Urzhumtsev A.G., Skovoroda T.P. "Direct .ow-resolution phasing in protein crystallography", 1990, XV nternational Crystallographic Congress, Collected Abstracts, С 13, Bordeaux, France.
26. Lunin V.Yu., Urzhumtsev A.G., Skovoroda T.P. "Direct ow-Resolution Phasing from Electron-Density Histograms in 'rotein Crystallography", Acta Cryst., 1990, A46, 540-544.
'27. Lunin V.Yu., Skovoroda T.P. "Frequencies-Restrained 'tructure Factor Refinement. I. Histogram simulation ", 1991, eta Cryst., A47, 45-52.
28. Lunin V.Yu., Vemoslova E.A. "Frequencies-Restrained tructure Factor Refinement. II. Comparison of Methods", 991, Acta Cryst., A47, 238-243.
ЦИТИРУЕМАЯ ЛИТЕРАТУРА
t. Luzzati V., Mariani P. & Delacroix H. "X-ray crystallography at macromolecular resolution : a solution of the phase problem", Macromol.Chem. .Macromol.Symp.,- 1988, 15, 1-17.
2. Harrison R.W. "Histogram Specification as a Method of Density Modification", J.Appl.Cryst., 1988, 21, 949-952.
3. Zhang K.Y.J. & Main P. "Histogram Matching as a New Density Modification Technique for Phase Refinement and Extension of Protein Molecules", Acta Cryst., 1990, A46, 41-46.
4. Wright G.S., Alden R.A. & Kraut J. "Structure of subtilisin BPN' at 2.5A resolution", Nature, 1969, 221, 235-242.
5. Chirgadze Yu.N. , Nevskaya H.A., Vernoslova E.A., Urzhumtsev A.G. , Lindley P. & Bibby M. "Structure refinement of "dry" crystal form of calf eye lens—7-crystallin ШЪ at 1.9 A resolution", Twelfth European Crystallographic Meeting, 1989, Moscow, Collected Abstracts, vol.2, 363.
6. Chirgadze Yu.N., Nikonov S.V., Brazhnikov E.V., Garber M.B. & Reshetnikova L.S. "Crystallographic study of elongation factor G from Thermus thermophilus HB8", J.Mol.Biol., 1983, 168, 449-450.
7. Biomedical Computer Programs P-Series, 1977, Ed. by W.J.Dixon.
8. Mathews P.S., Levine M., Argos P. "The structure of calf liver cytochrome b5 at 2.8A resolution", 1971, Nature New Biol., v.233, 15-16.
9. Furey W.J., Wang B.C., Yoo C.S., Sax M. "Phase Extension and Refinement of Bence-J0ne3 Protein RHE (1.9A)", Acta Cryst., 1979, A35, 810-817.
10. Ким K.B., Нестеров D.E., Черкасский Б.В. "Оценка трудоемкости вычисления градиента", Доклады АН СССР, 1984, т.275, I306-1309.