Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов тема автореферата и диссертации по физике, 01.04.17 ВАК РФ

Автономов, Дмитрий Михайлович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2011 ГОД ЗАЩИТЫ
   
01.04.17 КОД ВАК РФ
Диссертация по физике на тему «Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов»
 
Автореферат диссертации на тему "Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов"

4оЭ£ч I »-

на правах рукописи

АВТОНОМОВ ДМИТРИЙ МИХАЙЛОВИЧ

Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов

01.04.17-химическая физика, горение и взрыв, физика экстремальных состояний вещества

автореферат диссертации на соискание ученой степени кандидата физико-математических наук

1 СЕН 2011

Москва 2011

4852472

Работа выполнена в Учреждении Российской академии наук Институте энергетических проблем химической физики РАН

Научный руководитель:

доктор физико-математических наук, профессор Николаев Евгений Николаевич

Официальные оппоненты: доктор физико-математических наук Горшков Александр Владимирович

доктор биологических наук, кандидат физико-математических наук, профессор

Поройков Владимир Васильевич

Ведущая организация:

Учреждение Российской академии наук Институт химической физики им. Н.Н. Семенова РАН

Защита состоится «21 » сентября 2011г. В 11 час. 00 мин. на заседании диссертационного совета Д 002.112.01 при Институте энергетических проблем химической физики Российской академии наук по адресу: 119334, г. Москва, Ленинский проспект, д. 38, корп.2, ИНЭПХФ РАН. С диссертацией можно ознакомиться в библиотеке Института химической физики им. H.H. Семенова Российской академии наук.

Автореферат разослан « 19 » августа 2011 г.

Ученый секретарь

диссертационного совета Д 002.112.01 кандидат физико-математических наук \ Ларичев М.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение. Актуальность работы

Современная масс-спектрометрия это мощный физический метод исследования, позволяющий не просто измерять массы, но также исследовать структуру вещества, благодаря чему она нашла широкое применение в биологических и медицинских исследования, в частности в таком их направлении, как протеомика, занимающемся изучением структуры и функций белков, их взаимодействием в живых организмах. Если раньше на идентификацию одного белка могли уходить дни и недели, то с приходом высокопроизводительных методик анализа при помощи масс-спектрометрии, исследователи получили возможность обнаруживать сотни белков за несколько часов. Это стало возможным не только благодаря успехам масс-спектрометрии, но и во многом благодаря успешной реализации проектов по расшифровке геномов различных организмов, в том числе и человека. В протеомике масс-спектрометрия выполняет следующие задачи: 1) высокоточное измерение отношений масс к заряду целых белков и пептидов, 2) измерение масс-спектров фрагментации белков и пептидов.

Высокая точности измерения масс достигается за счет того, что измеряемой величиной является частота (частота колебаний ионов в ловушках типа Кингдона (ОгЫ1тар) и циклотронных частот в масс-спектрометрах ионного циклотронного резонанса с преобразованием Фурье). Фрагментация производится различными физическими методами:

• столкновительная диссоциация - фрагментация путем столкновения с молекулами остаточного газа

• многофотонная инфракрасная диссоциация - фрагментация молекул при поглощении длинноволнового излучения

• диссоциация путем передачи электрона — разрыв связи осуществляется при передаче электрона иона донора с выделением энергии

• диссоциация при захвате медленных электронов Атомный состав молекул с массами до 500 Дальтон можно определить, как правило, путем точного измерения их масс с помощью масс-спектрометра. Разнообразие белков в организмах не позволяет однозначно идентифицировать любой белок лишь по его измеренной массе, даже если геном организма известен и известен набор белков, которые могут экспрессироваться, это сопряжено с целым рядом проблем. Во-первых, само по себе измерение масс таких тяжелых молекул, как целые белки, с высокой точностью является непростой задачей, а с понижением точности падает вероятность однозначной идентификации белка. Во-вторых, белки - это последовательности аминокислотных остатков и в них велика вероятность одиночных замен в этих последовательностях, что, в свою очередь, меняет массу всего белка. В самой распространенной методике идентификации белков в протеомике - по восходящей (bottom up), их предварительно гидролизуют ("разрезают" на куски) каким-либо ферментом, как правило, сайт специфичным (разрывающим связи лишь в определенных местах молекулы, например, между определенными аминокислотами), получая пептиды, смесь которых затем разделяют на жидкостном хроматографе и измеряют массы продуктов хроматографии при помощи масс-спектрометра. При обнаружении сигнала в масс-спектре, соответствующий ион изолируют, фрагментируют, измеряют масс-спектр фрагментов, который затем сравнивают с теоретическими масс-спектрами всех возможных пептидов белков из белковых баз данных (с учетом сайт-специфичности использованного фермента) для исследуемого организма. Основная цель, в данном случае, идентификация пептидов. Имея набор идентифицированных пептидов можно с некоторой вероятностью установить, каким белкам мог принадлежать данный набор. Но на стадии изоляции и фрагментации пептидов в масс-спектрометре может теряться значительная часть ионов, что ведет к ухудшению измеряемых спектров (или просто к недостаточности количества ионов для проведения фрагментации, в принципе), так как часть малоинтенсивных ионов может теряться в шуме. На измерение спектров фрагментации тратится дополнительное время, из-за чего некоторые пики

могут быть пропущены, так как пептиды, присутствующие в смеси в малых количествах могут смываться с хроматографической колонки в течение нескольких секунд.

В протеомных исследованиях (связанных с идентификацией или обнаружением большого количества белков) среди прочих применяется подход точной массово-временной метки. При его использовании шаг фрагментации ионов пептидов пропускается (что дает повышение чувствительности, так как нет дополнительных потерь ионов при проведении шага измерения спектров фрагментации), измеряются лишь их точные массы (зависящие лишь от физических параметров молекулы) и времена удержания в хроматографической колонке (также называемые временами элюирования или временами выхода из колонки), которые зависят от множества физико-химических свойств пептида и могут считаться постоянными при заданных хроматографических условиях (составе неподвижной фазы и элюента, температуре, рН и т.д.). Время - это дополнительное измерение, которое позволяет убрать неоднозначность при идентификации пептида. Имеется ряд ограничений, создающих трудности на пути более широкого распространения и применения данного метода.

При его использовании сначала составляется база данных, содержащая массы и времена удержания пептидов в хроматографической колонке, затем, при исследовании протеома интересующего образца, с ним проводят хромато-масс-спектрометрический эксперимент, в ходе которого измеряются массы и времена, которые затем сопоставляются с записями в заранее созданной базе данных. Одной из трудностей является сопоставление времен удержания пептидов, так как отсутствуют реперные точки, по которым мы могли бы связать времена в базе с временами в эксперименте, а временные шкалы могут сильно отличаться, если эксперименты по созданию базы и по последующему исследованию протеома проводились в различных хроматографических условиях. В диссертации предложен метод по нахождению таких реперных точек без использования каких-либо внешних калибрантов, не вносящий необходимость проведения каких-либо дополнительных экспериментов. Также предложена новая методика

позволяющая идентифицировать элементный состав ионов, изотопные кластеры которых были обнаружены в ходе проведения эксперимента, что, как было также показано, позволяет повысить уровень идентификации пептидов в белковых базах данных, даже если элементный состав определен с некоторой ошибкой, при условии высокой точности измерения масс.

Цель работы

Первоочередной целью настоящей работы является решение проблемы сопоставления хроматографических времен удержания пептидов, занесенных в базу данных точных массово-временных меток, с временами, получаемыми в экспериментах по протеомному скринингу. Также ставилась задача улучшения алгоритмов определения точной моноизотопной массы и элементного состава молекул по их масс-спектрам высокого и сверхвысокого разрешения. Требовалось создание с применением развитых методов базы точных массово-временных меток для протеома физиологических жидкостей человека, по которой можно осуществлять белковый скрининг.

Научная новизна работы

Разработана и запатентована новая методика надежного выравнивания хроматограмм, позволяющая нормировать времена даже при малом количестве доступных точек. Методика устойчива к шуму - большому количеству совпадающих по массам, но химически различных, ионов в нормируемых хроматограммах.

Предложен и обоснован метод расчета изотопных распределений молекул для случаев, когда количество атомов не является целым числом (например, становится возможным расчет интенсивности пиков изотопного кластера реально не существующей молекулы С 123.^25.5), что позволяет, например, использовать существующие методы расчета изотопных кластеров в алгоритмах оптимизации, требующих непрерывных функций. Данный метод был применен для создания алгоритма деизотопирования масс-спектров и определения элементного состава обнаруженных в нём изотопных кластеров.

В ходе работы была создана уникальная база данных для протеома мочи здоровых людей, а также пакет программного обеспечения, позволяющий хранить содержащуюся в базе информацию эффективным образом, производить по ней поиск и сравнительный анализ.

Практическая значимость работы

Новая методика нормировки хроматограмм может быть применена во всех случаях, когда полная хроматограмма недоступна (например, данные из статьи в журнале, или опубликованные списки белков и пептидов, обнаруженных разными исследовательскими группами). Также преимуществом является отсутствие привязки к какой-либо конкретной функции нормировки - может быть выбрана любая монотонная функция. Определение элементного состава иона позволяет лишь по массе и даже неточно определенному составу однозначно идентифицировать значительное количество пептидов даже в сложных организмах с большим протеомом (сравнимым по размеру с человеческим). Определение формы изотопного распределения для нецелого числа атомов позволяет применять существующие методы расчета изотопных распределений в новом круге задач.

Созданная база данных точных массово-временных меток мочи здоровых людей и может быть использована для высокопроизводительного анализа протеома мочи человека.

На защиту выносятся:

- метод фильтрации данных для надежного выравнивания хромаотограмм

- методика расчета интенсивностей пиков изотопных распределений виртуальных молекул, содержащих нецелочисленное количество атомов

- база точных массово-временных меток протеома мочи человека

Личный вклад автора

Автор является создателем программного пакета, позволяющего хранить и использовать созданную базу точных массово-временных меток. База точных массово-временных меток мочи человека создавалась при непосредственном участии автора в проведении спектрометрических экспериментов, обработке и анализе хромато-масс-спектрограмм совместно с И.А. Агроном (ИБХФ РАН, Москва), A.C. Кононихиным (ИНЭП ХФ РАН, Москва) и И.А. Поповым (ИНЭП ХФ РАН, Москва). Пробоподготовка для данных экспериментов осуществлялась совместно с С.А. Мошковским (ГУ НИИ БМХ РАМН, Москва). Методика нормировки хроматограмм разработана лично автором. Методика вычисления формы изотопных кластеров в случае нецелого числа атомов разработана совместно с А.Роквудом (ARUP Lab, Salt Lake City, Utah, USA) и И.А. Болдиным (ИНЭП ХФ РАН, Москва).

Апробация работы

Результаты работы докладывались на следующих Российских и международных конференциях: 58-ая ежегодная конференция американского масс-спектрометрического общества «масс-спектрометрия и смежные темы» в Солт Лейк Сити, США, 23-27 мая 2010; Четвертая Всероссийская конференция «Фундаментальные вопросы масс-спектрометрии и ее аналитические применения», Звенигород, Россия, 10 -14 октября 2010; 8-ая международная конференция организации "Протеом Человека" (HUPO) в Торонто, Канада, 26-30 сентября 2009; 57-ая ежегодная конференция американского масс-спектрометрического общества «масс-спектрометрия и смежные темы» в Филадельфии, США, июнь 2009.

Публикации

По материалам диссертации опубликовано 4 статьи в рецензируемых журналах и 11 тезисов конференций.

Структура и объем диссертации

Работа изложена на 107 страницах, содержит 27 рисунков, 4 таблицы. Диссертация состоит из введения, четырех глав, выводов, списка цитируемой литературы из 101 наименования и пяти приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе содержится литературный обзор, в котором описываются распространенные на данный момент подходы к идентификации белков при помощи масс-спектрометрии, приводится изложение сути метода точных массово-временных меток (AMT меток). Выделяются и описываются сложности, возникающие при реализации данного метода.

В современной протеомике с применением масс-спектрометрии имеется 5 основных способов идентификации пептидов:

1. Секвенирование de novo

2. Top-down подход

3. Bottom-up подход

4. Peptide Mass Fingerprint (PMF)

5. Подход точных массово-временных меток (AMT)

Все они, за исключением последних двух, имеют в своей основе использование тандемной масс-спектрометрии (МС/МС). Тандемным называют масс-спектрометр, имеющий два масс-анализатора. Первый масс-анализатор измеряет спектры молекулярных ионов. Покидая первый масс-анализатор, молекулярные ионы фрагментируются под действием соударений с молекулами инертного газа или излучения лазера, после чего спектры их фрагментов измеряются вторым масс-анализатором. Применение

такой методики является недостатком в определенных типах исследований, из-за дополнительных потерь ионов и времени, требуемого на измерение спектров фрагментации, например, когда требуется высокая скорость анализа либо когда количество исследуемого вещества очень мало.

Peptide mass fingerprint (PMF) - был разработан одним из первых и похож на подход Bottom-up, только в нём отсутствует шаг измерения спектров фрагментации пептидов. Белки гидролизуют, полученные пептиды разделяют на хроматографе и измеряют спектры продуктов хроматографии в реальном времени. Но массы пептидов, будучи измеренными даже с высокой точностью, не обладают достаточной уникальностью для идентификации таким способом белков, когда их количество в исходной смеси велико, метод применяют, когда требуется идентификация предварительно выделенного белка или небольшого набора белков.

Метод точных массово-временных меток - логическое продолжение методики Peptide mass fingerprint, позволяющее расширить границы её применимости. Изначальной проблемой метода PMF является неуникальность масс пептидов, но добавление еще одного измерения -времени удержания пептида в хроматографической колонке, делает идентификацию, как правило, однозначной. Но в имеющихся на данный момент белковых базах данных не содержится такого параметра как время, в них записаны аминокислотные последовательности, по которым можно рассчитать массу. Поэтому требуется создание баз данных на основе хромато-масс-спектрометрических экспериментов, в которых каждому сиквенсу сопоставлялось бы экспериментально измеренное хроматографическое время.

Белки

Биологические системы

V

форез + гидролиз ^

Пептиды

с

Наполнение > базы данных

СпИСОКпфтИДОв

(Масса/еремяу

Идентификация белков, пептидов

ВЭЖХ+ МС/МС :

Список маге .

вэжх+мс

• пептиды

^Биологический белков \

| образец г

t

Белки Пептиды

Извлечение гидролиз ^

< ' > _> ^

Быстрый

протеомный

скрининг

Рис. 1. Схема процедуры идентификации белков в смесях с применением Bottom-up подхода в протеомике.

Создание такой базы данных для протеома мочи человека было проведено в диссертации (далее в тексте упоминается также как просто "база"). Таким образом, применение метода точных массово-временных меток разделяется на два этапа: создание базы данных и её использование при последующем поиске (см. Рис. 1). Когда такая новая база данных создана, возникают следующие вопросы:

1. Как привести времена, записанные в базе данных для одной и той же аминокислотной последовательности, обнаруженной в разных экспериментах, к единому масштабу? (нормировка времен в базе данных)

2. При поиске по такой базе данных, как сравнить времена из эксперимента с временами в базе? (нормировка времен при поиске) Так как масштабы времен могут не совпадать.

3. Как выбрать критерии совпадения массы и времени из эксперимента с массой и временем в базе данных? (поиск по базе данных)

Ответам на которые посвящены последующие главы.

Во второй главе описывается структура созданной базы данных, предложенный метод нормировки хроматографических времен в ней и метод фильтрации данных, позволяющий выбрать опорные точки для нормировки времен из проведенного эксперимента к временам, хранящимся в базе данных. Также описана схема проведения поиска по вышеупомянутой базе.

Так как создаваемая база данных призвана содержать информацию о протеомах сложных объектов, объем данных может быть огромен. Важно эффективное хранение информации в компактном виде, но при этом без потери данных, и с сохранением возможности быстрого доступа, для проведения поиска по ней. В качестве основы была выбрана реляционная Система Управления Базами Данных (СУБД) MySQL версии 5, с открытым исходным кодом и распространяемая свободно под лицензией GNU GPL (General Public License). Общая структура данных и схема использования базы данных представлена на рисунке 2.

Результат

Рис. 2. Схематичное представление структуры хранения данных в базе AMT и её применения для поиска белков.

Нормировка времен хроматографического удержания в базе данных, производится одновременно для всех экспериментов, находящихся в ней. То есть при добавлении нового эксперимента будет проведена перекалибровка нормировочных коэффициентов для всех экспериментов. Проведенные тесты показали, что при проведении экспериментов на одной и той же хроматографической системе но при разных хроматографических условиях, мы наблюдаем лишь изменение масштаба шкалы времен (например, при изменении скорости потока мобильной фазы) и сдвиг этой шкалы. Поэтому для нормировки времен, хранящихся в базе данных, было выбрано простое линейное уравнение. Нормировка производится методом наименьших квадратов. Нам известно, какие пептиды должны совпадать по времени во

всех экспериментах, так как мы знаем их аминокислотные последовательности (на этапе создании базы мы идентифицируем все пептиды при помощи белковых баз данных).

Когда база создана, и времена хроматографического удержания пептидов в ней отнормированы, встает задача поиска по ней. Проведя хромато-масс-спектрометрический эксперимент без МС/МС, мы измеряем лишь полные массы пептидов и времена их удержания в колонке. Далее полученный список пар масса-время надо сравнить с записями в базе. Как проводить сравнение масс - очевидно, так как это величина абсолютная, а с временами возникает некоторая трудность, так как они измеряются относительно. Требуется выровнять временные шкалы проведенного эксперимента и базы данных, чтобы иметь возможность правильного их сравнения. Это сделать не так просто, так как заранее неизвестно, какие из пиков в измеренной хроматограмме соответствуют каким записям в базе. Для решения этой проблемы был предложен (и запатентован) метод выравнивания с использованием наибольшей общей подпоследовательности.

Что такое наибольшая общая подпоследовательность (англ. Longest common subsequence - LCS). Это такая последовательность в которой одинаковые элементы 2-х последовательностей имеют одинаковый порядок, т.е. это последовательность, которая является подпоследовательностью нескольких последовательностей (обычно двух), например, наибольшей общей подпоследовательностью двух строк 'ABCDABCD' и 'BCDECG'. будет строка 'BCDC'). На рис. 3 приведен пример хроматограмм с наибольшей общей подпоследовательностью из трех совпадающих по массам пиков и одним пиком (1024.5), хоть и совпадающим по массе, но выбивающимся из последовательности.

2330.9

/

1150.3

878.1

1575.1

1024.5

758.1

V V

1150.3 + 1575.1

I 1024.5

3 /

/

758.1

вргмя

-I время

Рис. 3. Пример 2-х хроматограмм, в которых последовательность 3-х пиков, совпадающих по массе одинаковая в обоих случаях, а один пик (масса 1024.5) не вписывается в эту последовательность.

Задача поиска наибольшей общей подпоследовательности хорошо известна, стандартными для ее решения являются методы динамического программирования. Смысл динамического программирования в том, чтобы исключить многократное вычисление одних и тех же величин, для этого расчетные данные записываются в различные структуры данных, например, для двухмерного случая (каковым является выравнивание двух хроматограмм) в матрицу. Алгоритм построения матрицы прост: по горизонтали откладываются массы из одной хроматограммы, отсортированные по времени элюирования, по вертикали массы из второй хроматограммы, отсортированные тем же образом. Если времена элюирования совпадают (времена элюирования совпадают у всех пиков, зарегистрированных в одном отдельном масс-спектре в хроматограмме), то пики сортируются по массе. На пересечении строки и столбца ставится

значение некоторой функции точности совпадения масс, например сигмоиды или ступенчатой функции для задания порога отсечения пиков, плохо совпадающих по массе (пример матрицы приведен на рис. 4). Целью процедуры является обход матрицы, начиная с верхнего левого угла, таким образом, что бы сумма значений в ячейках на пути была максимальной. При этом на каждом шаге необходимо смещаться минимум на одну клетку вправо и на одну клетку вниз относительно текущей позиции. Алгоритмы поиска таких путей также известны, один из которых был реализован в данной работе.

Список масс из эксперимента без MS/MS

2330.9 1150.3 878.1 1575.1 758.1 1024.5

1150.3 --------- —-

1024.5 •

1575.1

758.1 •

Рис. 4. Пример матрицы построенной для нахождения наибольшей общей подпоследовательности двух хроматограмм. Возможны два пути обхода данной матрицы, один из которых имеет большую длину.

На рисунке 5 приведен пример применения описанного алгоритма к реальным данным. Две хромато-масс-спектрограммы схожих образцов одной природы были измерены с промежутком в один день, одна хромато-масс-спектрограмма играла роль записей из базы данных, вторая являлась экспериментом без МС/МС, для которого требовалось осуществить поиск по этой виртуальной базе массово-временных меток. Как видно из рисунка, фильтрация помогает эффективно избавиться от всех выпадающих из общего тренда точек. Выделенные на рис. 5 Б) точки могут служить для нормировки. При этом выбор функции нормировки произволен, единственное

ограничение, накладываемое на неё - монотонность. В данном случае, работая на одном и том же оборудовании в схожих условиях было достаточно линейной функции, однако, при больших различиях в хроматографических условиях или внесении нелинейностей в них, может потребоваться другая функция, которая, однако, может подбираться автоматически.

11 (ыил)

у - 0.9838Х + 0.8356 R2 - 0.9996

1 1 1 1

30 3? ¿С; « И 5! Si б? ?3 tl (млн)

Рис. 5. Пример применения предлагаемого способа фильтрации данных, для надежного выравнивания хроматограмм. Точки на графиках соответствуют пикам, совпадающим по массе в 2-х хроматограммах с точностью 5ppm (parts per million — миллионные доли). На графике А) проведена линейная нормировка по методу наименьших квадратов, коэффициент корреляции получился равным 0.77, на графике Б) проведена предварительная фильтрация данных, затем точно такая же нормировка по методу наименьших квадратов, коэффициент корреляции возрос до 0.99, что соответствует почти идеальной линейно корреляции.

После того, как хроматографические времена удержания пептидов в эксперименте приведены к временам, записанным в базе данных, остается последний шаг - выборка пар масса-время, которые мы считаем совпавшими с базой. Для этого предлагается строить статистику числа точек, лежащих на заданном расстоянии от найденной линии, как показано на рисунке 6.

600 -,--........................т-................................:--------------г~...........................—

500 г............................................Т^^р***'^................

400 4..................¡..............—Jf-^r^--'---------------

; ¡ a?" i I

300 f-----------------!------------------i.........................-...............

í 200 }................ JJSk........................1-----------i-...........................................-...............

£ 3/ Л j

o loo m......,......--------f--------------- í..... —......................—

-íoo--------......-/--т------p—-------------------i

í. / ! I I

-200 --------_— -^sí——(----------4-----------------—j.........—...............-

-300 ■ ..................—.......»-----------------------1................................................- ..................—

Расстояние от прямой, (мин)

Рис. 6. Статистика числа точек, лежащих на заданном расстоянии от нормировочной линии. Синим (ромбы) отмечено число точек, лежащих на заданном расстоянии от линии, красным (квадраты) показана первая производная данной функции, зеленым (треугольники) - вторая производная.

По графику второй производной видно, что область нелинейности функции заканчивается приблизительно в районе 3-х минут. Исходя из предположения, что случайные совпадения по массе должны быть распределены более или менее равномерно, мы считаем, что в области нелинейности лежат действительные совпадения и предлагаем выбрать конец области нелинейности пороговым значением для отсечения ложных идентификаций. Применяя данное пороговое значение, получаем картину, показанную на

1

-....... / А - -.........

пГ

§

Jt \ ............

\ [ ~ и

--------ж , ч/ I Í

, ..................—»

Расстояние от прямой, (мин)

рисунке 7. На ней отражены идентифицированные пептиды. В диссертации предлагается схема оценки достоверности полученного результата.

♦ 4*

♦ ♦ « * ?

« ♦ ♦* p *

♦ ♦ ♦ 4 * W <• V Jur, 4m •

♦ f?

У4

О 20 40 60 ВО 100 120

Измеренное время, (мин)

Рис. 7. Точки из проведенного эксперимента, принятые, как идентифицированные пептиды при сравнении с базой данных с использованием предложенных методик.

В третьей главе дается описание методики деизотонирования масс-спектров, содержащих изотопные кластеры ионов. Предлагается и обосновывается метод расчета формы изотопных кластеров для случаев с нецелым числом атомов в молекуле, что имеет применение в алгоритмах оптимизации, работающих с изотопными кластерами.

На этапе создания АМТ базы данных применяется подход bottom-up. Однако также предлагается использовать дополнительную возможность идентификации пептидов по тем же масс-спектрам, измеренным в ходе создания базы. В работе была проведена оценка возможности использования для идентификации пептида не только его массы, но и, например число атомов углерода. Результаты показали, что можно понизить требования к

точности измерения масс (до рутинно достижимых на текущем уровне развития масс-спектрометрии) для уникальной идентификации большого количества пептидов даже в случае исследования сложного организма, имеющего геном сравнимый по размеру с человеческим. Для определения элементного состава пептидов предлагается схема, основанная на алгоритме оптимизации методом сопряженных градиентов - эффективном методе многопараметрической оптимизации. Алгоритм основывается на аппроксимации исследуемой функции квадратичной формой:

Где Н(хо) матрица вторых производных (Гессиан). Если Гессиан положительно определенный, то локальный минимум функции можно найти приравнивая градиент квадратичной формы нулю, откуда следует:

В нашем случае функция сложная и не задается аналитически:

В ней предполагается:

''' 0 ' • 0 ■•• /гаг'"

'ЕГ 'Г 4 • с* '«хр

Я" \ У <7 <Т ■ ; о • , о • • 4 ••■ •: • <Г - ; • <; ■■■ Ш"; • ск

Где /- минимизируемая функция, /? - вектор невязки, /шр - теоретические относительные интенсивности пиков в изотопных кластерах, /щГ'— значения

функции отклика прибора (в простейшем случае, вектор единиц, что соответствует пороговому уровню чувствительности прибора), с distr -относительные интенсивности соответствующих веществ в изотопном кластере (в случае наложения нескольких кластеров), /'ехр - экспериментально наблюдаемые интенсивности пиков в изотопном кластере. Данное матричное уравнение описывает разность между наблюдаемым изотопным кластером и какой либо пробной комбинацией теоретических кластеров, которую мы предложим. Как видно, найти производную / в общем случае невозможно, поэтому применяется модифицированная версия алгоритма - метод Флетчера-Ривза, не требующий знания Гессиана. Кратко алгоритм можно записать следующим образом:

1. start at some 7.d,<r--Vf(xJ

3. for i = ОД....л-ldo

a) obtain ak that minimizes g(a(a= f(xk +adk)

b)xk +1 <-xt + atdk

с

1ВД

dK« ^-WiXtJ+M*

4. x0 <r- x„

5. go back to step 2 until satisfied with results

Как видно, для его применения требуется знание хотя бы градиента функции /, но даже это не столь простая задача в нашем случае, так как в функции / переменными являются количества атомов различных элементов, по которым функция строит изотопное распределение. Однако, если мы хотим найти градиент подобной функции в заданной точке, нам необходимо уметь рассчитывать изотопные кластеры для случаев с нецелым числом атомов.

В диссертации приводится теоретическое обоснование методики расчета изотопных распределений в подобных случаях. Доказательство основывается на представлении функций, описывающих масс-спектры молекул, в пространстве Фурье и последующем разложении в ряд Тэйлора.

Масс-спектр элемента Е представляется следующей функцией в пространстве масс:

Где аа интенсивность 1-го изотопа элемента Е, а тв его масса. Эта же функция в пространстве Фурье имеет вид:

Известно, что масс-спектр молекулы из N атомов представляет собой свертку спектра одиночного атома данного элемента самого с собой N раз. По известной теореме о свертке, свертка в обычном пространстве эквивалентна произведению в пространстве Фурье, таким образом, масс-спектр молекулы из N атомов обретает следующий вид в этом пространстве:

Если вынести член, соответствующий моноизотопу, за скобки, получим:

Разобьем N на сумму к + у, где к - целая часть Ы, а у - десятичная. Введем дополнительное обозначение:

Тогда в Фурье пространстве спектр обретает простую форму записи:

fQj^ — £N _ ^e-2i7Tfi*m0^Nsx+y _ ^-2infi >m0^N£x£y

f(il) = (e-ZÎ*f"4,)V(l + (£ - 1))У Обозначив z = £ — 1 получим:

/00 = (e-2ùr'i*m°)V(l +z)y

И, разлагая второй член в ряд Тэйлора около нуля:

/ад = (e-2f4<™o)V(1 + yz + у у(у - 1) + ^-у(у - 1) + - )

ОО п П-1

fin) = (e-2te"™oyV £ - «О

n=0 ' fc=0

Коэффициенты данного ряда быстро уменьшаются, и без серьезной потери точности вычислений можно оставить лишь первые два члена разложения: 2/е00 = (e-^^yVa + yz) = (e-2to<"n°)'V(l + y(£ -1)) = (е"2™'""»)Л'г,С1+уЕ-у)

= (£х + уех+1 _ у£ху = (e-2i4< m°)N (1 - у) + у£*+1)

Что соответствует взвешенной линейной интерполяции между изотопными кластерами, соответствующими молекулам, содержащим х и х+/ атомов. При этом как массы, так и интенсивности пиков меняются равномерно и непрерывно, что позволяет составить дифференцируемую функцию для использования в вышеописанной задаче оптимизации. На рисунке 8 показан пример расчета формы изотопного кластера в случае нецелого числа атомов (пример для вымышленной молекулы C13.4.S23.5).

O.OCOCOI4 Q.OC-00012 O.OQOCCIO О.ОСООАОв 0.0000006 0.0000004 0.0000002 0.0000000

Full spectrum from Taylor expansion: C13.4S23.S

A.

JL

Element: C13.4 Taylor cogf num: 0

aoouoooa 0.0000006

Рис. 8 Изотопное распределение молекулы С^з.^гз.Б С (вверху), далее вклады первого и второго членов ряда Тэйлора (для атомов углерода и серы отдельно) в общий суммарный спектр.

В четвертой главе приводится описание созданной базы точных массово-временных меток для протеома мочи человека, статистика по ней и качественный анализ полученных результатов, в том числе данных, собранных в процессе создания базы данных.

Всего было проведено 233 хромато-масс-спектрометрических эксперимента с образцами мочи собранными в клинических условиях от здоровых людей.

По данным экспериментам было идентифицированно:

1 Пептиды Белки

Используя все пептиды 2758 840

Используя только протеотиническис пептиды 1129 421

Статистика измерений показала, что Зх экспериментов с одним образцом достаточно, для обнаружения подавляющего большинства пептидов в смеси (на рис. 9 приведен пример для одного конкретного образца мочи). Проведение последующих экспериментов даёт лишь несколько процентов новых идентификаций, появляться они могут всегда и связаны с ложноположительными идентификациями.

Рис. 9. Относительные количества новых пептидных идентификаций при нескольких последовательных экспериментах с одним образцом (номера экспериментов указаны цифрами справа от столбца).

Проводя по 3 эксперимента для каждого образца, мы приблизились к максимально возможно глубокому исследованию данного протеома на нашем оборудовании (ограничения по чувствительности масс-спектрометра). Дальнейшее исследование протеома было бы необоснованным, так как для обнаружения каждого нового белка требуется экспоненциально большее время (на рис. 10 приведена статистика по первым 100 экспериментам, голубыми стрелками показаны шаги одинакового увеличения кол-ва белков в базе данных).

О 21! 4!| 60 80 100 120

Кол-во зшткримекгов

Рис. 10. Рост количества идентификаций в базе данных по мере её наполнения. Вертикальные голубые стрелки показывают шаги одинакового увеличения кол-ва идентификаций, длина горизонтальных стрелок на оси абсцисс пропорциональна времени, необходимому для обнаружения новых

белков.

Выводы:

1) Была предложена и опробована новая методика фильтрации данных хромато-масс-спектрометрических измерений для надежного выравнивания хроматограмм, способная работать даже при наличии большой зашумленности масс-спектров и малом общем доступном для сравнения количестве точек.

2) Проведено теоретическое обоснование возможности расчета формы огибающих изотопных кластеров в масс-спектрах для нецелого числа атомов и показано, как расчет может проводиться при помощи существующих методов расчета изотопных кластеров, работающих в случаях, когда число атомов целое.

3) Создана база данных точных массово-временных меток для протеома мочи человека, на основе которой можно проводить быстрый протеомный анализ. Предложена методика проведения поиска по ней с оценкой достоверности полученных идентификаций.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Dmitry Avtonomov, Ilya Agron, Eugene Nikolaev. A New Approach to Deisotoping of Complex Isotopically Resolved Spectra. 58th Amer. Soc. Mass Spectrom. Annual Conf. on Mass Spectrometry & Allied Topics, Salt Lake City, UT, USA, 2010.

2. Ilya A. Agron, Dmitriy M. Avtonomov, Eugene Nikolaev. Implementation of 180 labeling for urine proteome quantification using accurate mass tag retention time data base. 58th Amer. Soc. Mass Spectrom. Annual Conf. on Mass Spectrometry & Allied Topics, Salt Lake City, UT, USA, 2010.

3. D.M. Avtonomov and E.N. Nikolaev. On The Usage of The Number of Carbon Atoms for Peptide Mass Fingerprinting. 8th Annual World Congress of Human Proteome Organization, Toronto, Canada, September 26-30, 2009.

4. Ilya A Agron, Dmitriy M. Avtonomov, Eugene Nikolaev. Approach for Isotopic Distribution Deconvolution in Mass Spectra of Peptide Compounds. 8th Annual World Congress of Human Proteome Organization, Toronto, Canada, September 26-30, 2009.

5. A Bugrova, T Shevchenko, A Kononikhin, A Zhiryakova, I Popov, N Khristenko, I Agron, D Avtonomov, G Kalamkarov, E Nikolaev. Development of the Platform for Comparative Analysis of the Tear

Proteome based on the AMT Approach. 8th Annual World Congress of Human Proteome Organization, Toronto, Canada, September 26-30, 2009.

6. Dmitriy M. Avtonomov, Ilya A. Agron, Eugene N. Nikolaev. On the usage of information about the number of carbon atoms in peptides for protein identification. 57th Amer. Soc. Mass Spectrom. Annual Conf. on Mass Spectrometry & Allied Topics, Philadelphia, PA, USA, June, 2009.

7. Д.М. Автономов, A.C. Кононихин, И.А. Попов, E.H. Николаев. Поиск пост-трансляционных модификаций методами кластеризации масс-спектров триптических пептидов и статистики разностей масс для повышения достоверности идентификации исходных белков. // Масс-спектрометрия в химической физике, биофизике и экологии. 3-я Международная Конференция-школа, Звенигород, Россия, 16-21 Апреля, 2007.

8. Е.Н. Николаев, А.С. Кононихин, В.Г. Згода, С. А. Мошковский, О.Н. Харыбин, И.А. Попов, Д.М. Автономов, И.А. Агрон, B.C. Курова, О.В. Демина, С.Д. Варфоломеев. Разработка и применение метода точной массовой метки в масс-спектрометрии для хромато-масс-спектрометрического анализа протеома мочи II Фундаментальные науки - медицине. Материалы конференции, М.: Фирма «Слово», стр. 168-169, 2006 г.

9. Автономов Д.М., Попов И.А., Кононихин А.С., Агрон И.А., Мошковский С.А., Ларина И.М., Замулаева И.А., Варфоломеев С.Б., Арчаков А.И., Николаев Е.Н. Создание базы точных массово-временных меток для протеома мочи человека и нормировка времен хроматографического удержания в ней. 3-я Международная Конференция-школа, Звенигород, Россия, Октябрь, 2010.

10.Evgenij N Nikolaev, IA Popov, AS Kononikhin, IA Agron, DM Avtonomov, SA Moshkovsky, IM Larina, IA Zamulaeva, С Masselon, AI Archakov. Accurate Mass Tag Retention Time Database for Urine Proteome. 8th Annual World Congress of Human Proteome Organization, Toronto, Canada, September 26-30, 2009.

11. Дмитрий Автономов, Алексей Кононихин, Евгений Николаев. Создание базы данных для быстрого протеомного скрининга

биологических жидкостей человеческого тела с использованием подхода точной массово-временной метки. 50-ая конференция МФТИ, Долгопрудный, Россия, 2007.

12.D. М. Avtonomov, I. A. Agron, A. S. Kononikhin, I. A. Popov, Е. N. Nikolaev. "A New Method for Normalization of the Peptide Retention Times in Chromatographic/Mass Spectrometric Experiments". Bioorganic chemistry (Moscow), 2011, Vol. 37, No. 2, pp. 146-150.

13.1. A. Agron, D. M. Avtonomov, A. S. Kononikhin, I. A. Popov, S. A.

Moshkovskii, E. N. Nikolaev. "Accurate Mass Tag Retention Time Database for Urine Proteome Analysis by Chromatography-Mass Spectrometry". Biochemistry (Moscow), 2010, Vol. 75, No. 5, pp. 636-641.

14. Автономов Д.М., Агрон И.А., Кононихин A.C., Николаев Е.Н. Создание базы данных точных массово-временных меток для качественного и количественного подхода в исследовании протеома мочи человека с использованием изотопного мечения. Труды МФТИ, Том 1, No. 1,2009.

15. Автономов Д.М., Кононихин А.С., Попов И.А., Пастушкова Л.Х., Ларина И.М., Николаев Е.Н. Способ выравнивания хроматограмм пептидных смесей.Зшгвш на патент № 2010140839 от 6 Октябрь 2010.

16. И.А. Агрон, Д.М. Автономов, А.С. Кононихин, И.А. Попов, С.А. Мельник, С.А. Мошковский, Е.Н. Николаев. "Комбинация подходов точной массово-временной метки и мечения изотопом кислорода 180 для количественного анализа протеома мочи человека". Труды МФТИ, Том 3, № 3, 2011, стр. 3-10.

Подписано в печать:

15.08.2011

Заказ № 5793 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Автономов, Дмитрий Михайлович

Введение.

Глава 1. Методики идентификации белков в смесях с применением масс-спектрометрии.

Развитие применения масс-спектрометрии в протеомике.

Подходы к идентификации белков методами масс-спектрометрии, существующие на данный момент.

Peptide mass fingerprint.

Подход bottom-up.

Подход top-down.

Секвенирование de novo.

Метод точных массово-временных меток.

Глава 2. Нормировка хроматографических времен удержания.

Экспериментальное измерение времен удержания пептидов в хроматографической колонке.

Выравнивание времен хроматографического удержания между экспериментами, составляющими базу AMT меток.

Расчет коэффициентов нормировки для экспериментов в базе данных AMT меток.

Случай отсутствия общего пептидного пересечения во всех экспериментах, занесенных в AMT базу данных.

Выравнивание времен хроматографического удержания между базой данных и экспериментом без МС/МС.

Наибольшая общая подпоследовательность

Поиск наибольшей общей подпоследовательности пиков в хромато-масс-спектрограммах.

Применение предлагаемого метода фильтрации данных по наибольшей общей подпоследовательности.

Поиск по базе точных массово временных меток.

Схема оценки достоверности результатов поиска по базе АМТ меток.

Глава 3. Способ построения изотопных распределений молекул, содержащих нецелое количество атомов.

Представление и расчет масс-спектра молекулы.

Полиномиальное представление.

Представление в виде суммы дельта функций.

Методика построения масс-спектров изотопных кластеров, основанная на преобразовании Фурье.

Прямой расчет интенсивностей пиков изотопного кластера молекулы в случае нецелого числа атомов в ней.

Расчет изотопных распределений для случаев нецелого числа атомов в молекуле, используя любой из существующих целочисленных методов построения изотопных распределений.

Глава 4. База точных массово-временных меток для протеома мочи человека

Объект исследования.

Методы исследования.

Сбор образцов мочи.

Подготовка проб для хромато-масс-спектрометрии.

Хромато-масс-спектрометрия.

Анализ данных и идентификация белков.

Структура базы данных.

Созданная база точных массово-временных меток для протеома мочи человека.

Аннотация белков по Gene Ontology.

Статистика измерений.

Выводы.

 
Введение диссертация по физике, на тему "Развитие метода точной массово-временной метки и его практическое применение при исследовании протеомов"

Современная масс-спектрометрия это мощный физический метод исследования, позволяющий не просто измерять массы, но также исследовать структуру вещества, благодаря чему она нашла широкое применение в биологических и медицинских исследования, в частности в таком их направлении, как протеомика, занимающемся изучением структуры и функций белков, их взаимодействием в живых организмах. Если раньше на идентификацию одного белка могли уходить дни и недели, то с приходом высокопроизводительных методик анализа при помощи масс-спектрометрии, исследователи получили возможность обнаруживать сотни белков за несколько часов. Это стало возможным не только благодаря успехам масс-спектрометрии, но и во многом благодаря успешной реализации проектов по расшифровке геномов различных организмов, в том числе и человека. В протеомике масс-спектрометрия выполняет следующие задачи: 1) высокоточное измерение отношений масс к заряду целых белков и пептидов, 2) измерение масс-спектров фрагментации белков и пептидов.

Высокая точности измерения масс достигается за счет того, что измеряемой величиной является частота (частота колебаний ионов в ловушках типа Кингдона (ОгЫйгар) и циклотронных частот в масс-спектрометрах ионного циклотронного резонанса с преобразованием Фурье). Фрагментация производится различными физическими методами:

• столкновительная диссоциация - фрагментация путем столкновения с молекулами остаточного газа

• многофотонная инфракрасная диссоциация — фрагментация молекул при поглощении длинноволнового излучения

• диссоциация путем передачи электрона — разрыв связи осуществляется при передаче электрона иона донора с выделением энергии

• диссоциация при захвате медленных электронов

Атомный состав молекул с массами до 500 Дальтон можно определить, как правило, путем точного измерения их масс с помощью масс-спектрометра. Разнообразие белков в организмах не позволяет однозначно идентифицировать любой белок лишь по его измеренной массе, даже если геном организма известен и известен набор белков, которые могут экспрессироваться, это сопряжено с целым рядом проблем. Во-первых, само по себе измерение масс таких тяжелых молекул, как целые белки, с высокой точностью является непростой задачей, а с понижением точности падает вероятность однозначной идентификации белка. Во-вторых, белки - это последовательности аминокислотных остатков и в них велика вероятность одиночных замен в этих последовательностях, что, в свою очередь, меняет массу всего белка. В самой распространенной методике идентификации белков в протеомике - по восходящей (bottom up), их предварительно гидролизуют ("разрезают" на куски) каким-либо ферментом, как правило, сайт специфичным (разрывающим связи лишь в определенных местах молекулы, например, между определенными аминокислотами), получая пептиды, смесь которых затем разделяют на жидкостном хроматографе и измеряют массы продуктов хроматографии при помощи масс-спектрометра. При обнаружении- сигнала в масс-спектре, соответствующий ион изолируют, фрагментируют, измеряют масс-спектр фрагментов, который затем сравнивают с теоретическими масс-спектрами всех возможных пептидов белков из белковых баз данных (с учетом сайт-специфичности использованного фермента) для исследуемого организма. Основная цель, в данном случае, идентификация пептидов. Имея набор идентифицированных пептидов можно с некоторой вероятностью установить, каким белкам мог принадлежать данный набор. Но на стадии изоляции и фрагментации пептидов в масс-спектрометре может теряться значительная часть ионов, что ведет к ухудшению измеряемых спектров (или просто к недостаточности количества ионов для проведения фрагментации, в принципе), так как часть малоинтенсивных ионов может теряться в шуме. На измерение спектров фрагментации тратится дополнительное время, из-за чего некоторые пики могут быть пропущены, так как пептиды, присутствующие в смеси в малых количествах могут смываться с хроматографической колонки в течение нескольких секунд.

В протеомных исследованиях (связанных с идентификацией или обнаружением большого количества белков) среди прочих применяется подход точной массово-временной метки. При его использовании шаг фрагментации ионов пептидов пропускается (что дает повышение 6 чувствительности, так как нет дополнительных потерь ионов при проведении шага измерения спектров фрагментации), измеряются лишь их точные массы (зависящие лишь от физических параметров молекулы) и времена удержания в хроматографической колонке (также называемые временами элюирования или временами выхода из колонки), которые зависят от множества физико-химических свойств пептида и могут считаться постоянными при заданных хроматографических условиях (составе неподвижной фазы и элюенга, температуре, рН и т.д.). Время - это дополнительное измерение, которое позволяет убрать неоднозначность при идентификации пептида. Имеется ряд ограничений, создающих трудности на пути более широкого распространения и применения данного метода.

При его использовании сначала составляется база данных, содержащая массы и времена удержания пептидов в хроматографической колонке, затем, при исследовании протеома интересующего образца, с ним проводят хромато-масс-спектрометрический эксперимент, в ходе которого измеряются массы и времена, которые затем сопоставляются с записями в заранее созданной базе данных. Одной из трудностей является сопоставление времен удержания пептидов, так как отсутствуют реперные точки, по которым мы могли бы связать времена в базе с временами в эксперименте, а временные шкалы могут сильно отличаться, если эксперименты по созданию базы и по последующему исследованию протеома проводились в различных хроматографических условиях. В диссертации предложен метод по нахождению таких реперных точек без использования каких-либо внешних калибрантов, не вносящий необходимость проведения каких-либо дополнительных экспериментов. Также предложена новая методика позволяющая идентифицировать элементный состав ионов, изотопные кластеры которых были обнаружены в ходе проведения эксперимента, что, как было также показано, позволяет повысить уровень идентификации пептидов в белковых базах данных, даже если элементный состав определен с некоторой ошибкой, при условии высокой точности измерения масс.

Первоочередной целью настоящей работы является решение проблемы сопоставления хроматографических времен удержания пептидов, занесенных в базу данных точных массово-временных меток, с временами, получаемыми в экспериментах по протеомному скринингу. Также ставилась, задача улучшения алгоритмов определения точной моноизотопной массы и элементного состава молекул по их масс-спектрам высокого и сверхвысокого разрешения. Требовалось создание с применением развитых методов базы точных массово-временных меток для протеома физиологических жидкостей человека, по которой можно осуществлять белковый скрининг.

Научная новизна работы

Разработана и запатентована новая методика надежного выравнивания хроматограмм, позволяющая нормировать времена даже при малом количестве доступных точек. Методика устойчива к шуму - большому количеству совпадающих по массам, но химически различных, ионов в нормируемых хроматограммах.

Предложен и обоснован метод расчета изотопных распределений молекул для случаев, когда количество атомов не является целым числом (например, становится возможным расчет интенсивности пиков изотопного кластера реально не существующей молекулы 012.3825.5), что позволяет, например, использовать существующие методы расчета изотопных кластеров в алгоритмах оптимизации, требующих непрерывных- функций. Данный метод был применен для создания алгоритма деизотопирования масс-спектров и определения элементного состава обнаруженных в нём изотопных кластеров.

В ходе работы была создана уникальная база данных для протеома мочи здоровых людей, а также пакет программного обеспечения, позволяющий хранить содержащуюся в базе информацию эффективным образом, производить по ней поиск и сравнительный анализ.

Практическая значимость работы

Новая методика нормировки хроматограмм может быть применена во всех случаях, когда полная хроматограмма недоступна (например, данные из статьи в журнале, или опубликованные списки белков и пептидов, обнаруженных разными исследовательскими > группами). Также преимуществом является отсутствие привязки к какой-либо конкретной функции нормировки - может быть выбрана любая монотонная функция. Определение элементного состава иона позволяет лишь по массе и даже неточно определенному составу однозначно идентифицировать значительное количество пептидов даже в сложных организмах с большим протеомом (сравнимым по размеру с человеческим). Определение формы изотопного распределения для нецелого числа атомов позволяет применять существующие методы расчета изотопных распределений в новом круге задач.

Созданная база данных точных массово-временных меток мочи здоровых людей и может быть использована для высокопроизводительного анализа протеома мочи человека.

Структура диссертации

Первая глава является литературным обзором, в котором описываются распространенные на данный момент подходы к идентификации белков при помощи масс-спектрометрии, приводится изложение сути метода точных массово-временных меток (AMT меток). Выделяются и описываются проблемы и сложности, возникающие при реализации данного метода.

Во второй главе описывается предложенный метод нормировки хроматографических времен в базе точных массово-временных меток и метод фильтрации данных, позволяющий выбрать опорные точки для нормировки времен из проведенного эксперимента к временам, хранящимся в базе данных. Также описана схема проведения поиска по вышеупомянутой базе и оценки качества результатов поиска.

Третья глава посвящена методикам расчета формы изотопных кластеров молекул. Выделяется нерешенная проблема расчета их формы для случаев нецелого числа атомов в молекуле, предлагается и обосновывается метод её решения.

В четвертой главе описывается методика постановки экспериментов, сбора образцов для них, структура спроектированной базы данных. Приводятся результаты по созданной базе точных массово-временных меток для протеома мочи человека.

 
Заключение диссертации по теме "Химическая физика, в том числе физика горения и взрыва"

Выводы

1) Была предложена и опробована новая методика фильтрации данных хромато-масс-спектрометрических измерений для надежного выравнивания хроматограмм, способная работать даже при наличии большой зашумленности масс-спектров и малом общем доступном для сравнения количестве точек.

2) Проведено теоретическое обоснование возможности расчета формы огибающих изотопных кластеров в масс-спектрах для нецелого числа атомов и показано, как расчет может проводиться при помощи существующих методов расчета изотопных кластеров, работающих в случаях, когда число атомов целое.

3) Создана база данных точных массово-временных меток для протеома мочи человека, на основе которой можно проводить быстрый протеомный анализ. Предложена методика проведения поиска по ней с оценкой достоверности полученных идентификаций.

 
Список источников диссертации и автореферата по физике, кандидата физико-математических наук, Автономов, Дмитрий Михайлович, Москва

1. P. James, "Protein identification in the post-genome era: the rapid rise of proteomics.," Quarterly reviews of biophysics, vol. 30 (4), pp. 279-331, 1997.

2. M. B. Comisarow and A. G. Marshall, "Fourier transform ion cyclotron resonance spectroscopy," Chemical Physics Letters, vol. 25, no. 2, pp. 282283, March 1974.

3. M. L. Alexandrov, L. N. Gall, N. V. Krasnov, V. I. Nikolaev, V. A. Pavlenko, and V. A. Shkurov, "On the Working Characteristics of the Ion Source with Electrohydrodinamic Introduction of Liquids into the Mass

4. Spectrometer," Int. J. Mass Spectrom. & Iort Phys., vol. 46, pp. 231-235, 1983.

5. M. Yamashita and J. B. Fenn, "Electrospray ion source. Another variation on the free-jet theme," Journal of Physical Chemistry, vol. 88, no. 20, pp. 44514459, 1984.

6. J. B. Fenn, M. Mann, С. K. Meng, S. F. Wong, and С. M. Whitehouse, "Electrospray ionization for mass spectrometry of large biomolecules," Science, vol. 246 (4926), pp. 64-71, 1989.

7. M.JT. Александров, JI.H. Галль, H.B. Краснов, В.И. Николаев, and В.А. Шкуров, "Прямая стыковка микроколоночного жидкостного хроматографа с масс-спектрометром," Биоорганическая химия, vol. 10, pp. 710-711, 1984.

8. М. Karas and F. Hillenkamp, "Laser desorption ionization of proteins with molecular masses," Anal Chem., vol. 60, no. 20, pp. 2299-2301, 1988.

9. M. S. Wilm and M. Mann, "Electrospray and Taylor-Cone theory, Dole's beam of macromolecules at last?," International Journal of Mass Spectrometry and Ion Processes, vol. 136, no. 2-3, pp. 167-180, 1994.

10. F. S. Collins, E. D. Green, A. E. Guttmacher, and M. S. Guyer, "A vision for the future of genomics research," Nature, vol. 422(6934), pp. 835-847, 2003.

11. S. E. Lander, "Initial sequencing and analysis of the human genome," Nature, vol. 409(6822), pp. 860-921, 2001.

12. J. C. Venter, "The sequence of the human genome," Science, vol. 291, pp. 1304-51,2001.

13. International Human Genome Sequencing Consortium, "Finishing the euchromatic sequence of the human genome," Nature, vol. 431 (7011), pp. 931-45, 2004.

14. O. N. Jensen, "Modification-specific proteomics: characterization of posttrans lational modifi-cations by mass spectrometry," Curr. Opin. Chem. Biol., vol. 8(1), pp. 33-41, 2004.

15. K. Tanaka, H. Waki, Y. Ido, S. Akita, Y. Yoshida, and T. Yoshida, "Protein and Polymer Analyses up to m/z 100 000 by Laser Ionization Time-of flight Mass Spectrometry," Rapid Commun Mass Spectrom, vol. 2, no. 20, pp. 151-3.

16. D. Fenyo, J. Qin, and B. J. Chait, "Protein identification using mass spectrometric information," Electrophoresis, vol. 19, pp. 998-1005, 1998.

17. D. Fenyo, J. Eriksson, and R. Beavis, "Mass spectrometric protein identification using the global proteome machine," Methods Mol. Biol, vol. 673, pp. 189-202, 2010.

18. J. Eriksson and D. Fenyo, "Protein identification in complex mixtures," J Proteome Res, vol. 4, pp. 387-93, 2005.

19. J. Eriksson and D. Fenyo, "Improving the success rate of proteome analysis by modeling protein-abundance distributions and experimental designs," Nat Biotechnol, vol. 25, pp. 651-5, 2007.

20. O. N. Jensen, A. V. Podtelejnikov, and M. Mann, "Identification of the components of simple protein mixtures by high accuracy peptide mass mapping and database searching," Anal Chem, vol. 69, pp. 4741—50, 1997.

21. D. A. Wolters, M. P. Washburn, and J. R. Yates, "An Automated Multidimensional Protein Identification Technology for Shotgun Proteomics," Anal. Chem., vol. 73, no. 23, pp. 5683-5690, 2001.

22. Jack Simons, "Mechanisms for S-S and N-Ca bond cleavage in peptide ECD and ETD mass spectrometry," Chemical Physics Letters, vol. 484, no. 4-6, pp. 81-95, 2010.

23. A. G. Harrison, "To b or not to b: the ongoing saga of peptide b ions," Mass Spectrom Rev, vol. 28, no. 4, pp. 640-54, 2009.

24. J. K. Eng, A. L. McCormack, and J. R. Yates, "An approach to correlate mass spectral data with amino acid sequences in a protein database," J Am Soc Mass Spectrom, vol. 5, p. 976, 1994.

25. Matthias Mann and Matthias Wilm, "Error-tolerant identification of peptides in sequence databases by peptide sequence tags," Anal Chem, vol. 66, pp. 4390-9.

26. J. Zimmer, M.E. Monroe, Qian, W.J., and R.D. Smith, "Advances in proteomics data analysis and display using an accurate mass and time tag approach," Mass Spectrometry Reviews, vol. 25, pp. 450-482, 2006.

27. M. F. Khan, M. J. Bennett, C. C. Jumper, A. J. Percy, L. P. Silva, and D. C. Schriemer, "Proteomics by mass spectrometry—Go big or go home?," J. Pharm. Biomed. Anal, no. doi: 10.1016/j.jpba.2011.02.012, February 2011.

28. N. L. Kelleher, H. Y. Lin, G. A. Valaskovic, D. J. Aaserud, E. K. Fridriksson, and F. W. McLafferty, "Top Down versus Bottom Up Protein Characterization by Tandem High-Resolution Mass Spectrometry," J. Am. Chem. Soc., vol. 121, pp. 806-812, 1999.

29. N. L. Kelleher, "Top-down proteomics," Anal Chem, vol. 76, no. 11, pp. 197A-203A, June 2004.

30. J. J. Coon, B. Ueberheide, J. E. P. Syka, D. D. Dryhurst, J. Ausio, J. Shabanowitz, and D. F. Hunt, "Protein identification using sequential ion/ion reactions and tandem mass spectrometry," Proc. Natl. Acad. Sci. U.S.A., vol. 102, pp. 9463-9468, 2005.

31. M.M. Savitski, M.L. Nielsen, F. Kjeldsen, and R.A. Zubarev, "Proteomics-Grade de Novo Sequencing Approach," J. Proteome Res., vol. 4, no. 6, pp. 2348-2354, 2005.

32. R.D. Smith, G.A. Anderson, M.S. Lipton, L. Pasa-Tolic, Y. Shen, T.P. Conrads, T.D. Veenstra, and H.R. Udseth, "An accurate mass tag strategy for quantitative and high-throughput proteome measurements," Proteomics, vol. 2, no. 5, pp. 513-523,2002.

33. Y. Shen, N. Tolic, C. Masseion, L Pasa-Tolic, DGI Camp, K.K. Hixson, R. Zhao, G.A. Anderson, and R.D. Smith, "Ultrasensitive proteomics using high-effciency on-line micro-SPE-NanoLC-NanoESI MS and MS/MS," Anal. Chem., vol. 76, pp. 144-154, 2004.

34. T. Liu, M.E. Belov, N. Jaitly, W.J. Qian, and R.D. Smith, "Accurate Mass Measurements in Proteomics," Chem. Rev., vol. 107, pp. 3621-3653, 2007.

35. T. P. Conrads, G. A. Anderson, T. D. Veenstra, L. Pasa-Tolic, and R. D Smith, "Utility of Accurate Mass Tags for Proteome-Wide Protein Identification," Anal. Chem., vol. 72, pp. 3349-3354, 2000.

36. Kim K. Hixson, "Label-Free Relative Quantitation of Prokaryotic Proteomes Using the Accurate Mass and Time Tag Approach," Methods in Molecular Biology, vol. 492, pp. 39-63, 2009.

37. L Pasa-Tolic, C Masselon, R.C. Barry, Y Shen, and R.D. Smith, "Proteomic analyses using an accurate mass and time tag strategy," BioTechniques, vol. 37, pp. 621-639, 2004.

38. O.V. Krokhin, R. Craig, V. Spicer, W. Ens, K. G. Standing, and R. C., Wilkins, J. A. Beavis, "An Improved Model for Prediction of Retention Times of Tryptic Peptides in Ion Pair Reversed-phase HPLC," Molecular &

39. Cellular Proteomics, vol. 3, pp. 908-919, September 2004.

40. Д. M. Автономов, И. А. Агрон, А. С. Кононихин, И. А. Попов, and Е. Н. Николаев, "Новый метод нормировки времен элюирования пептидов в хромато-масс-спектрометрических экспериментах," Биоорганическая Химия, vol. 37, по. 2, pp. 165-170, 2011.

41. Д.М. Автономов, A.C. Кононихин, И.А. Попов, JI.X. Пастушкова, И.М. Ларина, and Е.Н. Николаев, "Способ выравнивания хроматограмм пептидных смесей," 2010140839, Октябрь 6, 2010.

42. D. Eppstein, "Finding the k shortest paths," SIAMJ. Computing, vol. 28 (2), pp. 652-673, 1998.

43. A. W. Brander and M. C. Sinclair, "A comparative study of k-shortest path algorithms," Proc. 11th UK Performance Engineering Works h. for Computerand Telecommunications Systems, September 1995.

44. Kevin K. Anderson, Matthew E. Monroe, and Don S. Daly, "Estimating probabilities of peptide database identifications to LC-FTICR-MS observations," Proteome Science, vol. 4, no. 1, 2006.

45. Friedrich Pukelsheim, "The Three Sigma Rule," The American Statistician, vol. 48 (2), pp. 88-91, May 1994.

46. D. M. Avtonomov and E. N. Nikolaev, "On The Usage of The Number of Carbon Atoms for Peptide Mass Fingerprinting,", Toronto, Canada, 2009.

47. D. M. Avtonomov, I. A. Agron, and Nikolaev E. N., "A New Approach to Deisotoping of Complex Isotopically Resolved Spectra," in 58th Amer. Soc. Mass Spectrom. Annual Conf. on Mass Spectrometry & Allied Topics, Salt Lake City, UT, USA, 2010.

48. Magnus R. Hestenes and Eduard Stiefel, "Methods of Conjugate Gradients for Solving Linear Systems," Journal of Research of the National Bureau of Standards, vol. 49 (6), December 1952.

49. Jonathan Richard Shewchuk. (1994, August) An Introduction to the Conjugate Gradient Method Without the Agonizing Pain. Online]. http://www.cs.cmu.edu/~quake-papers/painless-coniugate-gradient.pdf

50. William W. Hager and Hongchao Zhang, "A survey of nonlinear conjugate gradient methods," Pacific J. Optim., vol. 2, pp. 35-58, 2006.

51. Bernhard Y. Renard, Marc Kirchner, Hanno Steen, Judith Steen, and Fred A. Hamprecht, "NITPICK: peak identification for mass spectrometry data," BMC Bioinformatics, vol. 9:355, p. 355, 2008.

52. M. Senko, S. Beu, and F. McLafferty, "Determination of Monoisotopic Masses and Ion Populations for Large Biomolecules from Resolved Isotopic Distributions," Journal of the American Society for Mass Spectrometry, vol. 6, pp. 229-233, 1995.

53. J. L. Margrave and R. B. Polansky, "Abundance Calculations for Isotopic Molecular Species," J. Chem. Edu., vol. 39, pp. 335-337, 1962.

54. A. Carrick and F. Glocklin, "Mass and Abundance Data for Polyisotopic Elements," J. Chem. Soc. A Inorg. Phys. Theor., pp. 40-42, 1967.

55. R. J. Robinson, C. G. Warner, and R. S. Gohlke, "Calculation of Relative Abundance of Isotope Clusters in Mass Spectrometry," J. Chem. Educ., vol. 47, pp. 467-468, 1970.

56. James A. Yergey, "A general approach to calculating isotopic distributions for mass spectrometry," International Journal of Mass Spectrometry and Ion Physics, vol. 52, no. 2-3, pp. 337-349, September 1983.

57. C. S. Hsu, "Diophantine Approach to Isotopic Abundance Calculations," Anal. Chem., vol. 56, pp. 1356-1361, 1984.

58. Brynn D. Hibbert, "A Prolog program for the calculation of isotope distributions in mass spectrometry," Chemometrics and Intelligent Laboratory Systems, vol. 6, no. 3, pp. 203-212, September 1989.

59. B. P. Datta, "Polynomial method of molecular isotopic abundance calculations: a computational note," Rapid Communications in Mass Spectrometry, vol. 11, no. 16, pp. 1767-1774, October 1997.

60. Hugo Kubinyi, "Calculation of isotope distributions in mass spectrometry. A trivial solution for a non-trivial problem," Analytica Chimica Acta, vol. 247,no. l,pp. 107-119, June 1991.

61. Ross K. Snider, "Efficient Calculation of Exact Mass Isotopic Distributions," Journal of the American Society for Mass Spectrometry, vol. 18, no. 8, pp. 1511-1515, August 2007.

62. Alan L. Rockwood, "Relationship of Fourier Transforms to Isotope Distribution Calculations," Rapid Comm. in Mass Spectrom., vol. 9, pp. 103105, 1995.

63. Alan L. Rockwood, Steven L. Van Orden, and Richard D. Smith, "Rapid Calculation of Isotope Distributions," Analytical Chemistry, vol. 67, no. 15, pp. 2699-2704, August 1995.

64. Dirk Valkenborg, Inge Mertens, Filip Lemiere, Erwin Witters, and Tomasz Burzykowski, "The Isotopic Distribution Conundrum," Mass Spectrometry Reviews, 2011.

65. Alan L. Rockwood, Steven L. Van Orden, and Richard D. Smith, "Ultrahigh Resolution Isotope Distribution Calculations," Rapid Communications in Mass Spectrometry, vol. 10, no. 1, pp. 54-59, 1996.

66. B.A. Диткин and А.П. Прудников, Интегральные преобразования и onepifuoHHoe исчисление.: Физико-математическая лит-ра, 1961.

67. Alan Rockwood and Steven Van Orden, "Ultrahigh-Speed Calculation of Isotope Distributions," Anal. Chem., vol. 68 (13), pp. 2027-2030, 1996.

68. J. Meija, "Understanding isotopic distributions in mass spectrometry," J Chem Educ, vol. 83 (12), p. 1761, 2006.

69. B. Brenner, The Kidney. Philadelphia, PA: Saunders, 2000.

70. N.A. Brunzel, Fundamentals of Urine & Body Fluid Analysis. Philadelphia: Saunders, 2004.

71. B. Haraldsson and J. Sorensson, "Why do we not all have proteinuria? An update of our current understanding of the glomerular barrier," News Physiol Sci.,vol. 19, pp. 7-10, 2004.

72. E. I. Christensen and J. Gburek, "Protein reabsorption in renal proximaltubule-fimction and dysfunction in kidney pathophysiology," Pediatr.Nephrol., vol. 19, pp. 714-721, 2004.

73. T. Pisitkun, R. F. Shen, and M. A Knepper, "Identification and proteomic profiling of exosomes in human urine," Proc. Natl. Acad. Sci., vol. 101, pp. 13368-13373, 2004.

74. W Sun, F Li, S Wu, X. Wang, D. Zheng, and J, Gao Y. Wang, "Human urine proteome analysis by three separation approaches," Proteomics, vol. 5, pp. 4994-5001, 2005.

75. J. Adachi, C. Kumar, Y. Zhang, J. V. Olsen, and M. Mann, "The human urinary proteome contains more than 1500 proteins, including a large proportion of membrane proteins," Genome Biol, vol. 7, p. R80, 2006.

76. A. Kentsis, F. Monigatti, K. Dorff, F. Campagne, R. Bachur, and H. Steen, "Urine proteomics for pro?ling of human disease using high accuracy mass spectrometry," Proteomics Clin. Appl., vol. 3, pp. 1052-1061, 2009.

77. J. Barratt and P. Topham, "Urine proteomics: the present and future of measuring urinary protein components in disease," Canadian Medical Association Journal, vol. 177, no. 4, 2007.

78. International Protein Index. Online], http://www.ebi.ac.uk/IPI/

79. Gene Ontology Annotation (GOA) Database. Online]. http://www.ebi.ac.uk/GOA/