Метод распознавания аминокислотных последовательностей в масс-спектрах пептидов для задач протеомики тема автореферата и диссертации по физике, 01.04.01 ВАК РФ

Лютвинский, Ярослав Игоревич АВТОР
кандидата технических наук УЧЕНАЯ СТЕПЕНЬ
Санкт-Петербург МЕСТО ЗАЩИТЫ
2007 ГОД ЗАЩИТЫ
   
01.04.01 КОД ВАК РФ
Диссертация по физике на тему «Метод распознавания аминокислотных последовательностей в масс-спектрах пептидов для задач протеомики»
 
Автореферат диссертации на тему "Метод распознавания аминокислотных последовательностей в масс-спектрах пептидов для задач протеомики"

На правах рукописи

лютвинский

Ярослав Игоревич

МЕТОД РАСПОЗНАВАНИЯ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В МАСС-СПЕКТРАХ ПЕПТИДОВ ДЛЯ ЗАДАЧ ПРОТЕОМИКИ

СПЕЦИАЛЬНОСТЬ 01 04 01 - ПРИБОРЫ И МЕТОДЫ ЭКСПЕРИМЕНТАЛЬНОЙ ФИЗИКИ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

ООЗ1ТТ43В

САНКТ-ПЕТЕРБУРГ 2007

003177436

Работа выполнена в Институте аналитического приборос!роения Российской академии наук

Научный руководитель кандидат технических наук

Новиков Лев Васильевич

Официальные оппоненты доктор химических наук, профессор

Зенкевич Игорь Георгиевич (СПбГУ)

кандидат физико-математических паук Бердников Александр Сергеевич (ИАнП РАН)

Ведущая организация Филиал Института энергетических проблем

химической физики Российской академии наук

Защита состоится " 27 " декабря 2007г в _15°"_ часов на заседании Диссертационного Совета Д002 034 01 при Институте аналитического приборостроения РАН по адресу 190103, Санкт-Петербург, Рижский пр , 26

С диссертацией можно ознакомиться в научно-технической библиотеке ИАнП РАН по адресу 190103, Санкт-Петербург, Рижский пр , 26

Автореферах разослан " " ноября 2007 г Ученый секретарь

диссертационного совета Д002 034 01, кандидат физико-математических наук

А П Щербаков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы Одной из наиболее динамично развивающихся областей современной молекулярной биологии является протеомика - исследование белкового пула организма (протеома) как единого целого К числу ведущих методологий в протеомных исследованиях относится масс-спектрометрия высокого разрешения с мягкими методами ионизации На нужды протеомики ориентирована, в значительной степени, разработка новых современных тандемных масс-спектрометров Появление новых приборов вызывает необходимость в разработке новых методов обработки информации, получаемой на этих приборах

Как правило, тандемные масс-спектрометры в протеомике используются для анализа смесей белков, представленных продуктами избирательного ферментативного гидролиза Получаемые масс-спектры представляют собой фрагментные масс-спектры пептидов -продуктов гидролиза Важнейшая задача при обработке получаемых данных - это восстановление аминокислотной последовательности пептида по его фрагментному спектру Одним из перспективных, но пока недостаточно алгоритмически проработанных подходов к интерпретации фрагментных масс-спектров является частичное восстановление аминокислотной последовательности по наблюдаемым в спектрах сериям основных фрагментов пептида Такая методика интерпретации фрагментных масс-спектров получила в мировой научной литературе название Peptide Sequence Tag (PST) Search Эют подход к интерпретации масс-спектров имеет следующие достоинства

- высокая скорость интерпретации,

- устойчивость результата интерпретации масс-спектра по отношению к посттрансляционным модификациям, точечным мутациям, неполному и неспецифичному гидролизу,

- высокая надежность получаемых результатов интерпретации, обусловленная использованием информации, действительно присутствующей в масс-спектре Преимущества стратегий обработки данных, основанных на методе поиска PST,

обеспечили широкое распространение этого метода интерпретации масс-спектров среди биологов Эти стратегии обеспечивают

- более полное использование масс-спектрометрической информации за счет распознавания спектров модифицированных пептидов

- идентификацию белков на основе спектров низкого качества, содержащих малое количество информативных сигналов и большое количество шума

- идентификацию пост-трансляционных модификаций белка

- идентификацию ближайших гомологов исследуемого белка

К сожалению, до последнего времени не существовало удачных реализаций алгоритмов поиска PST и, часто, распознавание PST проходит вручную, порождая большое количество монотонной работы

Только в самое последнее время появились алгоритмы, удачно автоматизирующие частичное восстановление аминокислотной последовательности пептидов Однако, одним из существенных недостатков существующих алгоритмов является то, чю каждый алгоритм разрабатывается для конкретного класса приборов, и не может быть впоследствии адаптирован к приборам другого класса

Целью работы является разработка высокоэффективного адаптивного метода распознавания аминокислотной последовательности пептида во фрагментном масс-спектре

Для достижения этой цели предложен высокопроизводительный алгоритм распознавания аминокислот ной последовательности пептида во фрагментном масс-спектре и предложена процедура оценки критериев значимости спектральной информации в фрагментных масс-спектрах

Научная новизна работы

1 Предложена методика численной оценки значимое 1 и эмпирических критериев для использования масс-спектрометрическои информации при решении задачи распознавания аминокислотной последовательности пептида в его фрагментом масс-спектре

2 Предложен и апробирован метод ранжирования гипотез об аминокислотной последовательности пептида, построенных на основании фрагментного масс-спектра

3 Предложен новый алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, оптимизированный по числу проверяемых гипотез

Практическая значимость работы

Разработан высокопроизводительный адаптивный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, названный CrystalTag Этот алгоритм может использоваться для обработки массивов фрагментных масс-спектров пептидов в экспериментах протеомики, проведенных на масс-спектрометрических приборах различных типов

Предложенный алгоритм обладает следующими достоинствами

— Быстродействие Благодаря оптимизированному по числу проверяемых гипотез способу анализа масс-спектра, время обработки спектра алгоритмом Сгу$1а1Та§ составляет менее миллисекунды, что намного меньше времени регистрации спектра на существующих тандемных масс-спектрометрах

— Качество распознавания Алгоритм дает высокую вероятность наличия достоверной гипотезы среди предложенных гипотез

— Адаптивность Предложенная процедура оценки модели фрагментации позволяет использовать алгоритм для масс-спектров, полученных на масс-спектрометрах различной конструкции, использующих разные физические принципы и имеющих различные аналитические характеристики

— Расширяемость Байесова модель формирования оценки гипотез позволяет легко вводить новые критерии, значимые для восстановления исходной последовательности пептидов

Алгоритм реализован в составе программного комплекса автоматической обработки данных фрагментных масс-спектров, полученных в экспериментах протеомики Программный комплекс предназначен для получения биологически значимого ответа на основании массива фрагментных масс-спектров

Положения, выносимые на защиту

1 Метод численной оценки значимости эмпирических критериев для использования масс-спектрометрической информации при решении задачи распознавания аминокислотной последовательности пептида во фрагментном масс-спектре

2 Метод ранжирования гипотез об аминокислотной последовательности пептидов, распознанных во фрагментном масс-спектре этих пептидов

3 Алгоритм построения гипотез об аминокислотной последовательности пептидов по фрагментному масс-спектру пептида

Апробация работы Результаты работы были доложены на конференции «Аналитическое приборостроение» (Санкт-Петербург, 2005г ), на II съезде Всероссийского

масс-спектрометрического общееша (Москва, 2005i ), па III съезде Общества биотсхнологов России (Москва, 2005г ), на междупароднол выилвке «Biotechnica 2005» (Ганновер, 2005г )

Структура и объем диссертации Днесертция состоит из введения, обзора литературы, постановки задачи на разрабо!ку методов и алгоритма, изложения разработанных методов и алгоритма, описания npoipaMMiioio комплекса, содержащего реализацию методов и алгоритма, описания и обсуждения результатов его тестирования, заключения и списка используемых источников Диссертация изложена наЦ7страницах

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Глава 1 Природа данных фраиментных масс-спектров пептидов

Основным способом получения фрагментных масс-спектров пептидов является применение метода тандемного масс-спектрометрического анализа Тандемная масс-спектрометрия (МС-МС) используется для структурною анализа и идентификации веществ в составе смесей

Методика МС-МС состоит из следующих операции

• Разделение в первой МС-стуиени первичных, или "родительских", ионов и селекция ионов с единственным значением отношения массы к заряду (m!z)

• Фрагментация родительских ионов с образованием разнообразных структурно значимых ионных фрагментов, называемых вторичными или "дочерними", ионами

• Масс-анализ дочерних ионов

Существенно, что в случае применения [апдемиои масс-спектрометрии к смесям пептидов каждый отдельный масс-спектр отображает набор фрагментов одного пептида

Тандемные масс-спектрометры используют ра¡личные физические принципы для разделения родительских ионов, фра! метании и масс-анализа дочерних ионов

Состав, интенсивность сигналов, точность определения масс фрагментов, (сражающих структуру анализируемого вещееiud, напрямую завиип oi используемою прибора В настоящее время для фрагментации наиболее час!о используется явление столкновительной диссоциации (Collisionaly Induced Dissociation - С ID) В ячейке CID ионы сталкиваются с нейтральными молекулами газа, заполняющею ячейку, чю приводит к разрыву ковалентных связей в полинепшчпой цепи

Для фрагменты* ионов пепшдов припяы классификация, предложенная в 1984 году в работе [1], в соответствии с которой фра1 мины содержащие N-концевую аминокислоту, в зависимости от разорванной ковалешной связи обозначают латинскими буквами a, b и с Подобно, фрагменты С-конца обозначены \, у и z Каждый обозначенный ион снабжается индексом,- индекс соогветствуе! числу амипокислотых остатков оставшихся при ионе после фра> метации

Кроме разрыва полипешпдпоп цени при фра! менlaiinn происходя! и iakHc процессы как фрагментация по боковым радикалам, miioiокраiпая фра1 мешация и мпожеешо других процессов, поэтому масс-спектр содержит мпожеешо он налов кроме основных предполагаемых Тем не менее, в eiicKipe, полученном па хорошо настроенном масс-спектрометре, как правило, доминируют b и у ионы

Глава 2 Методы биохимической интерпретации фрлмешных масс-спектров пептидов

Восстановление аминокислотной последова1елыюсти пептида по его фрагментному масс-спектру - это один из основных приемов интерпретации масс-спектрометрических данных, используемых в протеомике

В настоящее время наиболее распросфаненш.ш подходом к задаче восстановления аминокислотой последовательное!!! являйся поиск наилучшего совпадения состава

сигналов в -{»регистрированных экспсримеитш1ы1ых фрагментных спектрах п теоретических спектрах, построенных на основании аминокислотных последовательностей известных белков, содержащихся в протеомных базах данных. 'Этот метод картирования пептидных фрагментов реализован в таких известных программных комплексах как Mascot, Sequest, XITandem и другие.

Альтернативный подход подразумевает восстановление аминокислотной последовательности без обращения к базам данных на основании непосредственного анализа сигналов спектров. В рамках этой альтернативы можно выделить два метода:

Полное восстановление аминокислотной последовательности - подход, реализованный в таких программных продуктах как Lulefisk, Peaks Studio. Отсутствие во многих фрагментных масс-спектрах даже хорошего качества полных серий сигналов, соответствующих сериям фрагментных ионов, приводит к базовому недостатку этого метода: восстановленная последовательность содержит слабые предположения, основанные на неполной информации и, поэтому, часто не соответствует действительной аминокислотной последовательности.

- Частичное восстановление аминокислотной последовательности. Для частичного восстановления используются наблюдаемые в спектре последовательности пиков, принадлежащих основным сериям фрагментов пептида, расстояние между которыми соответствует массам аминокислотных остатков пептида. Как правило, такая последовательность пиков покрывает не весь спектр и позволяет восстановить только часть аминокислотной последовательности пептида. Данная работа посвящена выявлению наиболее вероятных последовательностей пиков, представляющих аминокислотную последовательность исходного пептида.

Идея использовать эти последовательност и пиков для поиска в базах данных белков впервые высказана в статье [2] и техника такого поиска в мировой литературе получила название Peptide Sequence Tag Search.

Таким образом, Peptide Sequence Tag (PST) - это последовательность пиков во фрагментном масс-спектре пептида, трактуемая как отображение части аминокислотной последовательности пептида на фрагментами масс-спектр за счет отнесения пиков последовательно к одной серии фрагментных ионов пептида.

PST принято записывать как массу первого пика в последовательности, последовательность аминокислот, соответствующую расстояниям между пиками последовательности, и разницу между последним пиком последовательности и массой родительского иона, например PST на рисунке 1 можно обозначить как [611.30]LGADE[242.05].

-L-(- "-f^-l- -f-1--E-[----P« -K»

0 200 400 600 800 1000 1200 1358 5&

Рис. 1. Спектр пептида IEEDAGLGNGGLLGR с выделенным PST[611.30JLGADE[242.05J Необходимо отметить, что по последовательности пиков, в общем случае не удается установить направление последовательности - от N-конца к С-концу или наоборот, поскольку неизвестно, ионы какой именно серии фрагмен тов (Ь или у) представлены пиками. Также на основании тэга не удается различить аминокислоты лейцин и изолейцин с одинаковой молекулярной массой, и часто (при недостаточной точности определения масс)

не удается различии, аминокнслсиы i лкпампн и лизин с близкими молекулярными массами (разница 0.03 Да).

В настоящее время вед\тся шпепенипые рабозы как » области разработки новых i алгоритмов построения PST, гак и использования PS Г для идентификации и характеризации белков в ходе белковых анализов.

Интерес к алгоритмам построения п использования PS Г обусловлен следующими причинами:

• PST, выявленные в результате анализа фрагментных масс-спектров пептидов, полученных в результате неполного или псспшифического гидролиза, а также содержащих пост-трансляционные модификации, тем не менее, позволяют использовать спектр для идентификации белков.

• PST пригодны для идентификации функций неизвестных белков у организмов с несеквенированным геномом па основании установления ближайших исследованных гомологов белка

• PST обладают меньшей информационной избыточностью по сравнению со списком пиков масс-спектра, что снижает время поиска в протеомных базах данных и позволяет использовать PST для создания систем быстрой обработки масс-спектрометрических данных белковых анализов.

Глава 3. Разработка алгоритма частичного восстановления последовательности пептида но его фрагментом} масс-спектру Постановка задачи: Алгоритм распознавания PST формализуется как поиск частичного пути во взвешенном ориентированном ациклическом графе [3]. В таком графе вершины представлены сигналами масс-спектра, а ребра допустимых переходов - разницами , масс, соответствующих массам аминокислотных остатков (см Рис. 2). Па рисунке сплошной черной линией выделен корректный путь через граф. пунктирными линиями несколько вариантов ложно-пози тивных результатов.

-л. - -

И®3"!__К__А I т i_I__( L {|| G А ,_М_

<000-| 30002000-I 10000Ц-,-,-,-1-,-1-,-,-,-г--г--г--.-1-.-1-1-1-.-1-

О 100 200 300 400 WÜ SOU 700 600 300 1000

j Рис. 2Представление масс-спектра как графа па примере масс-спектра пептида

MAGLDETIAK (супрощением) | Классические алгоритмы поиска наилучшего нуги в графе, такие как алгоритм

Дийкстры или алгоритм A-Star, оперируют понятием фиксированной начальной и конечной | точек пути. В нашем случае, хотя начальные п конечные точки детерминированы (нулевая отмезка массовой шкалы и масса родительского иона), в их достижении пет необходимости. Более того, правильного решения задачи нахождения полного пу ти для такого графа может не существовать - немногие спектры содержат полные серии фрагментных ионов. Из-за этого подход классических алгортмов поиска пу ти малоприменим.

В современных алгоритмах поиска PST для построения списка проверяемых гипотез используются различные варпаты поиска и i.iyónii). применяемые относительно каждого

узла графа Это приводит к полному перебор) тпотез, число которых досшгаы десятков тысяч на спектр

Таким образом, при решении задачи чаиичною восс1ановления аминокислотой последовательности пептида можно выделить две основные исследовательские задачи

1 Построение адекватных оценок для тпотез, обнаруживаемых при анализе 1рафа, должно позволить из множества гипотез выделить верную гипотезу

2 Алгоритм построения оптимального пути должен быть оптимизирован по отношению к числу проверяемых 1ИП01сз, поскольку проверка всех существующих гипотез приводит к потере времени выполнения алгоритма на проверку заведомо ложных гипотез

Оценка графа масс-спектра

Для выбора критериев оценки пиков воспользуемся опытом экспертов, проводящих распознавание PST вручную Для оценки возможности вхождения пика в PST есть ряд эмпирических критериев, таких как

- Относительная интенсивность пика в его окрестности

- Зашумленность спектра вокруг гшка в его окрестности

- Наличие в спектре пиков, парных данному, по правилам построения серий ионов -

y«-»b, у<->а, х<->Ь и т д

- Наличие характерных нейтральных потерь -Н20, -NH2, и т д

Ни один из этих признаков гге является определяющим Для того, чтобы оценить правдоподобие гипотезы о принадлежности пика одной из основных серий ионов, требуется комплексная многокритериальная оценка Для выполнения этой задачи, а также и для оценки степени значимости перечисленных критериев воспользуемся многокритериальной оценкой на основе теоремы Байеса

Для построения этой оценки этого нам потребуется оценить условные вероятности Р(А,|Н) выполнения каждого из критериев А, при условии выполнения двух гипотез, образующих полный набор

- Н| - пик относится к серии фрагменгных ионов b или у

- Н2 - пик не относится к серии фрагментных ионов b или у

Решение о принадлежггости или не принадлежности сигнала к серии фрагментных ионов принимается, исходя из восстановления теоретической картины фраг менгании для масс-спектров известных пептидов

Под выполнением критерия будем подразумевать

- наличие пика в соответствующей позиции масс-спектра, для таких критериев как наличие парных пиков и нейтральных потерь Наличие или отсутствие пика образует полный набор событий, возможных при анализе данных критериев

- для критериев относительной интенсивности и зашумленности спектра, значение которых оценивается числом, выберем набор интервалов, также покрывающих полный набор событий, после чего вычислим условную вероятность для гипотез Нь Н2 для каждого интервала

Собранный набор условных вероятностей Р(А,|Н) позволяет оценить по Байесу вероятность гипотезы Н| для каждою пика спектра, в том случае, lc.jii мы можем предполагать, что значимость критериев для мою спектра адекватна доверяемым данным, использованным для накопления статистики Оценку каждого пика мы получаем последовательным применением формулы Байеса для каждою из предварительно оцененных критериев А,

PiHt\A,) =---(1)

Я(Я, )Р(Л, I Я,) + (1 - Р(Я, ))Р( А, I Н2)

При первом применении юоремы Ьанеса в качес!ве априорной верояшоеш Р(Н)) используется доля сш налов попов серии у и Ь в еиек|ра\ пептидов При последова1елыюй оценке по ряду кршсриев в качение априориоп верояшоеш нсполыуося аное1ериорная вероятное!ь, полученная на предыдущем пин

В качестве итоювои оценки вершины >рафа маес-енекфа используется апостериорная вероятность, полученная после применения всех оцененных критериев

Оценка ребер 1рафа, построенною на основании масс-спектра, сводится к оценке допустимости предположения о том чю рлнюсп. масс между двумя пиками является измерением массы аминокислотою оекпка Для оценки допустимости этого предположения используется нормальное раснредстспис ошибки измерения разницы масс между фрагменгными ионами у и Ь серии

Где S - наблюдаемая noipeiiiiiocii, тчпои массы аминокислотного осинка для интервала между пиками, а - численно оцениваемое среднеквадратичное отклонение измерения точной массы аминокислот hoi о oeiaiKa для пиков, отнесенных к у- и Ь- сериям ионов на основании доверяемых данных

Поскольку оценка р(5) имее! не баиееовый характер, для уравновешивания влияния этой оценки на результаты рабош алгоршма был введен параметр к По результатам исследований выяснилось, чю резулыапл рабшы ашориша в значительной степени устойчивы к изменению парамефа к в интервале oi 1 до 10 Рекомендованное значение параметра к= 3

Оценку Peptide Sequence lag (PSI) в целом будем cipoiui, как произведение оценок всех вершин и ребер графа масс-спектра, вошедших в PS I Таким образом, итоювая оценка построенного PST из п пиков будет

В терминах теории верояпюс1еи )ia оценка соошекшует совпадению событий включения в nyib PST вершин и ребер фафа На взгляд автора, это соответствует нарастанию вероятности ошибки при уветичении длины PS I

В главе 5 показано, что полученное значение являекя адекватной оценкой шнотезы, так как, чем меньше оценка км меньше фаы пчеекая доетверпос! ь i ннокзы

Статистическое исследование масс-спектров

Для построения набора условных нсрояиюски необходимо использовать масс-спектры известных пептидов В качестве 1акп\ доверяемых данных будем использовать результаты интерпретации таких систем как X' 1 andern и Mascot

Поскольку одной из целен разрабсики являекя упивсрсалыюиь алюршма, для исследования были привлечены выборки ишных, порченные на масс-снекфометрах, имеющих существенно разные апалншческнс парамефы и iioeipoeniibix на основании различных физических принципов

1-я выборка маее-спекфов получена n¡ репонпория масс-епсыромефичсских данных Института Системной Биолоши (Institute lor Systems Biology, Seattle, USA) http //sashimi sourecloruc nct/repOMlory html Выборка была получена в рс)улы.ие В')ЖХ-МС-МС анализа модельной смеси 18 известных белков на приборе Q-1ОГ Ultima (Waters, США)

2-я выборка данных получена в резулыак ряда ВЭЖХ-ВЭЖХ-МС-МС эксперимент!) на масс-спекфомсфе Brukei 1 squire (Ion I up MS) в процессе белковых анализов препарата митохондрии клеток сердца быка, проведенных в Институте Биоорганической Химии РАИ

p(S) = exp(-Sl/2к&2)

(3)

3-я выборка масс-спектров составлена в университете Упсалы (Швеция) в rpjniie Биомедицинской масс-спсктрометрин под р) коиоде гвом проф. Р. А. 3\барева. Выборка составлена по результатам ряда В')ЖХ-МС МС анализов, проведенных на приборе 1 .TQ-1T для различных препаратов белков Н. Coli и II. Sapiens.

Таблица 3.1 демонстрирует несколько разный набор значимых критериев для приборов различной архитектуры. Некоторые критерии дают высокую избирательность для всех приборов. "Гак критерий образования парных пиков у<->Ь свидетельствует о том, что вероятность образования парных пиков у«Ь на порядок выше для ионов основных серий, нежели чем для случайных ионов. В то же время, критерии нейтральных потерь -ILO, -NH3 более значимы для времяпролетного прибора Q-TOF Ultima, нежели чем для приборов, в которых фрагментация происходит в ионной ловушке - Bruker Hsquire и I innigan I.TQ-1;T. Некоторые критерии не подтвердили своей информативности. Например, наличие ионов х-серии не может служить для оценки пиков, гак как вероятность обнаружения таких ионов не коррелирует с природой оцениваемого пика.

Q-TOF Ultima Bruker lisquire Finnigan I.TQ-FT

(Выборка №1) (Выборка №2) (Выборка №3)

Критерии . : 1\А, ]//,) Pi A, |//,) Р(А, | //,) Р(А,\И,) Р(А, I Я,)

у-мЬ 0.4938 0.03545 0.326 0.03671 0.63405 1 0.04207

10ЛУ731 (Г05489 ' 0.04309 0.03507 OÖ6871 0.05799

Ь<->х Öj04335 LMUZiL 0.026 0.03117 0.02413 0.03513

Ы-»а 0.1965 (Г28Т9 ¡Ta04045| 0.03982 (107458 0.04666

0.08348 _0.2819 0.01934 0.03982 0.02627 1 0.04666

-н,о 0.3514 0.247 0.1865 I 0.0511 0.3374 0.100

-NH, 0.319 0.202 0.0775 0.03586 0Л 888 ~1 0.07728

Рисунок 3 показывает распределение вероятностей для критериев, заданных ¡га наборах интервалов значений оцениваемого критерия. Для всех типов приборов эти два критерия оказываются существенно значимым!/, то есть интенсивные пики п пики, расположенные в незашумленных областях спектра, будут предпочтительны для построения PST.

Finnigart L TQ-FT ■ Выборка №3

Рис. 3. Относительная интенсивность (верхние диаграммы) и зашумленность (пиление диаграммы) спектра для информативных и неинформативных ионов

Построение PST

Идея алгоршма Cr) tsal I ag псполь «man. мерными л\ чнше данные масс-спскфа Для этого необходимо получшь сорщровлнпыи список оцпорощых ефуыур данных, соответствующих элемешарным ппклезам о вк мочении мика в РЫ, что подразумевает

a) пик относиюя к одной из основных серии ионов b или у - оценка предположения Qj

b) в спектре есть пик соотвсшвующпн с le (ующему иону юй же серии, в направлении возрастания масс-оценка предположения p(S[A)

c) в спектре есть пик соотве1ствующни еле [ующему попу юи же серии в направлении убывания масс оценка предположения />(<>',)

Если рассматривается только одно и* двух последних условии, то данный пик - это конечный пик в PST

Построим для каждою иика епемра полный набор ыруыур данных, соответствующих всем элементарным пнклезам о включении пика в PS Г, в том числе и для завершения PST этим пиком Оцепим каждую in >ш\ i iiuoio как произведение оценок пика и квадратных корней оценок интервалов

Упорядочим получившийся набор ирумур по убыванию оценок Заметим, чю любой PST может бьпь представлен как цепочка ыких eipyiviyp, ¡амкнутая со стороны убывания масс гипотезой, для которой не рассматриваема предположение (с), а со стороны возрастания масс гипотезой, дтя кою рои не расе мафпвае гея предположение (Ь) Оценка PST будет равна произведению оценок cipy kiy р ei о сое являющих

Далее извлекаем структуры из упорядоченною списка, и для каждой сфуктуры строим все варианты цепочек структур с учаынсм предыдущих извлеченных cipyKiyp Те цепочки, длина которых соо1встс!вует заранее заданному фебусмому числу аминокисло! в PST, и которые завершены по концам односюрониими структурами, раесмафивлем как итоговые версии PS I для даино! о спектра

Благодаря монотонному убыванию оценок рассмафивасмых пшотез в каждый момент времени мы располагаем полным списком PS I, покроенных из гипотез с наивысшей оценкой Алгоритм останавливав 1ся, koi ia получено заданное количество I'S I с лучшей оценкой или по исчерпании списка сфуыур laMiM образом, мы получаем заданное число PST заданной длины, и изберем нахождения н оценки всех возможных вариапюв PST для данного спектра

Глава 4 Программным комплекс Proteos

Алгоритм CrystalTag реализован в coi мне программного комичекса, получившею название Proteos Оюг профаммный комплекс обеспсчивап йодный цикл инирнретации масс-спектромегрических данных с пеполыовлппем миодолоши поиска PSI начиная с чтения файлов исходных данных и заканчивая формированием биохимически значимой гипотезы о составе исходной смеси белков

Данный комплекс реализует cTpaiciiiio усюпчивою к ошибкам поиска PSI в белковых базах данных, предложенную в |2) Рсзульгаюм работы комплекса является ранжированный синеок бедков-капдидаюн, ирису шипе мморых и eoci.ine исходной смеси наиболее вероятно Ранжирование проводи ия на основании меюдики, оиисаниои в [4|, подразумевающей вероятностную опенку совпа (сипя набора PST и аминокислотных последовательностей белков Вероятноспыя оценка для каждого белка сфоится как вероятность случайного совпадения компопеш PST и аминокислотном последовательности белка, представленного как последовательное i ь символов с иуассоновой харакюрнстикой

появления. Оценка строится с учетом среднего содержания аминокислот в белковых последовательностях и распределения по массам тршггических и нетрип шческих пептидов.

Выходной список белков-кандидатов сгруппирован по принципу возможной гомологии белков. У гомологичных белков значительная час и» аминокислотной последовательности может совпадать и. поэтому, если в списке бел ков-кандидатов появляется ряд гомологичных белков, из этого ряда имеет смысл рассматривать только белок с наивысшим рейтингом. Группировка белков позволяет быстро выполнить эту задачу.

lAnl MS/MS Viewer

DBDeconv - алгоритм структурной декомпозиции спектра IPEX в припожении к реляционной базе данных

Утилиты загрузки MS/MS спектров в реляционную базу данных (PKLReader, MGFReader)

Доверяемые

данные интерпретации MS/MS спектров (Mascot. XITandem)

т

MS/MS Спектры

MS/MS спектры и результаты их распознавания

Реляционная база данных

CrystalTag - Программа

построения PST и их поиска в белковых базах данных

_ i: _ Г

Сг^^а^а! Программа статистического анализа масс-спектров для получения параметров работы алгоритма СгуэгаПад

Файл настроек алгоритма Crysta(Tag

Файл параметров алгоритма CrystaíTag

Г*4' г Щ

lili ./Й-::

ш1§ i L

sCFi»...

Белковые базы данных

Рис. 4. Общая структура программного комплекса Proteos

Па момент написания данной работы программный комплекс Proteos реализован на уровне инженерного прототипа и доступен в лаборатории биомедицинской масс-спектрометрии Института аналитического приборостроения PAII.

Общая структура программного комплекса Proleos представлена на рисунке 4. Программный комплекс включает в себя программные средства для проведения полного цикла интерпретации данных ВЭЖХ-МС/МС экспериментов, включающего следующие этапы:

1 этап. Подготовку данных для работы алгоритмов биохимической интерпретации. Этот этап сос тоит из следующих стадий:

Ввод набора МС/МС спектров в базу данных программного комплекса -осуществляется программами PKLReader и MGFReader

Извлечение из набора МС/МС спектров аналитически значимой информации раскрытие изотопных и зарядных распределений, представленных в масс-спектрах -выполняется утилитой DBDeconv, предоставляющую реализацию алгоритма 1РЕХ [5], адаптированную для работы с реляционной базой данных.

Статистический анализ спектров с привлечением доверяемых результатов интерпретации масс-спектров с целью получения набора оценок критериев, используемых для интерпретации масс-спектров - выполняется программой CrystalStat.

2 этап. Собственно интерпретация данных масс-спектрометрического протсомного эксперимента и формирование итогового списка белков-кандидатов. Этот этап полностью

выполняекя программой Crystaliag Pe¡\ n.iai шпсрнреищни сохраняется в рс шционной базе данных комплекса Для своей рабопл нрофамма Crystal lag использует масс-спектры, предварительно сохраненные в рс шшоинои б.не ишных белковые базы данных, представленные в текстовом форма!с IASIA [ексювып файл настроек алюритма, сгенерированный программой CrystalStat и юксювын файл парамефов работы алгоритма, предоставленный пользователем программы

3 этап Визуализация данных масс-сискфомирнчсскот жспсримента и результатов его интернрегацил Выполняется приложением JAnl MS/MS Viewer на основании данных, сохраненных в базе данных

Программный комплекс Proteos в данной рабою выпочняет функцию стенда, который служит для испытания и харакгеризации ал! ори ша Crystal lag

Глава 5 Характернзанин алгоритма CryatalTag Тестирование алгоритма

Тестирование алгоршма Crystal lag выполнялось па ранее описанных выборках данных Основной целью тестирования было оцени ib производительность алюритма и качество распознавания PST Для оценки ироизводшелыюсти использовался полный набор масс-спектров Для оценки качества распознавания PS 1 из полного набора масс-спектров были отобраны только спектры извесшых пептидов содержащие последовательности сигналов ионов основных серий, достаточно длинные для построения PST 1естирование выполнялось на рабочей станции, оснащенной процессором Intel Pentium M 1 7 GHz и 1 GB оперативной памяти

Среднее время работы ашоршма д 1Я всех прошешроваиных вариантов осталось в субмилисекундном диапазоне Время выполнения алюриша для отдельною спектра варьируется от 0 08 мсек до 24 3 мсек Ускшовтено. что за 3 мсек алгоритм в 96% случаев успевает найти хотя бы один верный PS I если ыковои существует Наибольшее время занимает обработка спектров, содержащих множество слабых, неинформативных сигналов Это заставляет рекомендовать о!раниченне но числу ешналов масс-спектра в 100-150 наиболее сильных сигналов Блаюдаря высокому бысфодейсгвию, алгоритм Crystal! ag можно рекомендовать для использования в eiicie\iax DDA (Data Dependent Acquisition), требующих быстрой оценки качества спекipa во время работы масс-спектрометра

Таблица 2 Результаты тестирования а и орит i ш ( i ум a I Tag

Q-ТОГ Ultima Brukcr 1 squire Finnigan 1 1Q-FT

(Выборка №1 ) (Выборка №2) (Выборка №3)

Число PST/ Длина PST 5/5 5/4 5/5 520/í 5/4 5/5 220/5 5/4

Всего спектров 1382 1382 1382 6048 6048 6048 10000 10000 10000

Спектров, пригодных для 213 213 227 983 983 1186 7356 7356 8845

тестирования

Время работы алгоритма 0 55 0 64 0 43 0 51 0 85 0 26 0 47 0 71 041

% коррекию распознанных 90 2% 95 8% 94 8% 70 8% 82 8% 73 9% 97 8% 98 4% 98 1%

PST

Результаты тестирования качества распознавании PS 1 закономерно cooiносятся с аналитическими характеристиками приборов, на которых были получены масс-снеюры Чем выше аналитические характеристики приборов icm ботьшип процент PST удасчся корректно опознав

Эффект использования алгоритма CrystalTag

Эффект использования метода устойчивого к ошибкам поиска в базах данных па основании PST продемонстрирован па примере выборки масс-спектров №1, для которой известен точный состав белков в пробе для анализа. Диаграмма на рис. 5 показывает, что кроме масс-спектров триптических пептидов, обнаруживаемых при помощи систем идентификации белков методом

картирования фрагментов, в массиве Х! Tandem CrystalTag

спектров обнаруживается

значительное количество масс-спектров пептидов (до 40% общего количества), несущих посттрансляционные модификации, а также полученных в результате неполного или неспецифического гидролиза.

Обычным эффектом вовлечения в результаты идентификации таких пептидов является увеличение покрытия аминокислотной последовательности белка идентифицированными пептидами. В результатах обработки выборок данных, описанных в работе, наблюдалось увеличение покрытия последовательности белка до 1.5 раз по сравнению с результатами обработки выборок масс-спектров при помощи систем идентификации белков Mascot и X'.Tandem.

Рис. 5 Совпадающие и уникальные результаты идентификации пептидов для X'.Tandem и CrystalTag

Сопоставление с существующими аналогами

В качестве наиболее адекватного образца для сопоставления были выбраны программы Inspect и Pepnovo разработанные в Университете Южной Калифорнии под руководством проф. П. А. Певзнера [6]. Эти разработки проводились параллельно с данной работой и имеют сходную с данной работой идеологию обработки массивов масс-спектров. Inspect предназначен для выявления пост-трансляционных модификаций пептидов за счет реализации стратегии устойчивого к ошибкам поиска в базах данных. Pepnovo - это программа совмещающая распознавание de novo и поиск Peptide Sequence Tag во фрагментных масс-спектрах.

Анализ быстродействия производился на основе внедрения в исходный код Inspect и Pepnovo закладок для измерения чистого времени работы алгоритма. Состав выборок масс-спектров и параметров алгоритмов для тестирования определялся возможностями настройки Pepnovo и Inspect на момент исследования (декабрь 2006 г.). Таблица 3. Сопоставление алгоритмов Inspect, PepNovo и CrystalTag

QTOF Ultima (Выборка № 1) Brtiker Esquire (Выборка №2) Finnigan 1 TQ-FT (Выборка №3)

Число PST /Длинна PST 5/4 5/5 1/2й/<; 5/4 5/5 320/5 5/4

Качество распознавания (CrystalTag) 94.8% 70.8% 82.8% 73.9% 97.8% 98.4% 98.1 %

Качество распознавания (PepNovo) 66.1 % 80.0% 69.7% 88.2% 96.4% 88.7%

Качество распознавания (Inspect) 79.8% 65.8%

Скорость работы (CrystalTag) мсек. 0.43 0.51 0.85 0.26 0.47 0.71 0.41

Скорость работы (PepNovo) мсек. 82 89 78 12 14 11

Скорость работы (Inspect) мсек. 0.94 0.72

Сопоставление показало, чю алюршм включенный и соскш Inspect, уступав! как по скорости, так и по качеству распознавания PepNovo показал качество распознавания, сравнимое с результатами работы Crystal lag однако сильно проиграл по производитель!гост и

Итак, алгоритм Crystal I tag показал ссбя самым быстрым методом распознавания PST Что касается качества распознавания, то cjieiyei оьмешть, что алгоритм PepNovo имеет гораздо более изысканную процедуру оценки PS I нежели CrystallTag Тем не менее, качество распознавания остается на том же уровне Возможно, это свидетельствует о достижении некоторого предела метода связанною не столько с качеством алюритма, сколько с природой метода

Применение программного компчекса Proteos к данным актуальных биологических исследований

В сотрудничестве с коллективом лабораюрии протеомики ИБХ РАН удалось применить алюритмы и методы, реализованные в соиаве комплекса Proteos, к данным актуальных протеомных исследований

Повышение достоверности идентификации белков Для падежной идентификации белка необходимо указать не менее 2 пептидов, уникальных дтя данного белка При исследовании протеома митохондрий сердца быка были идентифицированы 502 белка Однако из них 253 белка были идентифицированы не более, чем по единственному уникальному пептиду Объектом внимания стали 104 белка, для коюрых обнаружен единственный пен гид и не существует пептидов совпадающих с пептидами дру! их белков Из общей выборки в 117 422 спектра были выделены 25 спектров, которые потенциально соответствуют дополнительным пептидам 19 белков

Восстановление последовательности трансмембранных участков белков В ИБХ РАН

предложена методика пробопод! отовки, позволяющая получить пробы пептидов трансмембранных участков белков Масс-спекфы таких нетриптических пептидов с трудом поддаются интерпретации стандартными срединами При исследовании результата LC-MS/MS эксперимента над препаратом мембраны мнюхоидрий клеток бычьею сердца удалось обнаружить спектры 18 пептидов, которые удается идентифицированных как потенциальные траисмембранные домены 11 белков

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1 Разработан новый высокопроизводшельиыи метод восстановления пептидной аминокислотной последовательности, представленной во фрашентном масс-спектре

2 Разработана методика численной оценки эмпирических критериев на основе использования статистической информации о фрагментных масс-спектрах пептидов

3 Разработан высокопроизводшельиыи адашивпыи алюритм распознавания аминокислотной последовательности иен шла во фра!мептном масс-спектре, названный CrystalTag

4 На основе предложенной методики численной оценки кршериев разработана процедура автоматической настройки парамефов алюритма Ciystal lag

5 Предложенный метод реализован как набор программных компонент в составе профаммного комплекса, выполняющею полный цикл ишсрпрсиции данных масс-спекгрометрического эксперимента в белковых анализах

6 Показана универсальность метода для данных, полученных на масс-спсюрометрах различной архитектуры

7 Проведен сравншельныи анализ параметров paspaóoiaiinoio профаммного комплекса с существующими аналогами, коюрый показа! преимущества по производи!ельности и качеиву распознавания амипокпето!пых нос и ювлюлыюсюи пептидов

ЦИТИРУЕМАЯ ЛИТЕРАТУРА.

1 Roepstorff Р, Fohlman J Proposal for a common nomenclature for sequence ions in mass spectra of peptides // Biomed MassSpectiom -1984 Nov, vol 11(11), p 601

2 Mann M , Wilm M Error-toierant identification of peptides m sequence databases by peptide sequence tags IIAnal Chem 1994 vol 66(24) pp 4390-4399

3 Bartels С Fast algorithm for peptide sequencing by mass spectrometry // Biomed Environ MassSpectrom 1990 vol 19, pp 363-368

4 Sunyaev S, Liska AJ, Golod A, Shevchenko A, Shevchenko A MultiTag multiple error-tolerant sequence tag search for the sequence-similarity identification of proteins by mass spectrometry II Anal Chem 2003 vol 75(6), pp 1307-1315

5 Макаров В В , Савельев С К , Лютвинский Я И , Веренчиков АН, Краснов Н В Алгоритм извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики // Научное приборостроение - 2006 - т 16 №2, се 92-100

6 Frank A, Tanner S, Bafna V, Pevzner Р Peptide sequence tags for fast database search in mass-spectrometry I/J Proteome Res 2005 vol 4(4), pp 1287-1295

ПУБЛИКАЦИИ, ОТРАЖАЮЩИЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ:

1 Лютвинский ЯИ, Краснов НВ Разработка CRYSTALTAG - алюритма частичного распознавания фрагментных масс-спектров пептидов Научное приборостроение 2005 T 15, №3 С 108-113

2 Лютвинский Я И , Макаров В В , Краснов 11В, Подольская Е П , Веренчиков А Н Частичная расшифровка аминокислотной последовательности пептида по его фрагментному масс-спектру алгоритм и результаты применения Научное приборостроение 2006 T 16, №3 С 122-131

3 Лютвинский ЯИ, Макаров В В, Веренчиков А II Использование статистики фрагментации ионов для частичной интерпретации фрагменгных масс-спектров пептидов Всероссийская конференция «Масс-спектрометрия и ее прикладные проблемы», г Москва, 2005 г

4 Лютвинский ЯИ, Макаров В В , Краснов Н В Crystaltag - новый алгоритм частичной интерпретации масс-спектров пептидов Гезисы докладов III съезда общества биотехнологов им Ю А Овчинникова Москва, 25-27 октября 2005 i

5 Лютвинский ЯИ, Новиков АВ, Федорова 1 А Фрагмешация пспшдов в источнике электроспрей как способ извлечения информации о первичной структуре пептида на масс-спектрометре МХ5305 Тезисы докладов III съезда общее 1ва бпот cxiiojioi о в им Ю А Овчинникова Москва, 25-27 октября 2005 г

6 Лютвинский Я И , Макаров В В , Краснов Н В Использование стаз пешки фрашентации ионов для частичного распознования масс-спектров пептидов Гезисы докладов конференции «Аналитическое приборостроение» С Петербург 2005

 
Содержание диссертации автор исследовательской работы: кандидата технических наук, Лютвинский, Ярослав Игоревич

ОГЛАВЛЕНИЕ.

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

ГЛАВА 1. МЕТОДОЛОГИЯ БЕЛКОВЫХ АНАЛИЗОВ СРЕДСТВАМИ МАСС-СПЕКТРОМЕТРИИЮ

1.1 Протеомика, как предметная область масс-спектрометрических экспериментов.

1.2 Метод масс-спектрометрического эксперимента в протеомных исследованиях.

1.3. Масс-спектрометрический анализ пептидов.

1.4 Инструментальное обеспечение масс-спектрометрии белков и пептидов.

1.5 Образование вторичных ионов при фрагментации пептидов.

1.6 Регистрация дат и 1ых масс-спектрометрического экспериме1 ita.

1.7 Перспективы метода масс-спектрометрии для белковых исследова! шй.

1.7.1. Эффективность МС-МС анализа.

1.7.2. Производительность методов разделения.

 
Введение диссертация по физике, на тему "Метод распознавания аминокислотных последовательностей в масс-спектрах пептидов для задач протеомики"

Актуальность темы. Одной из наиболее динамично развивающихся областей современной молекулярной биологии является протеомика -исследование белкового пула организма (протеома) как единого целого. К числу ведущих методологий в протеомных исследованиях относится масс-спектрометрия высокого разрешения с мягкими методами ионизации. На нужды протеомики ориентирована, в значительной степени, разработка новых современных тандемных масс-спектрометров. Появление новых приборов вызывает необходимость в разработке новых методов обработки информации, получаемой на этих приборах.

Как правило, тандемные масс-спектрометры в протеомике используются для анализа смесей белков, представленных продуктами избирательного ферментативного гидролиза. Получаемые масс-спектры представляют собой фрагментные масс-спектры пептидов - продуктов гидролиза. Важнейшая задача при обработке получаемых данных - это восстановление аминокислотной последовательности пептида по его фрагментному спектру.

Одним из перспективных, но пока недостаточно алгоритмически проработанных подходов к интерпретации фрагментных масс-спектров является частичное восстановление аминокислотной последовательности по наблюдаемым в спектрах сериям основных фрагментов пептида. Такая методика интерпретации фрагментных масс-спектров получила в мировой научной литературе название Peptide Sequence Tag (PST) Search. Этот подход к интерпретации масс-спектров имеет следующие достоинства: высокая скорость интерпретации; устойчивость результата интерпретации масс-спектра по отношению к посттрансляционным модификациям, точечным мутациям, неполному и неспецифичному гидролизу; высокая надежность получаемых результатов интерпретации, обусловленная использованием информации, действительно присутствующей в масс-спектре.

Преимущества стратегий обработки данных, основанных на методе поиска PST, обеспечили широкое распространение этого метода интерпретации масс-спектров среди биологов. Эти стратегии обеспечивают: более полное использование масс-спектрометрической информации за счет распознавания спектров модифицированных пептидов идентификацию белков на основе спектров низкого качества, содержащих малое количество информативных сигналов и большое количество шума идентификацию пост-трансляционных модификаций белка идентификацию ближайших гомологов исследуемого белка

К сожалению, до последнего времени не существовало удачных реализаций алгоритмов поиска PST и, часто, распознавание PST проходит вручную, порождая большое количество монотонной работы.

Только в самое последнее время появились алгоритмы, удачно автоматизирующие частичное восстановление аминокислотной последовательности пептидов. Однако, одним из существенных недостатков существующих алгоритмов является то, что каждый алгоритм разрабатывается для конкретного класса приборов, и не может быть впоследствии адаптирован к приборам другого класса.

Целью работы является разработка высокоэффективного адаптивного метода распознавания аминокислотной последовательности пептида во фрагментном масс-спектре.

Для достижения этой цели предложен высокопроизводительный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре и предложена процедура оценки критериев значимости спектральной информации в фрагментных масс-спектрах.

Научная новизна работы

1. Предложена методика численной оценки значимости эмпирических критериев для использования масс-спектрометрической информации при решении задачи распознавания аминокислотной последовательности пептида в его фрагментном масс-спектре.

2. Предложен и апробирован метод ранжирования гипотез об аминокислотной последовательности пептида, построенных на основании фрагментного масс-спектра.

3. Предложен новый алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, оптимизированный по числу проверяемых гипотез.

Практическая значимость работы

Разработан высокопроизводительный адаптивный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, названный CrystalTag. Этот алгоритм может использоваться для обработки массивов фрагментных масс-спектров пептидов в экспериментах протеомики, проведенных на масс-спектрометрических приборах различных типов. Предложенный алгоритм обладает следующими достоинствами:

Быстродействие. Благодаря оптимизированному по числу проверяемых гипотез способу анализа масс-спектра, время обработки спектра алгоритмом CrystalTag составляет менее миллисекунды, что намного меньше времени регистрации спектра на существующих тандемных масс-спектрометрах.

Качество распознавания. Алгоритм дает высокую вероятность наличия достоверной гипотезы среди предложенных гипотез.

Адаптивность. Предложенная процедура оценки модели фрагментации позволяет использовать алгоритм для масс-спектров, полученных на масс-спектрометрах различной конструкции, использующих разные физические принципы и имеющих различные аналитические характеристики.

Расширяемость. Байесова модель формирования оценки гипотез позволяет легко вводить новые критерии, значимые для восстановления исходной последовательности пептидов.

Алгоритм реализован в составе программного комплекса автоматической обработки данных фрагментных масс-спектров, полученных в экспериментах протеомики. Программный комплекс предназначен для получения биологически значимого ответа на основании массива фрагментных масс-спектров.

Положения, выносимые на защиту

1. Метод численной оценки значимости эмпирических критериев для использования масс-спектрометрической информации при решении задачи распознавания аминокислотной последовательности пептида во фрагментном масс-спектре.

2. Метод ранжирования гипотез об аминокислотной последовательности пептидов, распознанных во фрагментном масс-спектре этих пептидов.

3. Алгоритм построения гипотез об аминокислотной последовательности пептидов по фрагментному масс-спектру пептида.

Апробация работы. Результаты работы были доложены на конференции

Аналитическое приборостроение» (Санкт-Петербург, 2005г.), па II съезде

Всероссийского Масс Спектрометрического Общества (Москва, 2005г.), на III съезде Общества биотехнологов России (Москва, 2005г.), на международной выставке «Bioteknika 2005» (Ганновер, 2005г.).

По теме диссертации опубликованы следующие материалы:

1. Лютвинский Я.И., Краснов Н.В. Разработка CRYSTALTAG - алгоритма частичного распознавания фрагментных масс-спектров пептидов. // Научное приборостроение. 2005. Т.15, №3 С.108-113

2. Лютвинский Я.И., Макаров В.В., Краснов Н.В., Подольская Е.П., Веренчиков А.Н. Частичная расшифровка аминокислотной последовательности пептида по его фрагментному масс-спектру: алгоритм и результаты применения. // Научное приборостроение. 2006. Т. 16, №3 С.122-131

3. Лютвинский Я.И., Макаров В.В., Веренчиков А.Н. Использование статистики фрагментации ионов для частичной интерпретации фрагментных масс-спектров пептидов: Всероссийская конференция «Масс-спектрометрия и ее прикладные проблемы», г. Москва, 2005 г.

4. Лютвинский Я.И., Макаров В.В., Краснов Н.В. Crystaltag - новый алгоритм частичной интерпретации масс-спектров пептидов. Тезисы докладов III съезда общества биотехнологов им. Ю.А. Овчинникова. Москва, 25-27 октября 2005 г. 8

5. Лютвинский Я.И., Новиков А.В., Федорова Г.А. Фрагментация пептидов в источнике электроспрей как способ извлечения информации о первичной структуре пептида на масс-спектрометре МХ5305. Тезисы докладов III съезда общества биотехнологов им. Ю.А. Овчинникова. Москва, 25-27 октября 2005 г.

6. Лютвинский Я.И., Макаров В.В., Краснов Н.В. Использование статистики фрагментации ионов для частичного распознавания масс-спектров пептидов. Тезисы докладов конференции «Аналитическое приборостроение» СПб. 2005.

 
Заключение диссертации по теме "Приборы и методы экспериментальной физики"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработан новый высокопроизводительный метод восстановления пептидной аминокислотной последовательности, представленной во фрагментном масс-спектре.

2. Разработана методика численной оценки эмпирических критериев на основе использования статистической информации о фрагментных масс-спектрах пептидов.

3. Разработан высокопроизводительный адаптивный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, названный CrystalTag.

4. На основе предложенной методики численной оценки критериев разработана процедура автоматической настройки параметров алгоритма CrystalTag.

5. Предложенный метод реализован как набор программных компонент в составе программного комплекса, выполняющего полный цикл интерпретации данных масс-спектрометрического эксперимента в белковых анализах.

6. Показана универсальность метода для данных, полученных на масс-спектрометрах различной архитектуры.

7. Проведен сравнительный анализ параметров разработанного программного комплекса с существующими аналогами, который показал преимущества по производительности и качеству распознавания аминокислотных последовательностей пептидов

БЛАГОДАРНОСТИ

В заключение автор считает своим приятным долгом выразить искреннюю благодарность руководителю работы, кандидату технических наук JI.B. Новикову, за постоянное внимание и консультации по многочисленным вопросам; заведующему лаборатории №222 Института аналитического приборостроения РАН кандидату физико-математических наук Н.В. Краснову, создавшему прекрасные условия для выполнения работы; доктору физико-математических наук А.Н. Веренчикову за всестороннюю поддержку данной работы;

Отдельную благодарность хочется выразить профессору университета г. Упсалы Р.А. Зубареву, сотруднику ИБХ РАН Н. Б. Полякову, к.ф.-м.н. А.Подтележникову за предоставленные данные ВЭЖХ-МС/МС экспериментов и многочисленные консультации.

Автор искренне благодарит всех сотрудников лаборатории №222 за поддержку и интерес к выполняемой работе.

ЗАКЛЮЧЕНИЕ

Протеомные исследования являются одной из основных областей применения современной тандемной масс-спектрометрии с мягкими источниками ионизации. Проведение современных биологических исследований связано с получением больших массивов масс-спектрометрической информации, в частности фрагментных масс-спектров пептидов. Автоматизация процесса обработки и интерпретации масс-спектрометрической информации стала одной из первоочередных задач масс-спектрометрии как метода.

В качестве темы данной работы была выбрана актуальная задача распознавания аминокислотных последовательностей представленных во фрагментных масс-спектрах пептидов. Для решения данной задачи был предложен метод, основанный на численной оценке эмпирических критериев, используемых при интерпретации масс-спектра.

Метод обладает универсальностью и может быть использован для интерпретации фрагментных масс-спектров биополимеров, полученных на масс-спектрометрах, имеющих существенно различные аналитические характеристики и построенных на основании различных физических принципов. Применение метода возможно при наличии возможности определения масс родительских и дочерних ионов с точностью не менее 0.5 Да, и наличии регулярных закономерностей во фрагментных масс-спектрах биополимеров.

Разработанный метод был реализован в составе программного комплекса Proteos, предназначенного для интерпретации массивов фрагментных масс-спектров. Программный комплекс Proteos формирует обоснованную гипотезу о присутствии белков в составе исходной неразделенной смеси, подвергнутой ВЭЖХ-МС-МС анализу. Такой результат интерпретации массива масс-спектров является биологически значимым и позволяет использовать программный комплекс Proteos для обработки данных актуальных биологических исследований.

Программный комплекс Proteos продемонстрировал способность, присущую методу толерантного к изменению аминокислотной последовательности поиска в белковых базах данных, к обнаружению фрагментных масс-спектров пептидов, полученных в результате неполного или иеспецифичного гидролиза, а также массспектров пептидов, претерпевших пост-трансляциошшые модификации. Это стало возможным благодаря использованию для поиска в базах данных аминокислотных последовательностей, представленных во фрагментных масс-спектрах пептидов.

Высокая вычислительная эффективность алгоритма CrystalTag была достигнута благодаря оптимизации алгоритма по числу проверяемых гипотез. Благодаря миллисекундному времени выполнения алгоритм может быть использован в системах DDA (Data Dependent Acquisition), требующих быстрой оценки качества спектра во время работы масс-спектрометра.

Сопоставление алгоритма CrystalTag с известными алгоритмами решения аналогичных задач показало его превосходство как по качеству распознавания PST, так и по скорости работы.

Природным ограничением предложенного алгоритма является избыточность числа предлагаемых гипотез. Для того, чтобы с высокой вероятностью получить верную гипотезу, приходится вырабатывать целый набор различных гипотез. При ограничении числа гипотез увеличивается вероятность потери информативных спектров. Увеличение же числа гипотез приводит к увеличению времени сопоставления гипотез с базой данных и уменьшению избирательности поиска.

Стоит также отметить, что решение о завершении поиска в спектре пиков, которые можно отнести к PST при ручном определении PST принимается интуитивно на основе опыта эксперта. В пределах данной работы не удалось сформулировать четкий критерий, который бы позволил ограничить длину PST наличием в масс-спектре только действительно надежных данных.

В идеале параметры длины PST и количества гипотез должны определяться самим алгоритмом, возможно, с использованием обратной связи от процедуры устойчивого к ошибкам поиска в биоинформационных базах данных.

Есть некоторый запас для улучшения модели ранжирования PST за счет анализа статистических закономерностей возникающих при накоплении спектра, например, таких как существующая взаимосвязь между интенсивностью сигнала и точностью определения масс или наличие систематической погрешности калибровки, характерной для некоторых приборов.

Указанные недостатки и ограничения определяют возможности развития метода, изложенного в данной работе. С точки зрения наиболее полной реализации возможностей использования данного метода перспективным является развитие смежных методов, таких, как методы индексирования баз данных аминокислотных последовательностей белков для реализации быстрого поиска, методы сопоставления фрагментного масс-спектра пептида и аминокислотной последовательности, обнаруженной в базе данных, методы выявления белков-кандидатов в группе гомологов. Развитие этих методов позволит получить комплексный высокоэффективный инструмент, предназначенный для решения проблем обработки масс-спектрометрических данных современной протеомики.

 
Список источников диссертации и автореферата по физике, кандидата технических наук, Лютвинский, Ярослав Игоревич, Санкт-Петербург

1. Venter J.C., Adams M.D., Myers E.W et al. The sequence of the human genome //Science. 2001. - vol. 291, pp. 1304-1351.

2. Киселев Л.Л. Геном человека и биология XXI века // Вестник академии наук.- 2000, т. 70, №5, с.412-424.

3. Blackstock W.P. and Weir М.Р. Proteomics: quantitative and physical mapping of cellular proteins // Trends Biotechnol. 1999. - N. 17. pp. 121-127.

4. Jung E., Heller M., Sanchez J.C. and Hochstrasser D.F. Proteomics meets cell biology: the establishment of subcellular proteomes // Electrophoresis. 2000. - N 21. pp. 3369-3377.

5. Pandey A. and Mann M. Proteomics to study genes and genomes // Nature. 2000.- vol. 405. pp. 837-846.

6. Eisenstein E., Gilliland G.L., Herzberg O. et al. Biological function made crystal clear — annotation of hypothetical proteins via structural genomics // Curr. Opin. Biotechnol. 2000. - N. 11. pp. 25-30

7. Gygi SP, Rist B, Gerber SA, Turecek F, Gelb MH, Aebersold R. Quantitative analysis of complex protein mixtures using isotope-coded affinity tags // Nat. Biotechnol. 1999. vol. 17, p. 994-999.

8. Ong SE, Blagoev B, Kratchmarova I, Kristensen DB, Steen H, Pandey A, Mann M. Stable isotope labeling by amino acids in cell culture, SILAC, as a simple and accurate approach to expression proteomics. // Mol Cell. Proteomics. 2002, - N. 5, p. 376-386.

9. Heinke M.Y., Wheeler C.H., Yan J.X. et al. Changes in myocardial protein expression in pacing-induced canine heart failure // Electrophoresis. 1999. - N 20, pp. 2086-2093.

10. Page MJ, Amess B, Rohlff C, Stubberfield C, Parekh R. Proteomics: a major new technology for the drug discovery process. HDrug Discov. Today. 1999. - vol. 4, pp. 55-62.

11. Aebersold R, Mann M. Mass spectrometry-based proteomics. // Nature. 2003. vol. 422, pp. 198-207.

12. Washburn MP, Wolters D, Yates JR 3rd. Large-scale analysis of the yeast proteome by multidimensional protein identification technology. // Nat. Biotechnol. -2001 vol. 19, pp. 242-247.

13. Wei J, Sun J, Yu W, Jones A, Oeller P, Keller M, Woodnutt G, Short JM. Global proteome discovery using an online three-dimensional LC-MS/MS. // J. Proteome Res. -2005. N. 3, pp. 801-808.

14. McCormack AL, Schieltz DM, Goode B, Yang S, Barnes G, Drubin D, Yates JR 3rd. Direct analysis and identification of proteins in mixtures by LC/MS/MS and database searching at the low-femtomole level. // Anal. Chem. 1997 Feb 15, vol. 69(4), pp. 767-776.

15. Schmelzer CE, Getie M, Neubert RH. Mass spectrometric characterization of human skin elastin peptides produced by proteolytic digestion with pepsin and thermitase. H J. Chromatogr. 2005 Aug 12, - vol. 1083(1-2), pp. 120-126.

16. Mann M, Jensen ON. Proteomic analysis of post-translational modifications. // Nat Biotechnol. 2003 Mar, vol. 21(3), pp. 255-261.

17. Lill J. Proteomic tools for quantitation by mass spectrometry. // Mass Spectrom. Rev. 2003 May-Jun, vol. 22(3), pp. 182-194.

18. Thevis M, Loo RR, Loo JA. Mass spectrometry characterization of transferrins and their fragments derived by reduction of disulfide bonds. // J. Am. Soc. Mass Spectrom. 2003 Jun, vol. 14(6), pp. 635-647.

19. Corthals GL, Wasinger VC, Hochstrasser DF, Sanchez JC. The dynamic range of protein expression: a challenge for proteomic research. // Electrophoresis. 2000 Apr, vol. 21(6), pp. 1104-1115.

20. Wu SL, Amato H, Biringer R, Choudhary G, Shieh P, Hancock WS. Targeted proteomics of low-level proteins in human plasma by LC/MSn: using human growth hormone as a model system. // J. Proteome Res. 2002 Sep-Oct, vol. 1(5), pp. 459-465.

21. Godovac-Zimmermann J, Brown LR. Perspectives for mass spectrometry and functional proteomics. // Mass Spectrom. Rev. 2001 Jan-Feb, vol. 20(1), pp. 1-57.

22. Shevchenko A, Wilm M, Vorm O, Mann M. Mass spectrometric sequencing of proteins silver-stained polyacrylamide gels. // Anal. Chem. 1996 Mar 1, vol. 68(5), pp. 850-858.

23. Wilm, M., Shevchenko, A., Houthaeve, Т., Breit, S., Schweigerer, L., Fotsis, T. Mann, M. Femtomole sequencing of proteins from polyacrylamide gels by nano-electrospray mass spectrometry. I I Nature. 1996 Feb 1, vol. 379, pp. 466-469.

24. Kinter, M., Sherman, N.E. Protein sequencing and identification using tandem mass spectrometry // New-York: Whiley-Interscience, 2000.

25. Fricker LD, Lim J, Pan H, Che FY. Peptidomics: identification and quantification of endogenous peptides in neuroendocrine tissues. // Mass Spectrom. Rev. 2006 Mar-Apr, vol. 25(2), pp. 327-344.

26. Nilsson CL, Davidsson P. New separation tools for comprehensive studies of protein expression by mass spectrometry. // Mass Spectrom. Rev. 2000 Nov-Dec, vol. 19(6), pp. 390-397.

27. Barber M., Bordoli R.S., Sedgwick R.D., Tyler A.N. Fast Atom Bombardment of solids as an ion source in mass spectrometry II Nature. 1981. vol. 293. pp. 270-275.

28. Александров M.JI., Галь JT.H., Краснов H.B. и др. Экстракция ионов из растворов при атмосферном давлении — новый способ масс-спектрометрического анализа биооргапических веществ II ДАН. 1984. Т. 277, № 2. С. 379-383.

29. Александров М.Л., Галь Л.Н., Краснов Н.В. и др. Метод масс-спектрометрического анализа труднолетучих термически нестабильных веществ, основанный на экстракции ионов из раствора при атмосферном давлении // ЖАХ. 1985. Т. 40, №6. С. 160-172.

30. Fenn J.B., Mann М., Meng С.К., Wong S.F. and Whitehouse C.M. Electrospray ionization for mass spectrometry of large biomolecules // Science. 1989. vol. 246. pp. 64-71.

31. Wilm M, Mann M. Analytical properties of the nanoelectrospray ion source. // Anal. Chem. 1996 Jan 1 vol. 68(1), pp. 1-8.

32. Tanaka K, Waki H, Ido Y, Akita S, Yoshida Y, Yoshida T, Matsuo T. Protein and polymer analyses up to m/z 100 000 by laser ionization time-of-flight mass spectrometry. II Rapid Commun. Mass Spectrom. 1988. vol. 2(8), pp. 151-153.

33. Karas M. and Hillenkamp F. Laser desorption ionization of proteins with molecular masses exceeding 10000 daltons I I Anal Chem. 1988. vol. 60. P. 2299-2301.

34. Веренчиков A. H., Краснов H. В., Галь Jl. H. Тандемные масс-спектрометры в биохимии. // Научное приборостроение 2004, Т. 14, № 2, с. 4-23

35. March RE. Quadrupole Ion trap mass spectrometer. // Encyclopedia of Analytical Chemistry ed. R.A. Meyers Chichester, John Wiley & Sons Ltd, 2000 pp. 11848-11872.

36. Marshal AG. Milestones in Fourier transform ion cyclotron resonance mass spectrometry technique development // Int. J. Mass Spectrom. 2000, vol. 200, pp. 331356.

37. Hu Q, Noll RJ, Li H, Makarov A, Hardman M, Graham Cooks R. The Orbitrap: a new mass spectrometer. II J. Mass Spectrom. 2005 Apr, vol. 40(4), pp. 430-443.

38. McLafferty F.W., Todd P.J., McGilvery D.C., Baldwin M.A. High resolution tandem mass spectrometer (MS-MS) of increased sensitivity and mass range // J. Am. Chem. Soc. 1980. vol. 102, pp. 3360-3363.

39. Beynon J.H., Cooks R.G., Amy J.W. et al. Design and Performance of a mass analysed ion kinetic energy spectrometer // Anal. Chem. 1973. vol. 45, pp. 1023A-1027A.

40. Yost R.A., Enke C.G. Selected Ion Fragmentation with a quadrupole mass spectrometer I I J.Am. Chem. Soc. 1978. vol. 100. pp. 2274-2275.

41. Yulan S, Fang F. Sensitive liquid chromatography-tandem mass spectrometry method for the determination of scutellarin in human plasma: Application to a pharmacokinetic study. // J. Chromatogr.- 2006 Jan 2, vol. 830(1), pp. 1-5.

42. Cody RB Jr, Amster IJ, McLafferty FW. Peptide mixture sequencing by tandem Fourier-transform mass spectrometry. // Proc. Natl. Acad. Sci. USA. 1985 Oct. vol. 82(19), pp. 6367-6370.

43. Zubarev RA. Electron-capture dissociation tandem mass spectrometry. // Curr Opin Biotechnol 2004 Feb. vol. 15(1), pp. 12-16.

44. Beussman DJ, Vlasak PR, McLane RD, Seeterlin MA, Enke CG. Tandem reflectron time-of-flight mass spectrometer utilizing photodissociation. // Anal. Chem. -1995 Nov 1, vol. 67(21), pp. 3952-3957.

45. Roepstorff P., Fohlman J. Proposal for a common nomenclature for sequence ions in mass spectra of peptides // Biomed. Mass Spectrom. 1984 Nov, vol. 11(11), p. 601.

46. Лютвинский Я.И., Петров Д.М., Веренчиков А.Н., Хасин Ю.И., Гаврик М.А. Система регистрации для парралельного анализа в ВПМС-тандемах // Научное приборостроение. 2004. - т. 14, №2, стр. 80-91.

47. Liu Н, Sadygov RG, Yates JR 3rd. A model for random sampling and estimation of relative protein abundance in shotgun proteomics. // Anal. Chem. 2004 Jul 15, vol. 76(14), pp. 4193-4201.

48. Dan B. Kristensen, Jan C. Brond, Peter A. Nielsen, et al. Oestrogen-induced Changes in Plasma-membrane Proteins from MCF-7 Breast Cancer Cells: a Tandem Mass Spectrometry Study // Extended abstract on ASMS 2004 (www.asms.org)

49. Verentchikov A.N. Tandem Time of Flight Mass Spectrometer and Method of Use. GB Patent, GB2390935, Jul. 2002; International Patent WO 2004/008481A1.

50. Веренчиков А. Н. Параллельный (МС-МС)-анализ во времяпролетном тандеме. Постановка задачи, метод и схемы приборов // Научное приборостроение. 2004. - т. 14 №2, стр.24-37.

51. Shen Y, Smith RD, Unger KK, Kumar D, Lubda D. Ultrahigh-throughput proteomics using fast RPLC separations with ESI-MS/MS. I I Anal. Chem. 2005 Oct 15, vol. 77(20), pp. 6692-6701.

52. Tang f£, Li F, Shvartsburg AA, Strittmatter EF, Smith RD. Two-dimensional gas-phase separations coupled to mass spectrometry for analysis of complex mixtures. // Anal. Chem. 2005 Oct 1, vol. 77(19), pp. 6381-6388.

53. Разников B.B. Разникова M.O. Информационно-аналитическая масс-спектрометрия M.: «Наука», 1992, 247 с.

54. Ferrige AG, Seddon MJ, Green BN, Jarvis SA, Skilling J, Staunton J. Disentangling electrospray spectra with maximum entropy // Rapid Communications in Mass Spectrometry. 1992. - vol. 6(11), pp. 707-711.

55. Zhang, Z., Marshall, A.G. A universal algorithm for fast and automated charge state deconvolution of electrospray mass-to-charge ratio spectra // Journal of the Am. Soc.for Mass Spectrom. 1998. - vol. 9 (3), pp. 225-233.

56. Макаров В.В., Савельев С.К., Лютвинский Я.И., Веренчиков А.Н., Краснов Н.В. Алгоритм извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики. // Научное приборостроение. 2006. - т. 16. №2, стр. 92-100.

57. Eng JK, McCormack AL, Yates JR 3rd. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database // J. Am. Soc. Mass Specrtrom., 1994. vol. 5(11), pp. 976-989.

58. Yates JR 3rd, Eng JK, McCormack AL. Mining genomes: correlating tandem mass spectra of modified and unmodified peptides to sequences in nucleotide databases. II Anal. Chem. 1995. vol. 67(18), pp. 3202-3210

59. Powell LA, Heiftje GM. Anal. Chim. Acta, 1978, vol. 100, pp. 313-327.

60. Perkins D.N., Pappin D.J., Creasy D.M., Cottrell J.S. Probability-based protein identification by searching sequence databases using mass spectrometry data // Electrophoresis. 1999. vol. 20(18), pp. 3551-3567.

61. Craig R., Beavis R.C. TANDEM: matching proteins with tandem mass spectra // Bioinformatics. 2004, vol. 20(9), pp.1466-1467.

62. Fenyo D, Beavis RC. A method for assessing the statistical significance of mass spectrometry-based protein identifications using general scoring schemes. // Anal. Chem. 2003. vol. 75(4), pp. 768-774.

63. Craig R, Beavis RC. A method for reducing the time required to match protein sequences with tandem mass spectra. // Rapid Commun. Mass Spectrom. 2003. vol. 17(20), pp. 2310-2316.

64. Edman P. Method for determination of the amino acid sequence in peptides. IIActa. Chem. Scan. 1950. N. 4, pp. 283-293.

65. Bairoch A, Apweiler R. The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. // Nucleic Acids Res. 2001 vol. 28(1), pp. 45-48.

66. Bairoch A, Apweiler R, Wu CH, Barker WC, Boeckmann B, Ferro S, Gasteiger E, Huang H, Lopez R, Magrane M, Martin MJ, Natale DA, O'Donovan C, Redaschi N, Yeh LS. The Universal Protein Resource (UniProt). // Nucleic Acids Res. 2005.; vol. 33, pp. 154-159.

67. Li W, Jaroszewski L, Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. // Bioinformatics. 2001. vol. 17(3), pp. 282283.

68. Holm L, Sander C. Removing near-neighbour redundancy from large protein sequence collections. I/ Bioinformatics. 1998. vol. 14(5), pp. 423-429

69. Neubauer G, King A, Rappsilber J, Calvio C, Watson M, Ajuh P, Sleeman J, Lamond A, Mann M. Mass spectrometry and EST-database searching allows characterization of the multi-protein spliceosome complex. // Nat, Genet. 1998. vol. 20(1), pp. 46-50.

70. Parkinson J, Blaxter M. Expressed sequence tags: analysis and annotation. // Methods Mol. Biol. 2004. vol. 270, pp. 93-126

71. Discala C, Benigni X, Barillot E, Vaysseix G. DBCat: a catalog of 500 biological databases. // Nucleic Acid Res. 2000. vol. 28(1), pp. 8-9.

72. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. II J. Mol. Biol. 1990. vol. 215(3), pp. 403-410.

73. Edgar RC, Batzoglou S. Multiple sequence alignment. // Curr. Opin. Struct. Biol. 2006. vol. 16(3), pp. 368-373.

74. Sakurai T, Matsuo T, Matsuda H, Katakuse I. PAAS 3: A computer program to determine probable sequence of peptides from mass spectrometric data // Biol. Mass Spectrom. 1984. vol. 11, pp. 396-399

75. Hamm CW, Wilson WE, Harvan DJ. Peptide sequencing program. I I Comput. Appl. Biosci. 1986. vol. 2(2), pp. 115-118.

76. Ishikawa, K.; Niwa, Y. Computer-aided peptide sequencing by fast-atom-bombardment mass spectrometry. // Biomed. Environ. Mass Spectrom. 1986, vol. 13, pp. 373-380.

77. Siegel MM, Bauman N. An efficient algorithm for sequencing peptides using fast atom bombardment mass spectral data. // Biomed. Environ. Mass Spectrom. 1988. vol. 15(6), pp. 333-343.

78. Johnson RS, Biemann K. Computer program (SEQPEP) to aid in the interpretation of high-energy collision tandem mass spectra of peptides. // Biomed. Environ. Mass Spectrom. 1989. vol. 18(11), pp. 945-957.

79. Bartels C. Fast algorithm for peptide sequencing by mass spectrometry // Biomed. Environ. Mass Spectrom. 1990. vol. 19, pp. 363-368

80. Fernandez-de-Cossio J, Gonzalez J, Besada V. A computer program to aid the sequencing of peptides in collision-activated decomposition experiments. // Comput. Appl. Biosci. 1995. vol. 11(4), pp. 427-434.

81. Dijkstra EW. A note on two problems in connection with graphs. I I Numer. Math. 1959. vol. l.pp. 269-271.

82. Taylor JA, Johnson RS. Sequence database searches via de novo peptide sequencing by tandem mass spectrometry. // Rapid Commun. Mass Spectrom. 1997. vol. 11(9), pp. 1067-1075.

83. Taylor JA, Johnson RS. Implementation and uses of automated de novo peptide sequencing by tandem mass spectrometry. // Anal Chem. 2001. vol. 73(11), pp. 25942604.

84. Dancik V, Addona ТА, Clauser KR, Vath JE, Pevzner PA. De novo peptide sequencing via tandem mass spectrometry. // J. Comput. Biol. 1999. vol. 6(3-4), pp. 327342.

85. Беллман P. Динамическое программирование. M.: Издательство иностранной литературы, 1960.

86. Chen Т, Као MY, Tepel М, Rush J, Church GM. A dynamic programming approach to de novo peptide sequencing via tandem mass spectrometry. // J. Comput. Biol. 2001. vol. 8(3), pp. 325-337.

87. Ma В., Zhang K., Hendrie C., Liang C., Li M., Doherty-Kirby A., Lajoie G. PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry II Rapid Commun. Mass Spectrom. 2003. vol. 17(20), pp. 2337-2342.

88. Mann M., Wilm M. Error-tolerant identification of peptides in sequence databases by peptide sequence tags I I Anal. Chem. 1994. vol. 66(24) pp. 4390-4399.

89. Habermann B, Oegema J, Sunyaev S, Shevchenko A. The power and the limitations of cross-species protein identification by mass spectrometry-driven sequence similarity searches. // Mol. Cell. Proteomics. 2004. vol. 3(3)6 pp. 238-249.

90. Sunyaev S, Liska AJ, Golod A, Shevchenko A, Shevchenko A. MultiTag: multiple error-tolerant sequence tag search for the sequence-similarity identification of proteins by mass spectrometry. I I Anal. Chem. 2003. vol. 75(6), pp. 1307-1315.

91. Tabb DL, Saraf A, Yates JR 3rd. GutenTag: high-throughput sequence tagging via an empirically derived fragmentation model. // Anal. Chem. 2003. vol. 75(23), pp. 64156421.

92. Frank A, Pevzner P. PepNovo: de novo peptide sequencing via probabilistic network modeling. II Anal. Chem. 2005. vol. 77(4), pp. 964-973.

93. Frank A, Tanner S, Bafna V, Pevzner P. Peptide sequence tags for fast database search in mass-spectrometry. // J. Proteome Res. 2005. vol. 4(4), pp. 1287-1295.

94. Aho AV, Corasick MJ Efficient string matching: an aid to bibliographic search // Commun. ACM 1975. vol.18, pp.333-340

95. Tanner S, Shu H, Frank A, Wang LC, Zandi E, Mumby M, Pevzner PA, Bafna V. InsPecT: identification of posttranslationally modified peptides from tandem mass spectra. II Anal. Chem. 2005. vol. 77(14), pp. 4626-4639.

96. Keller A, Nesvizhskii Al, Kolker E, Aebersold R. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. // Anal. Chem. 2002. vol. 74(20), pp. 5383-5392.

97. Nesvizhskii Al, Keller A, Kolker E, Aebersold R. A statistical model for identifying proteins by tandem mass spectrometry. // Anal. Chem. 2003. vol. 75(17), pp. 4646-4658.

98. Perco P, Rapberger R, Siehs C, Lukas A, Oberbauer R, Mayer G, Mayer B. Transforming omics data into context: bioinformatics on genomics and proteomics raw data. I I Electrophoresis. 2006. vol. 27(13), pp. 2659-2675.

99. Hart P., Nilsson N., Raphael B. A Formal Basis for the Heuristic Determination of Minimum Cost Paths. // IEEE Trans, on Systems Science and Cybernetics 1968. vol. 4(2), pp. 100-107.

100. Bratbergsengen K. Hashing Methods and Relational Algebra Operations. // Tenth International Conference on Very Large Data Bases -Proceedings, 1984, Singapore, pp. 323-333