Применение анализа многомерных данных в аналитической химии тема автореферата и диссертации по химии, 02.00.02 ВАК РФ

Зернов, Владимир Владимирович АВТОР
кандидата химических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2004 ГОД ЗАЩИТЫ
   
02.00.02 КОД ВАК РФ
Диссертация по химии на тему «Применение анализа многомерных данных в аналитической химии»
 
Автореферат диссертации на тему "Применение анализа многомерных данных в аналитической химии"

На правах рукописи

Зернов Владимир Владимирович

Применение анализа многомерных данных в аналитической химии: поиск закономерностей в больших массивах данных по комплексообразованию, экстракции и другим свойствам веществ

02.00.02 - Аналитическая химия

Автореферат диссертации на соискание ученой степени кандидата химических наук

Москва - 2004

Работа выполнена на кафедре аналитической химии Химического факультета Московского Государственного Университета им. М.В. Ломоносова

Научный руководитель:

кандидат химических наук, в.н.с. Плетнёв Игорь Владимирович Официальные оппоненты:

доктор химических наук, профессор Кузнецов Владимир Витальевич доктор физико-математических наук, в.н.с. Померанцев Алексей Леонидович

Ведущая организация:

Московский университет пищевых производств, г. Москва

Защита состоится 9 декабря 2004 года в 16 часов 15 минут в ауд. 344 на заседании диссертационного совета Д.501.001.88 по химическим наукам при Московском государственном университете им. М.В. Ломоносова по адресу: 119992, ГСП-3, Москва, В-234, Ленинские горы, МГУ, Химический факультет.

С диссертацией можно ознакомиться в библиотеке химического факультета МГУ им. М.В. Ломоносова.

Автореферат разослан 9 ноября 2004 г.

Ученый секретарь диссертационного совета,

кандидат химических наук Торочешникова И.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. С распространением компьютеризации, когда цифровое представление, передача, обработка информации стали вездесущими, четко обозначилась проблема эффективного анализа накапливающихся информационных массивов для обнаружения и исследования закономерностей и взаимосвязей, «скрытых» в десятках и сотнях тысяч цифр. В аналитической химии, как и в любой другой науке, обобщение экспериментальных данных сопряжено с трудностями приведения информации в единообразный вид - в вид специализированных баз данных: исследователи, как правило, не создают таких баз, а публикуют результаты в виде статей в разных журналах и на разных языках. Наиболее важны для обобщения величины, характеризующие константы равновесия - наиболее универсальные описатели изменения свободной энергии в исследуемых системах. Шаг к созданию подобных баз - компиляции, обобщающие экспериментальные результаты, рассматривающие десятки или сотни фактов, изредка встречаются в обзорных работах; рассматривающие тысячу и более - пока исключительно редки. Тем не менее, такие базы и компиляции существуют, и, несомненно, распространенность их будет только расти. Иногда они появляются под эгидой специализированных научных сообществ, иногда становятся коммерческим продуктом: в качестве примера назовем базу данных константам устойчивости комплексов металлов ИЮПАК (IUPAC Stability Constants Database).

Анализ больших баз данных с помощью методов «добычи знаний» является актуальной задачей, так как в результате можно ожидать и обнаружения новых, ранее неизвестных фундаментальных и прикладных правил и закономерностей, и уточнения/ревизии известных ранее. Инструментарий такого анализа - методы добычи знаний (data mining), основанные на математической статистике и подходах машинного обучения (machine learning). Многие из них активно развиваются и модифицируются, хотя их основные принципы были сформулированы до 80-х годов двадцатого века. Заметим, однако, что примеры применения этих методов во многих важных для аналитической химии областях - несмотря на широкое распространение хемометрики, научной дисциплины, специализирующейся на применении статистических методов для химических (а в основном аналитико-химических) задач - пока немногочисленны.

Настоящая работа - попытка заполнить этот пробел. Выбор фактического материала - константы устойчивости комплексов металлов, коэффициенты распределения органических соединений в экстракционных системах органический

РОС. НАЦИОНАЛЬНАЯ

БИБЛИОТЕКА

растворитель-вода, данные о биологической активности органических веществ, обусловлен:

1) практической важностью и теоретической значимостью направленного дизайна соединений с заданными свойствами: селективных органических реагентов, растворителей, обладающих заданной экстрагирующей способностью, новых лекарственных препаратов.

2) доступностью баз данных большого объема, в которых можно провести так называемый разведочный анализ, позволяющий увидеть структуру данных в целом. Можно надеяться, что количество данных достаточно велико, чтобы проявились глобальные тенденции, определяющие общее поведение веществ и разнообразие исследуемых свойств.

Цели и задачи исследования. Целью настоящей работы являлось применение и развитие методов многомерного статистического анализа данных и классификации для поиска закономерностей в больших массивах данных о комплексообразовании ионов металлов с органическими реагентами и об экстракции; формулировка этих закономерностей в виде химически содержательных классификаций (классификационных моделей), исследование их применимости для решения практических задач. Наконец, еще одной целью работы было исследование применимости в задачах классификации/прогноза нового (для химии вообще и для аналитической химии, в частности) математического метода - метода опорных векторов (Support Vector Machines, SVM).

Для достижения поставленной цели необходимо было решить следующие частные задачи.

В части анализа данных об экстракционных свойствах растворителей:

- оценить типичную погрешность определения коэффициентов распределения органических соединений в системах органический растворитель/вода, зависимость погрешности определения от абсолютной величины коэффициента распределения;

- с помощью статистического анализа коэффициентов распределения и оцененной погрешности их определения оценить число факторов, ответственных за разнообразие поведения рассмотренных растворителей при экстракции, и интерпретировать их с химической точки зрения;

- на основе имеющихся данных по экстракции построить классификацию растворителей по сходству их экстракционной способности, построить визуальное

представление (карту) классификации; сравнить полученную классификацию с известными в литературе, в частности, построенными по сольватохромным параметрам, выявить и понять причины сходства и расхождения; исследовать возможность построения классификации распределяющихся веществ;

- на основе анализа сходства поведения при экстракционной способности определить место растворителя нового типа - ионной жидкости BMIM-PF6 среди обычных, молекулярных растворителей; выявить, если возможно, растворители, по коэффициентам распределения в которые можно предсказывать коэффициенты распределения веществ из воды в ионную жидкость, построить соответствующие математические модели.

В части анализа данных о константах комплексообразования органических реагентов с ионами металлов:

- извлечь из электронной базы данных IUPAC и привести в приемлемый для статистического анализа вид данные по константам устойчивости комплексов металлов; провести фильтрацию - удалить неприемлемые и сомнительные данные; оценить типичную погрешность определения констант устойчивости и зависимость ее от абсолютной величины константы;

- провести статистический анализ и построить классификацию катионов металлов по их комплексообразующей способности; сравнить ее с существующими классификациями, выявить и понять причины сходства и расхождения; построить визуальное представление такой классификации, интерпретировать ее с химической точки зрения; исследовать возможность построения классификации комплексообразующих реагентов.

В части, касающейся новых методов анализа данных:

оценить способность метода опорных векторов к построению классификационных моделей. Сравнить предсказательную силу полученных моделей с моделями, построенными с использованием наиболее популярного современного метода - нейронных сетей. Определить границы применимости построенных моделей, их недостатки.

Научная новизна работы состоит в том, что:

- Построена классификация растворителей по их экстракционной способности, основанная на широком массиве коэффициентов распределения. Построены классификации растворителей на основе их сольватохромных параметров.

- На основе статистического анализа большого массива экспериментальных данных по измерению коэффициентов распределения в системе октанол/вода получена обобщенная оценка зависимости погрешности определения коэффициентов распределения от их абсолютных значений.

- Показано, что способность растворителя образовывать «полость» нужного для сольватируемой молекулы размера корректно не описывается никаким из известных в литературе эмпирических или физико-химических параметров.

- Определено место ионной жидкости BMIM-PF6 среди традиционных экстракционных растворителей: по своей экстрагирующей способности она занимает промежуточное расположение между полярными апротонными и протоноакцепторными растворителями. Показана возможность эффективной оценки коэффициентов распределения в системе вода/ионная жидкость по коэффициентам распределения для традиционных растворителей указанных классов.

- Построена эмпирическая классификация катионов металлов по их способности к комплексообразованию (на широкой выборке реагентов), основанная на большом массиве констант устойчивости соответствующих комплексных соединений. Полученная классификация дополняет и уточняет известную классификацию жестких и мягких кислот и оснований (ЖМКО) Пирсона.

- На основе статистического анализа большого массива данных по множественному измерению констант устойчивости комплексов металлов получена обобщенная оценка зависимости погрешности определения констант от их абсолютных значений (для катионов металлов и протона).

- Показана перспективность применения в химии метода опорных векторов для построения прогностичных классификационных моделей (на примере предсказания биологической активности). Применен перспективный метод оценки «локальности» классификационных моделей путем визуализации разделяющей поверхности в пространстве главных компонент.

Практическое значение работы

Построенная классификация растворителей применима для направленного выбора растворителей в экстракции и хроматографии, для оценок коэффициентов распределения органических веществ в одни растворители по другим.

С помощью найденных рядов сходства и схемы классификации катионов металлов можно с хорошей точностью оценивать константы устойчивости комплексов

одних катионов по константам устойчивости для других. Так как классификация отображает и общую способность катионов металлов образовывать устойчивые комплексы, она применима и для задач био- и геохимии, например для оценки миграционной подвижности катионов в почвах и иных природных объектах.

Полученные оценки погрешностей определения коэффициентов распределения в экстракция и констант устойчивости комплексов органических реагентов в зависимости от их абсолютной величины применимы при исследовании качества теоретических моделей предсказания соответствующих свойств.

Построены прогностичные и готовые к использованию модели предсказания потенциальной биологической и агрохимической активности ряда веществ.

На защиту выносятся:

1. Классификация растворителей по их экстрагирующей способности и ее интерпретация.

2. Статистическая оценка зависимости погрешности определения коэффициентов распределения от их абсолютной величины.

3. Результаты теоретического исследования экстракционного поведения ионной жидкости BMIM-PF6.

4. Статистическая оценка зависимости погрешности определения констант устойчивости комплексов металлов от их абсолютной величины.

5. Классификация катионов металлов по их комплексообразующей способности и ее интерпретация.

6. Результаты использования метода опорных векторов (Support Vector Machines, SVM) для построения модели предсказания биологической активности, способ оценки локальности моделей.

Объем и структура работы. Диссертация состоит из введения, 7 глав, выводов, приложения. В первой главе рассматриваются общие принципы современного представления о факторах, влияющих на энергию сольватации растворенного вещества растворителем, физико-химические и эмпирические свойства растворителей, используемые для их классификации, способы оценки коэффициентов распределения. Приведен подробный сравнительный анализ существующих классификации растворителей.

Во второй главе рассматриваются факторы, влияющие на константы устойчивости комплексов металлов: влияние среды и влияние природы катиона и структуры реагента (классификация Арланда-Чатта-Дэвиса, принцип ЖМКО Пирсона, правила Хэнкока. Описывается взаимосвязь между устойчивостью комплексов в ряду катионов для пары реагентов и в ряду реагентов для пары катионов, применение методов КСС (корреляция структура-свойство) для предсказания констант устойчивости комплексов.

Третья глава посвящена обзору математических методов анализа данных, используемых в работе.

Четвертая глава (экспериментальная часть) посвящена описанию отбора и подготовки данных для статистического анализа.

В пятой главе обсуждаются результаты исследования выборки коэффициентов распределения, дается описание процедуры построения классификации растворителей по их экстрагирующей способности, описание процедуры построения классификаций, основанных на сольватохромных параметрах растворителей, проводится сравнение полученных классификаций между собой, в том числе с известными в литературе; дано описание процедуры статистической оценки погрешности определения коэффициентов распределения; обсуждается экстракционное поведение ионной жидкости.

Шестая глава содержит описание процедуры построения классификации катионов металлов по их комплексообразующей способности и ее содержательный анализ, описание процедуры статистической оценки погрешности определения констант устойчивости. Приведен ряд примеров сходства комплексообразующего поведения катионов.

Седьмая глава посвящена обсуждению результатов построения классификационных моделей предсказания потенциальной биологической и агрохимической активности (drag- & agro-likeness) с помощью метода опорных векторов (Support Vector Machines, SVM) и нейронных сетей и сравнения их предсказательной силы. На примере предсказания биологической активности описан способ оценки локальности классификационной модели.

Материал диссертации изложен на 251 странице, содержит 102 рисунка, 24 таблицы, библиографический список содержит 210 наименований.

Апробация работы. Основные результаты работы были представлены на Второй Российской научной конференций "Проблемы теоретической и экспериментальной аналитической химии" (Пермь, 2002 г.); на первом международном форуме «Аналитика и Аналитики» (Воронеж, 2003 г.), на третьей международной зимней школе по хемометрике и анализу данных (Россия, Пушкинские Горы, 2004 г.), на XIII Российской конференции по экстракции (Москва, 2004 г.).

Публикации. По результатам, полученным в ходе работы над диссертаций, опубликовано 7 работ в виде статей и докладов на Российских и международных конференциях.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Часть 1. Анализ экст ракционных данных

Отбор и подготовка данных. Коэффициенты распределения нейтральных органических веществ из воды в несмешивающиеся с водой растворители извлекли из справочника [Я.И. Коренман, Коэффициенты распределения органических веществ, Воронеж, Изд-во ВГУ, 1992], относящиеся к жидкостной экстракции из водных сред (1950-1990 годы, около 100 несмешивающихся с водой растворителей, более 5000 растворенных веществ). Для анализа использовали логарифмы коэффициентов распределения (^Р) для 49 растворителей. Общее число рассмотренных экстрагируемых веществ составило 4777. Всего в таблице данных присутствует 10198 значений ^Р (4.36% от общего числа возможных значений 49 х 4777). К ^Р для 48 растворителей, извлеченным из справочника Коренмана, добавили коэффициенты распределения нейтральных органических веществ в системе вода/гексафторфосфат бутилметилимидазолия (сокращенное название

БМ1М-РБ6 является наиболее изученным представителем нового класса растворителей

- расплавов органических солей, жидких при комнатной температуре (общее название

- ионные жидкости), весьма перспективных для экстракции и анализа и интересных

своими химическими и экологическими свойствами (они практически нелетучи). Данные по экстракции органических веществ в BMIM-PF6, включенные в общий набор данных по экстракции, найдены в литературе, также добавлены результаты, полученные в лаборатории концентрирования кафедры аналитической химии МГУ. Список растворителей и их кодовые обозначения, в дальнейшем применяемые в работе наравне с названиями, приведены в таблице 1.

Таблица 1. Анализируемые растворители в системах органический растворитель/вода, их кодовые обозначения общее число рассмотренных коэффициентов

распределения для каждого из них (К.

3# N Растворитель N Растворитель

1 199 2-Метилпропанол-1 26 55 Гептилацетат

2 52 2-Нитротолуол 27 63 Гексадекан

3 48 4-Метилпентанон-2 28 265 Гексан

4 299 Бензол 29 127 Гексанол

5 60 ВММ-РГв 30 61 Гексилацетат

6 90 Бромбензол 31 64 Иодбензол

7 65 Бромоформ 32 66 Изооктан

8 41 Бутанол 33 49 Изоамилацетат

9 144 Бутилацетат 34 43 Кумол

10 52 Бутилбензол 35 98 мета-ксилол

11 107 Хлорбензол 36 117 Нитробензол

12 489 Хлороформ 37 77 Нонан

13 1099 Циклогексан 38 133 Нонанол

14 108 Декан 39 130 Октан

15 136 Деканол 40 3093 Октанол

16 36 1,2-Дихлорбензол 41 174 Олеиновый спирт

17 167 1,2-Дихлоэтан 42 100 орто-Ксилол

18 551 Диэтиловый эфир 43 55 Пентан

19 34 Диизопропиловый эфир 44 81 Пентанол

20 38 Диамиловый эфир 45 114 Амилацетат

21 34 Додекан 46 108 пара-ксилол

22 58 Этилацетат 47 317 СС14

23 121 Этилбензол 48 216 Толуол

24 361 Гептан 49 86 Трибутилфосфат

25 117 Гептанол

На основе общей таблицы данных для 49 растворителей построили корреляционную матрицу (симметричную матрицу 49 х 49), каждый элемент которой (коэффициент корреляции Пирсона) показывает сходство поведения двух растворителей при экстракции, определенное попарно, то есть на общем для пары растворителей множестве (размером К, см. таблицу 1) известных 1§Р.

Применение анализа главных компонент для изучении сходства экстракционного поведения растворителей. Провели анализ главных компонент для корреляционной матрицы растворителей. Распределение собственных значений корреляционной матрицы показывает, что минимум две главные компоненты ответственны за разнообразие поведения всех анализируемых растворителей. Плоскость первых двух компонентных нагрузок показана на рис. 1.

Рис. 1. Распределение растворителей в пространстве нагрузок первых двух главных компонент. Обозначения растворителей см. таблицу 1.

На рисунке видно разделение растворителей на две больше группы и четыре выброса - додекан(21), хлорбензол(Н), бутилбензол (10), изооктан (32). Группа с нагрузками второй компоненты больше нуля состоит из ароматических углеводородов, их гало- и нитрозамещенных, предельных галоуглеводородов, насыщеных углеводородов и ^Ц, перемешанных между собой - разделить их в группе на подгруппы по химическим классам (ароматические углеводороды, насыщенные галоген-углеводороды и т.д.) не удается. Спирты, сложные и простые эфиры, ионная жидкость (5), трибутилфосфат (49) находятся во второй большой группе (нагрузки на второй главной компоненте меньше 0), и также на подгруппы по химическим классам не разделяются.

Кластерный анализ экстракционной способности растворителей. Иерархический кластерный анализ с разделением растворителей на группы провели, анализируя корреляционную матрицу растворителей как матрицу расстояний в метрике 1-|г| (г -коэффициент корреляции Пирсона). Сравнили дендрограммы, полученные с помощью трех способов кластеризации (правил, при которых точки назначаются принадлежащими тому или иному кластеру): метод полного связывания, метод Варда, метод взвешенного усреднения. Пример денрограммы приведен на рис. 2.

Рис. 2. Дендрограмма кластеризации растворителей (метрика 1-|г|, метод кластеризации - метод Варда). Два больших кластера объединяются при linkage distanse ~ 6. Обозначения растворителей см. таблицу 1.

Суммируя результаты анализа трех дендрограмм, можно построить следующую общую классификацию (выделить следующие группы растворителей):

1) предельные углеводороды, четыреххлористый углерод;

2) ароматические углеводороды (бензол, толуол, этил- и бутилбензол, орто-, мета-, пара-ксилолы, кумол), их гало- и нитропроизводные (бром- и иодбензолы, 2-нитротолуол, 1,2-дихлорбензол, нитробензол), галопроизводные предельных углеводородов (хлороформ, бромоформ, 1,2-дихлорэтан);

3) сложные эфиры, 4-метилпентанон-2, диамиловый эфир, ВММ-РР6*, бутанол*, пентанол*;

4) алифатические спирты (начиная с гексанола), бутанол*, пентанол*;

5) диэтиловый эфир, олеиновый спирт;

6) 2-метилпропанол-1, диизопропиловый эфир, BMIM-PF6*;

7)додекан;

8)хлорбензол;

9) трибугилфосфат.

Звездочками отмечены растворители, лежащие на границе двух классов (соответственно, их классовая принадлежность спорна). На более низком уровне детализации классы объединяются как 1+2 и 3+4+5+6. Из трех соединений (классы 7,8, 9), которые стабильно классифицируются как выбросы, лишь положение додекана можно определить как более близкое к объединению классов 1+2. Экстракционное поведение и хлорбензола, и трибутилфосфата мало похоже на показываемое другими растворителями.

Наглядное представление классификации растворителей с помощью нелинейного картирования. Построили визуальное представление распределения растворителей в пространстве их экстракционных свойств, используя нелинейное картирование по Саммону. В данном случае карта Саммона - двумерное распределение точек, которое с минимальными потерями отражает сходство поведения растворителей при экстракции (количественно выражаемое через коэффициент корреляции), присутствующее в исходной многомерной выборке. Коэффициенты корреляции измерялись попарно, т.е. на общем для пары растворителей множестве (размером N известных Карта строилась на исходной выборке коэффициентов распределения, и, в силу того, что N для некоторых пар растворителей равно нулю, три растворителя (бутанол, додекан, гексадекан) исключили из рассмотрения. Построенная карта Саммона для 46 растворителей показана на рис. 3. На нём видны две большие группы и два заметных выброса: ионная жидкость (5) располагается между группами, хлорбензол (11) удален от всех групп. В левой группе видны три растворителя, стоящие вдали от «ядра»: близкие друг к другу хлороформ (12) и бромоформ (7), а также нитробензол (36). Все они лежат несколько в стороне от остальных апротонных растворителей. Далее к левому краю карты просматривается еще одно сгущение, подгруппа этой большой группы - предельные углеводороды и четыреххлористьш углерод. В правой группе также можно выделить два небольших сгущения: справа - сложные эфиры, слева -спирты. На границах этой большой группы лежат диизопропиловый эфир (19) и дизтиловый эфир (18) с трибутилфосфатом (49), при этом простые эфиры 18 и 19 располагаются достаточно далеко друг от друга, а трибутилфосфат не занимает

позиции, которой от него можно было бы ожидать после анализа дендрограмм, на которых его отделение от остальных растворителей более заметно, чем у хлорбензола.

0.30

Final stress is 20.87%

11

У

5 Чч • •

1

19

1S3B2S •

49

18

-0.15

-0.25

X

0.30

Рис. З. Карта Саммона, показывающая сходство поведения при экстракции 46 растворителей. Мера близости на карте - коэффициент корреляции, определенный на общем множестве коэффициентов распределения вода/растворитель для двух растворителей. Final stress - погрешность воспроизведения межточечных расстояний на карте Саммона относительно исходной матрицы расстояний (корреляционной матрицы, элементы которой преобразованы как 1- |г|). Обозначения растворителей см. таблицу 1.

При маркировке растворителей на карте Саммона соответственно классификации, полученной в результате кластерного анализа видно, что, несмотря на не очень высокую точность воспроизведения на карте Саммона расстояний исходного 46-мерного пространства, классы разделяются достаточно четко и карта Саммона является вполне адекватным визуальным представлением классификации.

Оценка обобщенной погрешности экспериментально измеренных коэффициентов распределения. Для последующего анализа числа значимых факторов, определяющих экстракционное поведение растворителей, оценили обобщенную погрешность коэффициентов распределения, проанализировав 14250 экспериментально измеренных

коэффициентов распределения октанол/вода (lgPo/w) для 4072 органических неэлектролитов.Значения lgPo/w взяли из доступной в Интернет базы данных LOGKOW (Sangster Research Laboratories, Канада), где для каждого растворенного вещества приводится рекомендованное значение IgPo/w™, определенное экспертами Sangster Research Laboratories no результатам анализа всех известных lgPoiw. Приняли, что нормальное распределение будет иметь не За оценку истинного значения

Po/w для данного вещества в ряду экспериментов приняли Рол/". За оценку погрешности Ptfw для данного вещества в ряду экспериментов приняли стандартное отклонение s в ряду Pafa. Для обобщенной оценки погрешности массив РоЛ»™0 ранжировали по возрастанию, затем разбили его на интервалы, в каждом интервале вычислили медиану стандартного отклонения median(s) и визуально оценили моду стандартного отклонения mode(s) по соответствующей гистограмме распределения. Графическое представление зависимости логарифмов медианы и моды стандартного отклонения от показано на рис. 4.

• meden(stdjdev)

+ mode{stdjjev) • •

• У

• «

• • • %

Л 4 I < » • 1

19P

Рис. 4. Зависимость логарифма стандартного отклонения измерения Рц/и ОТ lgPoл»гec.

Численная оценка зависимости от lgPo/w линейной регрессией по моде

интервального распределения я:

ш =-0.93(М06) + 1.1 (±0.02)

Приняли, что оценки погрешности измерения можно использовать и для других растворителей.

Факторы, определяющие поведение растворителей при экстракции. Так как

проанализированная с помощью анализа главных компонент корреляционная матрица построена по сильно разреженной матрице исходных данных М (49 х 4777, см. раздел «отбор и подготовка данных»), для оценки числа значимых факторов, определяющих экстракционное поведение растворителей, построили из М набор матриц данных М(т) с меньшим числом пропусков: из 49 растворителей отобрали 29, представляющих разные классы растворителей. Затем исключили из рассмотрения растворенные вещества, у которых в ряду для 29 растворителей меньше т значений lgP. Получили 23 матрицы данных М(т) (т варьируется от 2 до 24). Применив в анализе главных компонент корреляционных матриц, построенных из матриц М(т), несколько статистических критериев оценки числа значимых главных компонент (кросс-валидацию, индикаторную функцию Малиновского, F-критерий Малиновского и т.д.), определили, что наибольшее возможное число значимых главных компонент, т.е. факторов, определяющих экстракционное поведение растворителей - три.

Проанализировали нагрузки (loadings) и значения (scores) главных компонент (ГК) матрицы М(т=16). Корреляция нагрузок 1-й и 3-й ГК с какими-либо эмпирическими и физико-химическими параметрами растворителей не найдена.

Для 2-й ГК существует определенная корреляция значений нагрузок с сольватохромным параметром основности Р растворителей: r= 0.89, п = 28 (не для всех анализируемых растворителей известны те или иные параметры). Некоторая корреляция имеется между значениями нагрузок 2-й ГК и энергией когезии апротонных растворителей (r= 0.76, n = 16). Похожим образом 2-я ГК коррелирует и с сольватохромным параметром полярности (r= 0.78, п = 17).

Так как матрица М(т=16) содержит пропуски, значения главных компонент для растворенных веществ (scores) оценили с помощью регрессионного анализа. Значения 1-й ГК для растворенных веществ коррелируют с объемом или площадью молекул растворенных веществ, как показано на рис. 5. Значения 2-й ГК коррелируют с сольватохромными параметрами растворенных веществ: в большей степени с кислотностью и полярностью, и в меньшей степени с основностью. Взаимосвязь 3-й ГК с какими-либо свойствами растворенных веществ не найдена.

15 10 5

2

25

-20 -25 -30

McGowan volume

Рис. 5. Корреляция между значениями 1-й главной компоненты (PCI scores) для растворенных веществ и рассчитанным объемом по Мак-Говану (Mc_Gowan volume) молекул растворенных веществ (n = 110).

Суммируя результаты работы анализа факторов, определяющих экстракционное поведение и растворителей, и растворенных веществ, пришли к следующим выводам: 1) разумно считать, что экстракционное поведение растворителей определяют два (максимум - три) фактора 2) первый из них характеризует способность растворителя к кавитации - образованию полости для молекул растворенных веществ; при этом адекватной экспериментальной характеристики растворителя, соответствующей этому параметру, не найдено 3) второй фактор характеризует как специфические, так и неспецифические взаимодействия растворитель - растворенное вещество, в первую очередь - способность растворителя акцептировать протон.

Экстракционные свойства ионной жидкости BMIM-PF6 в сравнении с другими растворителями. Расположив 48 растворителей в порядке уменьшения коэффициента корреляции их значений IgP с ионной жидкостью, построили так называемый ряд сходства растворителей. По нему определили, что хорошую оценку lgPeMIM-P№ioiB органических растворенных веществ можно получить, используя коэффициенты распределения двух других растворителей:

BMIM-PF6/ecx)a -0.135 + 0.62 lgP бугшщегкт/пЬа + 0.1] IgP метюсшш/вода

п=18гг = 0.95, F=131, <¡>=0.935, PRESS = 1.07, s = 0.06

Полученные результаты согласуются с результатами классификации и подтверждают показанную на карте Саммона «промежуточность» положения ионной жидкости -сходство ее поведения при экстракции не только с сложными эфирами, но и с слабополярными и поляризуемыми гидрофобными ароматическими соединениями.

Часть 2. Анализ данных об устойчивости комплексов металлов и классификация катионов по комплексообразующей способности

Отбор и подготовка данных. Экспериментальные данные по первым константам устойчивости lgKi извлекли из базы данных IUPAC Stability Constants DataBase, в которой собраны сведения о 93550 экспериментах по определению различных констант устойчивости для 8287 реагентов, проведенных до 2000 года включительно. Все значения в базе данных приведены для полностью депротонированных реагентов. Выделили эксперименты по определению IgKj следующим способом: любой метод определения константы, водный раствор, ионная сила (любой солевой фон),

температура в диапазоне 20 - 30°С включительно. Для каждой величины lgKi провели коррекцию на I = 0 по уравнению Дэвиса. При наличии ряда значений lgK] для пары катион-реагент за оценку приняли медиану ряда.

На основе получившейся таблицы значений lgKi (36 катионов, 4650 реагентов, 19794 значений lgKi, заполненность матрицы данных - 11.8%) построили корреляционную матрицу (симметричную матрицу 36 х 36), каждый элемент которой, коэффициент корреляции по Пирсону, вычисляется попарно и показывает сходство поведения двух катионов при комплексообразовании, определенное на общем множестве реагентов (размером N) с известными значениями lgKj для этой пары катионов.

Применение анализа главных компонент для изучения сходства поведения катионов при комплексообразовании. Провели анализ главных компонент для построенной корреляционной матрицы. Распределение ее собственных значений показывает, что три главные компоненты (ГК) ответственны за разнообразие поведения катионов при комплексообразовании. Распределение катионов в пространстве нагрузок главных компонент показано на рис. 6 и 7.

Рис. 6. Распределение катионов в пространстве нагрузок первых двух главных компонент.

Рис. 7. Распределение катионов в пространстве нагрузок 1-й и 3-й главной компоненты.

Проанализировав показанное на рис. 6 и 7 распределение катионов, предположили, что первую ГК можно интерпретировать как способность катиона к образованию с донорными атомами реагента связи ковалентного типа, вторую ГК - как способность катиона к образованию связи ионного типа. Третью ГК - как

характеристику, сравнимую с «жесткостью» катионов по Пирсону, так как на оси 3-й ГК характерными антагонистами оказываются «мягкие» Ag+, и «жесткие» Н+,

Кластерный анализ сходства комплексообразующих свойств катионов металлов.

Кластерный анализ с разделением катионов на группы провели, анализируя скорректированную корреляционную матрицу как матрицу расстояний в метрике 1-Й. Использовали иерархический агломеративный кластерный анализ, три способа кластеризации: метод полного связывания, метод Варда, метод взвешенного парного связывания. По результатам анализа дендрограмм построили следующую классификацию катионов:

Са2+, Б!3*, Ва2+

2.Со2+, 7лг\ №2+, Си2+, (С(32+*)

3.тГ,ра2+

4.и022++ У02+, А13++ТЪ4+, 1л3+, СЬ3+, вс2*, Ре3+

5.Мп2+, Ре2+ (С<12+) + РЬ2+ + Ьа*. бс13+, Се3+ ++ (1Л*)

6.Ыа+ + К+ + Св+

7.А8+ + Н82+ + + (1Л+*) в.вп" + Ве* + + Сг3* + + Н* 9.У*

Обозначения: «+» - разделение в пределах группы (чем больше плюсов, тем больше разделение); скобки - «блуждающие» катионы, встречающиеся в разных классах (если катион помечен в данном классе звездочкой, это класс для него более вероятен). Показанная классификация - устойчивые малые группы катионов. На более низком уровне детализации иерархия объединения устойчивых малых групп неоднозначна -изменяется при разных способах кластеризации. Кластер №8 достаточно условен -можно говорить, что отнесенные туда катионы не близки друг к другу, а дальше от остальных катионов, чем друг от друга. Обособление Y3+ от остальных катионов -очевидный артефакт кластеризации, не подтверждающийся другими методами анализа.

Наглядное представление классификации катионов с помощью нелинейного картирования. Карта Саммона катионов (см. рис. 8) наглядно отражает общее сходство поведения при комплексообразовании групп катионов и дополняет результаты кластерного анализа (в частности, на карте видно, что обособление Y3+ по

результатам кластерного анализа не подтверждается). В некоторой степени распределение катионов на карте схоже с распределением катионов в пространстве главных компонент (см. рис. 6 и 7).

Рис. 8. Карта Саммона 36 катионов, помеченных в соответствии с классификацией ЖМКО Пирсона: пустые круги - «жесткие» катионы, черные круги - «переходные», звезды - «мягкие». Характеристики карты: final stress -11%, мера близости l-|Pearson г|.

Рады сходства поведения катионов при комплексообразовании. Для детального рассмотрения сходства отдельно взятого катиона относительно других построили ряды сходства катионов, в которых остальные катионы относительно данного расположены в порядке убывания сходства при комплексообразовании (уменьшения коэффициентов корреляции, определенного на общем множестве lgK1 для данного катиона с другими). При рассмотрении сходства отдельных пар катионов ряды сходства - эффективный инструмент, хорошо дополняющий и уточняющий классификацию катионов и карту Саммона катионов. Пример ряда сходства катионов приведен ниже: Pb2 : Sc3 > Gd3 > In3 > Y3 > Мп2 > СеЗ > La3 > Cd2 > VO_2 > Со2 > Zn2 > Ga3 > Fe3 > Th4 > Fe2 > A13 > Sr2 > Ca2 > Pd2 > Ni2 > Mg2 > Ba2 > Cu2 > UO2_2 > Be2 > Til > Cr3 > Li 1 > H1 > Hg2 > Agl > Sn4 > Nal > Kl > Csl

Анализ сходства комплексообразовательных свойств отдельных катионов между собой. Анализ полученных результатов выявляет некоторые интересные случаи сходства катионов, не являющиеся общеизвестными в координационной химии. Например, поведение «промежуточного» по Пирсону РЬ2+ при комплексообразовании более схоже с поведением многих из «жестких» катионов, чем «промежуточных»; «мягкий» Сё2+ более схож с «промежуточными» и «жесткими» катионами, чем с «мягкими». Достаточно интересен и «дрейф» №+ в сторону «мягких» Ag+ и Щ2+. Можно было бы предположить, что набор общих реагентов для этих катионов содержит в основном краун-эфиры, для которых подобие в отношении к серебру, ртути, щелочным металлам хорошо известно; однако это не так. Закономерность для краун-эфиров действительно существует, однако она является локальной. Общую же корреляцию организуют и макроциклы (содержащие кислород и азот), и аминокарбоксилаты, и органические кислоты.

Оценка обобщенной погрешности экспериментально измеренных констант устойчивости. Оценили погрешность измерения констант устойчивости отдельно для катионов и протона, использовав два набора данных из базы 8СЭВ:

1-й набор: выделили эксперименты по определению следующим способом: любой метод определения константы, водный раствор, ионная сила I < 0.5 (любой солевой фон), температура в диапазоне 20 - 30°С включительно. Для каждой величины провели коррекцию на I = 0 по уравнению Дэвиса.

2-й набор: любой метод определения, водный раствор, ионная сила I = 0.1 (любой • солевой фон), температура 25°С.

При наличии ряда значений igK1 для пары катион-реагент в обоих наборах использовали медиану ряда. Техника вычислений идентична технике, описанной для оценки погрешности коэффициентов распределения. Приняли, что нормальное распределение будет иметь величина ^Кг За оценку истинного значения ¡¿К для пары катион-реагент в ряду повторных экспериментов приняли среднее (^Кшеап), а за оценку погрешности - стандартное отклонение Основываясь на регрессионных

зависимостях между ^Кшеап и медианой б в интервалах ^^шеап получили следующие уравнения оценки погрешности измерения 1_Кг. Для катионов металлов при 1 = 0.1,1 — 25°С: ¡^К/) = 0.02 ^К1 + 0.08 Для катионов металлов при

Часть 3. Классификационные модели биологической активности

Основной целью этой части работы являлась проверка применимости нового перспективного классификационного метода (метода опорных векторов, Support Vector Machines, SVM) к задачам построения классификационных моделей структура-свойство. В качестве примера рассмотрели конструирование фильтров для оценки фармакологической активности веществ. Полученные фильтры сравнивали с построенными при помощи нейронных сетей. Выбор объектов исследования связан с известной химической «природой» взятых свойств (их удобно использовать в качестве тестовых задач для изучения особенностей классификационного метода), а также с доступностью соответствующих больших массивов данных. В последующем изученный на тестовых задачах метод возможно использовать для прогнозирования селективности органических реагентов.

Построение модели потенциальной биологической активности (drug-likeness). Для

построения модели потенциальной биологической активности (drag-likeness) создали выборку 30000 соединений. Информацию о половине из них извлекли из электронной базы данных Ensemble, в которой содержится информация о запатентованных и описанных в литературе биологически активных веществах (drugs), известных лекарствах; соединениях, проходящих (пред)клинические испытания; соединениях, чья биологическая активность известна. Соединения выбирали так, чтобы обеспечить их максимальное химическое разнообразие в создаваемой выборке. Остальные 15000 соединений, биологически неактивные вещества (non-drugs) взяли из каталога Sigma-Aldrich, в предположении, что относительно рассмотренных биологически активных веществ они проявляют минимальную биологическую активность. Биологически неактивные вещества также выбирались с точки зрения увеличения химического разнообразия выборки, с предварительным отсеиванием соединений, содержащих реакционно способные функциональные группы (пероксо-, гидридо- и т.п). Для каждого соединения рассчитали 7 структурных дескрипторов (молекулярный вес, относительное поглощение, коэффициент распределения, растворимость в воде, число доноров/акцепторов водородной связи, число связей свободного вращения). Полученную выборку 30000 соединений разделили на 3 части: тренировочную (для построения семейства нейросетевых и SVM моделей), валидационную (для проверки

качества моделей в процессе обучения нейросети) и тестовую, по которой верифицировались лучшие модели, полученные при обучении.

Для построения моделей потенциальной биологической активности использовали две разновидности метода опорных векторов, с линейным (linear kernel, линейная разделяющая поверхность) и гауссовым (Radial Basis Function, RBF kernel, нелинейная разделяющая поверхность) ядром. При построении нейросетевых моделей использованная архитектура сети - один скрытый слой и два выходных нейрона. На вход сети подавались значения дескрипторов, конечное значение активности являлось разностью значений выходных нейронов. Результаты работы лучших полученных SVM и нейросетевых моделей применительно к тестовой выборке показаны в таблице 2. Общее полученное качество предсказания соответствует величинам, показанным моделями предсказания потенциальной биологической активности, описанными в литературе. Диаграммы распределения предсказанных значений для биологически активных и неактивных соединений тестовой выборки представлены на рис. 9. Чем больше разнесены пики на подобного рода диаграммах, тем выше предсказательная сила построенной модели. На рис. 9 можно увидеть, что RBF SVM модель продуцирует распределения предсказанных значений, похожие на смеси нормальных распределений. Вполне возможно, что эта модель единственная из всех «чувствует» гетерогенность данных, заложенную в исходных дескрипторах.

Таблица 2. Результаты моделей предсказания потенциальной биологической активности на соединениях тестовой выборки.

модель Правильность предсказания (%) Общая Правильность предсказания (%) Биологически активные в-ва Правильность предсказания (%) Биологически неактивные в-ва

SVM, RBF ядро 75.15 72.19 78.10

SVM, линейное ядро 68.6$ 66.12 71.25

многослойная сеть прямого распространения 72.52 69.63 75.41

правило Липинсхого 62.60 28.60

Рис. 9. Гистограммы распределения предсказанных (лучшими SVM и нейросетевыми моделями) значений (predicted score) для биологически неактивных (non-drugs) и биологически активных (drugs) соединений тестовой выборки.

Построение модели потенциальной агрохимической активности (agro-likeness).

Для построения модели потенциальной агрохимической активности (agro-likeness) создали выборку 11500 соединений: 500 агрохимикатов из специализированного каталога Bayer, оставшиеся - из каталога Sigma-Aldrich, в предположении, что они проявляют минимальную агрохимическую активность. В отличие от моделей потенциальной биологической активности (drug-likeness), описанных в литературе, для агрохимикатов не известно ключевых свойств, влияющих на проявление активности, поэтом набор рассмотренных дескрипторов был расширен: для всех структур рассчитали 21 структурный дескриптор (кроме дескрипторов, используемых в drug-likeness модели, рассчитали дескрипторы Джурса, характеризующие геометрические и зарядовые характеристики ван-дер-ваальсовой поверхности молекулы). Для построения моделей использовали подход, аналогичный вышеописанному: общую выборку разделили на 3 части: обучающую, валидационную, тестовую. При построении SVM

моделей валидационная выборка использовалась для оценки качества полученных моделей вместо кросс-валидации на обучающей выборке из-за времязатратности последней.

Удалось построить приемлемые классификационные SVM модели щлько на гауссовом ядре (линейный SVM стабильно показывал большое число ошибок на валидационной выборке). Результаты сравнения их прогностичности с дополнительно построенными нейросетевыми моделями показаны в таблице 3. Диаграммы распределения предсказанных значений активности для агрохимикатов и неактивных соединений тестовой выборки представлены на рис. 10. Как и в случае с потенциальной биологической активностью (drag-likeness), для потенциальной агрохимической активности (agro-likeness) классификационные SVM модели превосходят по прогностичности нейросетевые. Распределение предсказанных значений для SVM моделей не только показывает лучшее разделение активных и неактивных соединений, но и имеет более регулярную форму (близкую к нормальной). Этот факт позволяет предположить, что построенная SVM разделяющая поверхность в наибольшей степени соответствует содержательному решению рассмотренной классификационной задачи, т.е. она перспективна с точки зрения ее дальнейшей химической интерпретации. Таблица 3. Число ошибок предсказания лучших найденных моделей потенциальной агрохимической активности (agro-likeness) для соединений тестовой выборки.

Модель агрохимикаты, ошибок (из 112) не агрохимикаты, ошибок (из 2786)

8УМ, ИВЕ ядро 17 821

многослойная сеть прямого

распространения + генетический алгоритм отбора значимых 22 1109

дескрипторов

многослойная сеть прямого распространения 33 1021

модульная нейронная сеть 41 1081

3 5 7 -3 -13 -0 в 03 13 3 42 34 63 73 prattdal «core

Рис. 10. Гистограммы распределения предсказанных (лучшими SVM и нейросетевыми моделями) значений для агрохимикатов (agro) и не агрохимикатов (non-agro) тестовой выборки.

Предсказание активности иупи6иторов карбоангидразы II (САН). САП является хорошо изученным цинк-содержащим ферментом: его собственная структура, как и структура его комплексов с рядом ингибиторов определена из рентгеноструктурных экспериментов. К настоящему времени синтезировано несколько тысяч разнообразных ингибиторов САП, что обусловлено его важной ролью в клеточных процессах, критичных для терапии и лечения различных дисфункций органона. Известно, что фармакофором ингибирующей активности является сульфонамидная группа, соединенная с (гетеро)ароматической системой, дополненной несколькими агентами водородной связи.

Основным аргументом рассмотрения в текущем исследовании именно этого вида активности является существование в литературе работы, посвященной построению модели бинарной классификации таких ингибиторов (активен/неактивен), в которой приведен полный список используемых дескрипторов для всех соединений взятой выборки, что позволяет провести полноценное сравнение предсказательной силы дополнительных моделей с бинарной моделью. Результаты предсказания приведенной в литературе модели бинарной классификации и полученной нами SVM модели на обучающей и тестовой выборках ингибиторов CAII показаны в таблице 4. Обе классификационные модели строились в одном и том же пространстве значений шести дескрипторов (три топологических индекса, число акцепторов водородной связи,

FN - число R-SO2NH2 групп в молекуле) для 337 соединений. Из таблицы 4

видно, что ИВБ SVM классификатор показывает лучший общий результат предсказания.

Таблица 4. Число ошибок предсказания: сравнение бинарной (литературной), лучшей $\М, БК* моделей предсказания активности ингибиторов САП.

Модель Тренировочная выборка (280 соединений) Тестовая выборка (57 соединений) Всего ошибок

среди активных среди неактивных всего среди активных среди неактивных всего

П>1 дескр." 5 18 23 0 1 1 24

Бинарная модель 10 9 19 3 1 4 23

ЭУМ линейное ядро 5 18 23 0 1 1 24

БУМ ЮТ ядро 3 6 9 2 1 3 12

БК дескр. - модель, в которой соединение считается активным, если число К^02КИ2 групп в молекуле, БК > 0, в противном случае - неактивным.

Для исследования качества моделей визуализировали их разделяющие поверхности в пространстве первых двух главных компонент. «Срезы» разделяющих поверхностей $\М моделей, показанные на рис. 11, построены через генерацию «сеток» точек в плоскости первых двух главных компонент, их трансляцию в исходное пространство признаков и последующую классификацию построенными SVM моделями с отражением результатов на плоскости первых двух главных компонент.

Полученная картина (рис.11) наглядно показывает, как разделяются в пространстве дескрипторов соединения тренировочной и тестовой выборок, и, самое главное, показывает локальность полученного нелинейного SVM классификатора - его разделяющая поверхность как бы «обволакивает» точки неактивных соединений (еще лучше это видно в пространстве трех первых главных компонент). Разделяющая поверхность линейного SVM классификатора в этом пространстве выглядит более «грубой», но и более корректной с химической, содержательной стороны.

• тренировочная выборка • тестовая выборка • • ГК2 • • « • ■ » * . ••• •

-----Л*- Л'Ту .........х...........; «о 7 • ■ »0 0 1 „ 1 \ ' ---' ч / - (?ВР ЭУМ нслшь 4 ч _ / - • то % •• Г • "¿о—................................ линейная БУМ модель / 1 " / ч " • „ /

Рис. 11. Проверка локальности классификационных 5!\М моделей: визуальное отображение разделяющей поверхностей классификационных моделей в пространстве первых двух главных компонент.

Таким образом, показана перспективность построения классификационных 5!\М моделей структура-свойство как для больших, так и малых выборок химических соединений. Показано, что 5!\М позволяет построить более корректные классификаторы, чем нейронные сети. Предложен способ визуализации разделяющих поверхностей, позволяющий судить об их локальности, применимый для любых классификационных моделей.

выводы

1. С помощью многомерного статистического анализа построена эмпирическая классификация 49 растворителей, основанная на исследовании большого массива коэффициентов распределения нейтральных органических соединений из водных растворов. Получена карта растворителей, наглядно отражающая сходство их экстракционного поведения.

2. По массиву множественных измерений ^ в системе октанол/вода оценена обобщенная погрешность экспериментального определения коэффициентов распределения нейтральных органических соединений в несмешивающихся системах органический растворитель/вода. Обнаружена сильная зависимость логарифма стандартного отклонения Р от величины с помощью линейной регрессии построена функция их взаимосвязи.

3. С помощью анализа главных компонент выделены и интерпретированы два фактора, в наибольшей степени ответственные за экстракционное поведение растворителей и растворенных нейтральных органических веществ. Первый фактор связан с размером молекулы растворяемого вещества. Второй - преимущественно со способностью растворителя акцептировать, а растворенного вещества - донировать протон в водородной связи.

4. Обобщены известные данные по экстракции органических веществ в ионную жидкость гексафторфосфат бутилметилимидазолия (BMIM-PF6). Показано (в том числе с помощью классификации растворителей), что BMIM-PFe по своему экстракционному поведению промежуточна между классами апротонных полярных растворителей и растворителей - доноров электронной пары (протонакцепторных). Показана возможность приемлемой оценки коэффициентов распределения в экстракционной системе ионная жидкость/вода по коэффициентам распределения в этилацетат и мета-ксилол. По широкой выборке экспериментальных данных определены сольватохромные параметры ионной жидкости.

5. С помощью многомерного статистического анализа построена эмпирическая классификация 36 катионов металлов по комплексообразующей способностьи, основанная на анализе большого массива экспериментальных констант устойчивости их комплексов с различными реагентами. Определены группы «родственных» катионов; построена карта катионов, наглядно отражающая сходство их поведения при комплексообразовании; построены ряды сходства катионов, дополняющие

классификацию и карту при рассмотрении сходства отдельных пар катионов. Полученная классификация дополняет и корректирует схему ЖМКО Пирсона применительно к ионам металлов.

6. С помощью анализа главных компонент выделено три фактора, ответственных за разнообразие поведения катионов при комплексообразовании. Первые два фактора интерпретированы как способность катиона образовывать преимущественно ионную или ковалентную связь с донорными атомами, а третий фактор - как мера, в определенной степени эквивалентная понятию «жесткость» в теории ЖМКО Пирсона.

7. По массиву множественных измерений констант устойчивости (lgKj) для пар катион-реагент оценена типичная погрешность экспериментального определения lgKj при двух условиях определения констант: общих (ионная сила от 0 до 0.5, температура от 20 до 30°С), и наиболее распространенных (ионная сила 0.1, температура 25°С). С помощью линейной регрессии для двух этих условий построены функциональные зависимости стандартного отклонения lgK^ величины lgK1 отдельно для катионов металлов и протона.

8. Проверена способность метода опорных векторов (SVM) к построению прогностичных классификационных моделей (на примере предсказания биологической и агрохимической активности на выборках больших размеров, тысячи и десятки тысяч соединений). Показано, что SVM позволяет строить более качественные, чем нейронные сети, классификационные модели предсказания таких активностей. Метод SVM применен для бинарной оценки активности (активен/неактивен) ингибиторов карбоангидразы II; получена модель, по качеству предсказания превосходящая описанную в литературе. С помощью визуального представления разделяющей поверхности модели в пространстве главных компонент оценена ее «локальность».

СПИСОК ПУБЛИКАЦИЙ

1. I.V. Pletnev, V.V. Zernov, Classification of metal ions according to their complexing properties: a data driven approach // Analytica Chimica Acta v.455, pp. 131-142 (2002)

2. V.V. Zernov, K.V. Balakin, A.A. Ivaschenko, N.P. Savchuk, I.V. Pletnev, Drug Discovery Using Support Vector Machines. The Case Studies of Drug-likeness, Agrochemical-likeness, and Enzyme Inhibition Predictions // Journal of Chemical Information and Computer Sciences, v. 43, № 6, pp.2048-2056 (2003)

3. В.В.Зернов, И.В. Плетнев, Статистический анализ констант устойчивости и классификация ионов металлов по комплексообразующим свойствам // Вторая Российская научная конференция "Проблемы теоретической и экспериментальной аналитической химии", Пермь, сентябрь 2002. Тезисы докладов, стр. 99

4. В.В. Зернов, И.В. Плетнев, Классификация органических растворителей по экстракционной способности // Материалы конференции I Международный форум «Аналитика и Аналитики», Воронеж, 2003, стр. 114

5. V. Zernov and LPletnev, A data-driven classification of solvents used in extraction of organic compounds // Third Winter School on Chemometrics (WSC3), Пушкинские Горы, Россия, февраль 2004. Тезисы докладов, стр. 27

6. V. Zemov and LPletnev, Application of multivariate statistical methods to classification of metal ions according to their complexing properies // Third Winter School on Chemometrics (WSC3), Пушкинские Горы, Россия, февраль 2004. Тезисы докладов, стр. 28

7. ВЗернов, ИПлетнев, Классификация растворителей в пространстве их экстракционных свойств. Определение места ионной жидкости BMM-PF6 в ряду обычных растворителей // XIII Российская конференция по экстракции, Москва, Клязьма, сентябрь 2004, Тезисы докладов.

БЛАГОДАРНОСТИ

К.В..Балакину(компания Chemical Diversity, Inc.)- за совместную работу над построением моделей биологической и агрохимической активности. Джонотану Хаддльстону (Университет Алабамы, США) - за предоставление данных по экстракции органических веществ в системе ионная жидкость BMIM-PFf/вода. А.В.Гармашу (Кафедра аналитической химии, МГУ им. Ломоносова) - за конструктивную критику диссертационной работы.

Принято к исполнению 04/11/2004 Исполнено 05/11/2004

Заказ № 428 Тираж: 100 экз.

ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Балаклавский пр-т, 20-2-93 (095) 747-64-70 (095)318-40-68 www autoreferat ru

Р2 55 1 7

 
Содержание диссертации автор исследовательской работы: кандидата химических наук, Зернов, Владимир Владимирович

Введение 5 Часть 1. Литературный обзор

Глава 1. Теоретические подходы к описанию свойств органических растворителей

1.1. Параметры растворителей

1.1.1. Физико-химические параметры

1.1.2. Равновесные параметры

1.1.3. Спектроскопические параметры

1.1.4. Параметры, определяемые по хроматографическим данным

1.2. Классификация растворителей

1.3. Многомерный статистический анализ параметров растворителей и классификация

1.4. Методы теоретической оценки коэффициентов распределения органических веществ в системах органический растворитель-вода

Глава 2. Константы устойчивости комплексов металлов и способы их предсказания. Классификация ионов металлов.

2.1. Влияние внешних факторов на величину констант устойчивости

2.1.1. Влияние природы растворителя

2.1.2. Влияние ионной силы и ионной среды на константы устойчивости

2.1.3. Зависимость констант устойчивости от температуры и давления

2.2. Зависимость устойчивости комплексов металлов от природы комплексообразователя и реагента

2.2.1. Связь между свойствами иона металла и константами устойчивости

2.2.2. Влияние электронной конфигурации комплексообразователя и атомов реагента на устойчивость комплексов

2.2.3. Развитие теории жестких и мягких кислот и оснований

2.2.4. Корреляции и корреляционные уравнения для констант устойчивости, зависимость устойчивости комплекса от структуры реагента

2.2.5. Корреляционные уравнения для устойчивости комплексов полидентатных лигандов

2.2.6. Прочие модели предсказания констант устойчивости комплексных соединений

Глава 3. Анализ многомерных данных

3.1. Предмет анализа многомерных данных

3.2. Предварительная обработка данных

3.3. Методы идентификации выбросов

3.4. Анализ данных с пропусками

3.5. Анализ главных компонент

3.6. Кластерный анализ

3.7. Нелинейное картирование

3.8. Метод опорных векторов

Часть 2. Экспериментальная часть

Глава 4. Подготовка и предварительная обработка данных

4.1. Данные по экстракции органических веществ в несмешивающиеся с водой растворители

4.2. Данные об устойчивости комплексов металлов

4.3. Программное обеспечение

Часть 3. Результаты и обсуждение

Глава 5. Анализ экстракционных данных

5.1. Применение анализа главных компонент для изучения сходства экстракционных свойств растворителей

5.2. Кластерный анализ сходства экстракционных свойств растворителей и классификация растворителей

5.3. Наглядное представление классификации растворителей с помощью нелинейного картирования

5.4. Сравнение построенной классификации с известными

5.5. Классификация растворителей по сольватохромным параметрам

5.6. Оценка обобщенной погрешности экспериментально измеренных коэффициентов распределения

5.7. Факторы, определяющие поведение растворителей при экстракции

5.8. Классификация растворенных веществ

5.9. Экстракционные свойства ионной жидкости BMIM-PF в сравнении с другими растворителями

5.10. Использование сольватохромных параметров для предсказания коэффициентов распределения в системе ионная жидкость ВМ1М-РРб/вода

Глава 6. Анализ данных об устойчивости комплексов металлов и классификация катионов по комплексообразующей способности

6.1. Анализ статистических распределений констант устойчивости

6.2. Применение анализа главных компонент для изучения сходства поведения катионов при комплексообразовании

6.3. Кластерный анализ сходства комплексообразующих свойств катионов металлов

6.4. Наглядное представление классификации катионов с помощью нелинейного картирования

6.5. Ряды сходства поведения катионов при комплексообразовании

6.6. Анализ сходства комплексообразовательной способности отдельных катионов между собой

6.7. Оценка обобщенной погрешности экспериментально измеренных констант устойчивости

Глава 7. Классификационные модели предсказания биологической активности веществ

7.1. Построение drug-likeness модели модели потенциальной биологической активности)

7.2. Построение agro-likeness модели модели потенциальной агрохимической активности)

7.3. Предсказание активности ингибиторов карбоангидразы II

Выводы

Список используемой литературы

 
Введение диссертация по химии, на тему "Применение анализа многомерных данных в аналитической химии"

Объем накопленного исследователями экспериментального материала в аналитической химии, как и в химии в целом, растет быстро, но его распределение по множеству исследованных объектов неравномерно. Это и не удивительно: направления научного поиска определяются в первую очередь практическими потребностями прикладных исследований. Кроме того, фактический материал разнесен в научно-информационном пространстве, так как он - продукт разных исследовательских групп. «Потенциальный барьер» при обобщении данных, начиная с какого-то их количества (тысяча и более «квантов» фактического знания, экспериментально измеряемых величин), определяемый временными и информационно-транспортными издержками, до недавнего времени превышал предполагаемый выигрыш от обобщения данных и возможных результатов их последующего содержательного анализа. Лишь бурное развитие информационных технологий и компьютерных сетей в последние годы дало толчок к процессам тотального обобщения фактической информации. Для научного сообщества это отразилось прежде всего в библиографическом аспекте. Традиция публикации содержательных результатов посредством сообщения в специальной литературе, с развернутыми описаниями экспериментов, не является оптимальной для накопления однородных «голых» фактов (по большей части числовых данных, в основном - о константах равновесия) - такую информацию нужно еще извлечь из многочисленных оригинальных публикаций. Компиляции подобного рода, включающие десятки и сотни фактов, изредка встречаются в обзорных работах. Рассматривающие тысячу и более - исключительно редки.

Вместе с тем нельзя не видеть, что появление и пополнение электронных баз данных -коммерческих и общедоступных, становится универсальной тенденцией научной жизни. Дальше всего эта тенденция зашла в наиболее «математизированных» разделах химии, например, в структурной химии. Так, практически все расшифровываемые структуры веществ в кристаллическом состоянии Кембриджском банке кристаллоструктурных данных (около 300000 структур); все чаще структуры депонируют в этом банке без оформления отдельной журнальной публикации. В других областях химии столь ярких примеров пока немного, однако, несомненно, что фактические экспериментальные данные в недалеком будущем повсеместно будут конвертироваться в электронный вид и накапливаться в специализированных базах данных большого и очень большого объема.

В связи с этим возникает важнейшая для любой области химии - и аналитической химии в том числе - задача поиска, разработки и применения хемометрических методов, специально ориентированных на работу с очень большими массивами данных. Очевидно, что распространенные ныне методы (оперирующие десятками-сотнями числовых данных) здесь если не непригодны, то явно недостаточны. Один пример: даже простейший, казалось бы, этап научного исследования - визуальное представление всей совокупности данных, с тем, чтобы можно было «охватить» ее взглядом, становиться совершенно нетривиальной задачей при объеме выборки в десятки тысяч значений.

Конечно, история науки показывает, что выводы общего характера можно делать и не пользуясь тысячами фактов, а имея их всего лишь сотни, а иногда и десятки. Однако соответствующие работы в интересующей нас области, например, формулировка Периодического закона или принцип жестких и мягких кислот и оснований (ЖМКО) -штучный «товар», основывающийся на глубоком понимании (граничащим с интуицией) отдельных исследователей того, какие данные рассматривать стоит, а какие нет, и как правильно посмотреть на имеющуюся факты, чтобы увидеть закономерности.

Если не автоматизировать, то облегчить задачу поиска закономерностей, «скрытых» в больших массивах данных способны методы многомерного статистического анализа и машинного обучения, противопоставляющие интуиции исследователя «грубую силу» большого объема вычислений (последние треть века выполняемых ЭВМ), сжимающих, просеивающих, сканирующих пространство признаков исследуемых объектов. Однако существуют три трудности, осложняющие применение таких методов:

1) Для них желателен существенный объем обрабатываемых данных, а если его нет, проблема их качественного предварительно отбора на вход методам опять превращается почти в искусство; иначе вступает в силу известный принцип GIGO (garbage in garbage out, по-русски - что на входе, то и выходе).

2) Применение математических методов требует глубокого знания их «ловушек» и тонких мест; незнание последних в лучшем случае может привести к неинерпретируемым или к незаметным неопытному глазу результатам, а в худшем - к результатам неверным.

3) Правильная интерпретация полученных с помощью математических методов обобщений и моделей - нетривиальная задача, для корректного решения которой необходимо понимать границы применимости методов, уметь перевести математические модели на предметный язык (методам по большому счету все равно, с какими числами работать), в вид, пригодный для практического использования.

Тем не менее, перспективы применения математических методов многомерного анализа для поиска закономерностей в больших массивах данных очевидны. Столь же очевидна необходимость поиска и тщательного тестирования соответствующего математического «инструментария», в том числе - применительно к конкретным, практически важным задачам. Этому и посвящена данная работа.

Выбор фактического материала - использовали данные об устойчивости комплексов металлов и об экстракции нейтральных органических соединений из воды в органические растворители, а так же данные о биологической активности органических веществ — обусловлен практической важностью предмета. Кроме того, в указанных случаях имеются и доступные базы, которые можно и нужно проанализировать; при этом можно надеяться, что общее количество данных достаточно для того, чтобы глобальные тенденции, определяющие общее поведение и разнообразие свойств, «заглушили» локальные тенденции и артефакты. В рамках работы мы поставили себе следующие цели:

1) с помощью методов многомерного анализа выявить закономерности, присутствующие в исследуемых массивах данных;

2) сформулировать эти закономерности в виде химически содержательных классификационных моделей, показать их полезность и применимость для решения практических задач;

3) сделать выводы о применимости в названных задачах различных хемометрических методов (методов многомерного анализа больших массивов данных)

 
Заключение диссертации по теме "Аналитическая химия"

1. С помощью многомерного статистического анализа построена эмпирическая классификация 49 растворителей, основанная на исследовании большого массива коэффициентов распределения (IgP) нейтральных органических соединений из водных растворов. Получена карта растворителей, наглядно отражающая сходство их экстракционного поведения.2. По массиву множественных измерений IgP в системе октанол/вода оценена обобщенная погрешность экспериментального определения коэффициентов распределения нейтральных органических соединений в несмешивающихся системах органический растворитель/вода. Обнаружена сильная зависимость логарифма стандартного отклонения Р от величины IgP, с помощью линейной регрессии построена функция их взаимосвязи.3. С помощью анализа главных компонент выделены и интерпретированы два фактора, в наибольшей степени ответственные за экстракционное поведение растворителей и растворенных нейтральных органических веществ. Первый фактор связан с размером молекулы растворяемого вещества. Второй - преимущественно со способностью растворителя акцептировать, а растворенного вещества - донировать протон в водородной связи.4. Обобщены известные данные по экстракции органических веществ в ионную жидкость гексафторфосфат бутилметилимидазолия (ВМ1М-РРб). Показано (в том числе с помощью классификации растворителей), что ВМ1М-РРб по своему экстракционному поведению промежуточна между классами апротонных полярных растворителей и растворителей - доноров электронной пары (протонакцепторных). Показана возможность приемлемой оценки коэффициентов распределения в экстракционной системе ионная жидкость/вода по коэффициентам распределения в этилацетат и мета-ксилол. По широкой выборке экспериментальных данных определены сольватохромные параметры ионной жидкости.5. С помощью многомерного статистического анализа построена эмпирическая классификация 36 катионов металлов по комплексообразующей способностьи, основанная на анализе большого массива экспериментальных констант устойчивости их комплексов с различными реагентами. Определены группы «родственных» катионов; построена карта катионов, наглядно отражающая сходство их поведения при комплексообразовании; построены ряды сходства катионов, дополняющие классификацию и карту при рассмотрении сходства отдельных пар катионов. Полученная классификация дополняет и корректирует схему ЖМКО Пирсона применительно к ионам металлов.6. С помощью анализа главных компонент выделено три фактора, ответственных за разнообразие поведения катионов при комплексообразовании. Первые два фактора интерпретированы как способность катиона образовывать преимущественно ионную или ковалентную связь с донорными атомами, а третий фактор - как мера, в определенной степени эквивалентная понятию «жесткость» в теории ЖМКО Пирсона.7. По массиву множественных измерений констант устойчивости (IgKi) для пар катион-реагент оценена типичная погрешность экспериментального определения IgKi при двух условиях определения констант: общих (ионная сила от О до 0.5, температура от 20 до линейной регрессии для двух этих условий построены функциональные зависимости стандартного отклонения IgKi от величины IgKi отдельно для катионов металлов и протона.8. Проверена способность метода опорных векторов (SVM) к построению прогностичных классификационных моделей (на примере предсказания биологической и агрохимической активности на выборках больших размеров, тысячи и десятки тысяч

соединений). Показано, что SVM позволяет строить более качественные, чем нейронные сети, классификационные модели предсказания таких активностей. Метод SVM применен для бинарной оценки активности (активен/неактивен) ингибиторов карбоангидразы II; получена модель, по качеству предсказания превосходящая описанную в литературе. С помощью визуального представления разделяющей поверхности модели в пространстве главных компонент оценена ее «локальность».

 
Список источников диссертации и автореферата по химии, кандидата химических наук, Зернов, Владимир Владимирович, Москва

1.Райхардт К. Растворители и эффекты среды в органической химии, М: Мир, 1991, 763 стр.

2. A.R.Katritzky, D.C.Fara, H.Yang, K.Tamm, T.Tamm, M.Karelson, Quantitative Meashures of Solvent Polarity, Chem.Rev., 104, 175 (2004)

3. Hildebrand J.H., Scott R. L., The Solubility of Nonelectrolites, 3rd edition, NY: Dover, 1964

4. Barton A.F.M., Handbook of Solubility Parameters and other Cohesion Parameters, CRC Press, Boca Raton/Florida, 1983

5. Herbrandson H.F., Neufeld F.R., Organic Reactions and the Critical Energy Density of the Solvent. The Solubility Parameter, 5, as a New Solvent Parameter, J.Org.Chem., 31, 1140 (1966)

6. Gordon J.E., Transition Energies for a Merocyanine Dye in Aqueous Electrolyte Solutions. Solvent Polarity Indicator Transition Energy-Internal Pressure Relations, J.Phys.Chem,, 70, 2413 (1966)

7. Kamlet M.J., Carr P.W., Taft R.W., Abraham M.H., Linear Solvation Energy Relationships. 13. Relationship Between the Hildebrand Solubility Parameter, dH, and the Solvatochromic Parameter, p*, J.Am.Chem.Soc., 103, 6062 (1981)

8. Gutmann V., Coordination chemistry of certain transition-metal ions. The role of the solvent, Coord.Chem.Rev., 2, 239 (1967)

9. Gutmann V., Solvent effects on the reactivities of organometallic compounds, Coord.Chem.Rev., 18, 225 (1976)

10. Greenberg M.S., Bodner R.L., Popov A.I., Spectroscopic studies of ionic solvation. XIV. Sodium-23 nuclear magnetic resonance and electrical conductance study of contact ion pairs in nonaqueous solvents, J.Phys.Chem., 77, 2449 (1973)

11. Day M.C., Medley J.H., Ahmad N., Donor numbers: Aluminium-27 quadrupole relaxation as a meashure of solvent donicity towards sodium ion, Can.J.Chem., 61, 1719 (1983)

12. Hahn S., Miller W.M., Lichtenhalter R.N., Prausnitz J.M., Donor number estimation for oxygen-and nitrogen-containing solvents via proton NMR shift of chloroform, J.Sol.Chem., 14, 129 (1985)

13. Markus Y., The effectivity of solvents as electron-pair donors, J.Sol.Chem., 13, 599 (1984)

14. Munakata M., Kitagava S., Myazima M., Classification of Solvents Based on Their Coordination Power to Nickel (II) Ion. A New Measure for Solvent Donor Ability, Inorg. Chem., 24, 1638 (1985)

15. Leo A., Hansch C., Elkins D„ Partition Coefficients and Their Uses, Chem.Rev., 71, 525 (1971)

16. Шмидт B.C., Межов Э.А., Новикова С.С., Шкала для расчета влияния природы разбавителей на экстракцию, Радиохимия, 9(6), 700 (1967)

17. Шмидт B.C., Межов Э.А., О некторых закономерностях влияния природы рабавителя на экстракцию кислот аминами и их солями при извлечении по реакциям присоединения, нейтрализации и ионного обмена, Радиохимия, 12(1), 38 (1970)

18. Шмидт B.C., Смелов B.C., Рыбаков К.А., Кондратьев Б.А., О влиянии параметров разбавителя BP и BP* на равновесие экстракции для различных типов экстракционных систем, Радиохимия, 25(2), 191 (1983)

19. Шмидт B.C., Хананашвили H.JL, Межов Э.А., О сравнении эмпирических шкал полярности растворителей и физическом смысле параметров BP*, 29(4), 519 (1987)

20. Markus Y., Linear Solvation Energy Relationship. A Scale Describing the "Softness" of Solvents, J.Phys.Chem., 91, 4422 (1987)

21. Kosower E.M., The Effect of Solvent on Spectra. I. A New Empirical Measure of Solvent Polarity: Z-Values, J.Am.Chem.Soc., 80, 3253 (1958)

22. Brooker L.G.S., Keyes G.H., Heseltine D.W., Color and Constitution. XI.1 Anhydronium Bases of/7-Hydroxystyryl Dyes as Solvent Polarity Indicators, J.Am.Chem.Soc., 73, 5350 (1951)

23. Griffiths T.R., Pugh D.C., Solvent polarity studies: Part I. New Z values and relationship with other solvent polarity scales, J.Sol.Chem., 8, 247 (1979)

24. Griffiths T.R., Correlations among solvent polarity scales, dielectric constant and dipole moment, and a means to reliable predictions of polarity scale values from cu, Coord. Chem. Rev., 29, 129(1979)

25. Ray A., Effects of temperature and solvent polarity on the interionic charge-transfer interactions in alkylpyridinium bromide, J.Am.Chem.Soc., 93, 7146 (1971)

26. Tamura K. Imoto Т., Effects of pressure on the solvent polarity parameter Et value, Chem. Lett. (Tokyo), 1251 (1973)

27. Dimroth K., Reichardt C., Schweig A., Uber die Thermochromie von Pyridinium-N-phenol-betainen, Liebigs Ann. Chem., 669, 95 (1963)

28. Татига K., Imoto Т., Solvent effects under high pressure. II. Determination and applications to kinetic studies of the Et parameter value at high pressures, Bull. Chem. Soc. Japan, 48, 369 (1975)

29. Kamlet M.J., Taft R.W., The solvatochromic comparison method. I. The .beta.-scale of solvent hydrogen-bond acceptor (HBA) basicities, J.Am.Chem.Soc., 98, 377 (1976)

30. Kamlet M.J., Taft R.W., The solvatochromic comparison method. 2. The .alpha.-scale of solvent hydrogen-bond donor (HBD) acidities, J.Am.Chem.Soc., 98, 2886 (1976)

31. Kamlet M.J., Abboud J.L., Taft R.W., The solvatochromic comparison method. 6. The .pi.* scale of solvent polarities, J.Am.Chem.Soc., 99, 6027 (1977)

32. Kamlet M.J., Abboud J.L., Taft R.W., Regarding a generalized scale of solvent polarities, J.Am.Chem.Soc., 99, 8325 (1977)

33. Nicolet P., Laurence C., Lucon M., Polarity and Basicity of Solvents. Part I. A Thermosolvatochromic Comparison Method, J. Chem. Soc. Perkin Trans. II, 1071 (1986)

34. Bentley T.W., Carter G.E., The SN2-SN1 spectrum. 4. The SN2 (intermediate) mechanism for solvolyses of tert-butyl chloride: a revised Y scale of solvent ionizing power based on solvolyses of 1-adamantyl chloride, J.Am.Chem.Soc., 104, 5741 (1982)

35. Brooker L.G.S., Craig A.C., Heseltine D.W., Jenkins P.W., Lincoln L.L., Color and Constitution. XIII. Merocyanines as Solvent Property Indicators, J.Am.Chem.Soc., 87, 2443 (1965)

36. Parker A.J., Mayer U., Schmid R., Gutmann V., Correlation of solvent effects on rates of solvolysis and SN2 reactions, J.Org.Chem., 43, 1843 (1978)

37. Brownlee R.T.C., Dayal S.K., Lyle J.L., Taft R.W., Aprotic solvent effects on the fluorine nuclear magnetic resonance shifts of p-substituted fluorobenzenes, J.Am.Chem.Soc., 94, 7208 (1972)

38. Баженов Д.В., Гришин Ю.К., Устынюк Ю.А., Влияние сольватации на параметры ЯМР и структуру ртутьорганических соединений в растворах. Новая мультипараметровая шкала растврителей, полученная с помощью факторного анализа, Металлорг.Химия, 5(2), 297 (1992)

39. Гришин Ю.К., Лещёва И.Ф., Воеводская Т.И., Влияние растворителя на параметры ЯМР тетраметилолова, Вестник Моск. ун-та. Сер.2, Химия, 37, 387 (1996)

40. Гришин Ю.К., Лещёва И.Ф., Воеводская Т.И., Многомерный подход к классификации растворителей, Вестник Моск. ун-та. Сер.2, Химия, 38, 65 (1997)

41. E. Kovats, Zusammenhange zwischen strucktur und gaschromatographischen daten organischer verbindungen. FreseniusZ. Anal. Chem.,181, 351 (1961)

42. Rohrschneider L., Eine methode zur charakterisierung von gas-chromatographischen trennflussigkeiten : II. Die berechnung von retentionsverhaltnissen , J.Chromatogr., 39, 383 (1969)

43. L.R.Snyder, Classification of the solvent properties of common liquids, J.Chromatogr., 92, 223 (1974)

44. A.Juan, G.Fondorona, E.Casassas, Solvent classification based on solvatochromic parameters: a comparison with the Snyder approach, Tr.Anal.Chem., 16(1), 52 (1997)

45. Parker A.J., The effects of solvation on the properties of anions in dipolar aprotic solvents, Quart. Rev., 16, 163(1962)

46. Parker A.J., Protic-dipolar aprotic solvent effects on rates of bimolecular reactions, Chem. Rev., 69(1), 1 (1969)

47. Mashima M., Mclver R.T., Tafit R.W., Bordwell F.G., Olmstead W.N., Enhanced Substituent Solvation Assisted Resonance Effects in Dipolar Non-Hydrogen-Bond-Donor Solvents, J.Am.Chem.Soc., 106, 2717(1984)

48. Ewell R.H., Harrison J.M., Berg L., Azeotropic Distillation, Ind.Eng.Chem., 36(10), 871 (1944)

49. Я.И.Коренман, Экстракция фенолов, Горький: Волго-вятское изд-во, 1973

50. M.Bohole, W.Kollecker, D.Martin, Anwendung der Faktoranalyse in der organischen Chemie, Z.Chem., 17, 161 (1977)

51. R.Carlson, T.Lundstedt, C.Albano, Screening of Suitable Solvents in Organic Synthesis. Strategies for Solvent Selection, Acta Chem. Scand., B39 (1985) 79

52. P.Svoboda, O.Pytela, M.Vecera, Solvent effects classification of parameters describing influence of solvents, Collect.Czech.Chem.Comun. 48, 3287 (1983)

53. Pytela, Empirical approach to description of solvent effect on processes in solutions: a review, Collect.Czech.Chem.Comun. 53, 1333 (1988)

54. PyteIa, Additive-multiplicative description of extrathermodynamic relations: application to solvent effect, CollectCzech.Chem.Comun. 55, 634 (1990)

55. Pytela, A New Classification of solvents based on chemometric empirical scale of parameters, CollectCzech.Chem.Comun., 55 (3), 644 (1990)

56. M.Chastrette, M.Rajzmann, M.Chanon, K.F.Purcell, Approach to a General Classification of Solvents Using a Multivariate Statistical Treatment of Quantitative Solvent Parameters, J.Am.Chem.Soc., 107(1), 1,(1985)

57. Hoffmann R., An Extended Htickel Theory. I. Hydrocarbons, J.Chem.Phys. 39, 1397 (1963)

58. P.Gramatica, N.Navas, R.Todeschini, Classification of organic solvents and modelling of their physico-chemical properties by chemometrics methods using different sets of molecular descriptors, Tr.Anal.Chem., 18(7), 461 (1999)

59. M.H.Abraham, J.C.MacGowan, The Use of Charactersitic Volumes to Measure Cavity Terms in Reversed Phase Liquid Chromatography, Chromatographia, 23(4), 243 (1987)

60. P.Meyer, G.Maurer, Correlation of Partition Coefficients of Organic Solutes between Water and an Organic Solvents. An Application of the Linear Solvation Energy Relationship, Ind.Eng.Chem.Res., 32, 2105 (1993)

61. Abraham M.H., Zissimos A.M., Acree W.A., Partition of solutes into wet and diy ethers; an LFER analysis, New J.Chem, 27, 1041 (2003)

62. S.Carda-Broch, A.Berthold, D.W.Armstrong, Solvent properties of the l-butyl-3-methylimidazolium hexafluorophosphate ionic liquid, Anal.Bioanal.Chem., 375, 191 (2003)

63. Y.Markus, Linear Solvation Energy Relationship. Correlation and Prediction of the Distribution of Organic Solutes between Water and Immiscible Organic Solvents, J.Phys.Chem., 95, 88861991)

64. Y.Markus, Correlation of the distribution of organic solutes between water and "wet" organic solvents with the properties of the solutes and the solvents, Solv. Ext. Ion Exchange, 10(3), 5271992)

65. А.В.Никулина, Я.И. Коренман, Прогнозирование коэффициентов концентрирования фенолов на основе их строения и полярности экстрагентов, Сборник материалов форума «Аналитика и аналитики», 2-6 июня 2003 г, Воронеж.

66. R.A.Sounders, J.A.Platts, Scaled polar surface area descriptors: development and application to three sets of partition coefficients, New J.Chem., 28, 166 (2004)

67. Dunn W.J., Koehler M.G., Grigoras S., The Role of Solvent-Accessible surface area in Determining Partition Coefficients, J.Med.Chem., 30, 1121 (1987)

68. Haeberlein M., Brinck Т., Prediction of water-octanol partition coefficients using theoretical descriptors derived from the molecular surface area and the electrostatic potential, J. Chem. Soc. Perkin Trans., 2, 289 (1997)

69. Fujita Т., Iwasa I., Hanch C., A new substitutient constant 7C, derived from partition coefficients, J.Am.Chem.Soc., 86(23), 5175 (1964)

70. Wolfenden R„ Waterlogged Molecules, Science, 222, 1087 (1983)

71. Broto P., Moreau G., Vandycke C., Molecular Structures: Perception, Autocorrelation Descriptor and SAR Studies. System of Atomic Contributions For the Calculation of the n-Octanol/Water Partition Coefficients, Eur.J.Med.Chem., 19, 71 (1984)

72. Ghose A., Crippen G., Atomic physicochemical parameters for 3-dimensional structure-directed quantitative structure-activity relationships. I. Partition coefficients as a measure of hydrophobicity, J. Comput. Chem., 7, 565 (1986)

73. S.A.Wildmann, G.M.Crippen, Prediction of Physicochemical Parameters by Atomic Contributions, J.Chem.Inf.Comp.Sci., 39, 868 (1999)

74. Buchwald P., Bodor N., Octanol-Water Partitition: Searching for Predictive Models, Current Med.Chem., 5, 353 (1998)

75. Mannhold R., Petrauskas A., Substructure versus Whole-molecule Approaches for Calculating LogP, QSAR Comb.Sci., 22, 466 (2003)

76. Бек M., Химия равновесий реакций комплексообразования, М: Мир, 1973

77. Сох B.G., Hedwig G.R., Parker A.J., Watts D.W., Solvation of ions XIX. Thermodynamic properties for transfer of single ions between protic and dipolar aprotic solvents, Aust. J. Chem., 27, 477(1974)

78. Химия экстракции, сб. статей под ред. Михайлова А.В., Новосибирск: Наука, 1984, 250 стр.

79. Ahrland S., Complex formation in protonic and proton-free media, Kemiai Kozlemenyek, 53, 41 (1980)

80. Инцеди Я., Применение комплексов в аналитической химии, М: Мир, 1979, 370 стр.

81. Gergely A., Nagypal I., Farkas Е., Dependence of the ionic strength of the stability constants of the parent and mixed complexes of copper(II) with some amino acids, Magyar Kemiai Folyoirat, 80, 25 (1974)

82. Бек M., Надьпал И., Исследование комплексообразования новейшими методами, М: Мир, 1989,413 стр.

83. Pignolett L.H., Horrocks W.D.W., Holm R.H., Thermodynamics and kinetics of the planar-tetrahedral interconversion of dihalobis(diarylmethylphosphine)nickel(II) complexes, J.Am.Chem.Soc., 92, 1855 (1970)

84. Kannan T.S., Chakravorty A., Syntheses and solution equilibriums of some nickel(II) chelates, Inorg. Chem., 9, 1153 (1970)

85. Rusnak L., Jordan R.B., Diamagnetic-paramagnetic equilibrium of two nickel(II)-Schiff base complexes in several coordinating solvents, Inorg.Chem., 10, 2199 (1971)

86. Nowlin Т., Cohn K., Equilibrium involving bis- and trisfluorophosphine complexes of cobalt(II) halides, Inorg.Chem., 11, 560 (1972)

87. Graybill G.R., Wrathal J.W., Ihring J.L., Magnetic titration. Nickel(II) complexes of C-substituted ethylenediamines, Inorg.Chem., 11, 722 (1972)

88. Hefter G., Simple electrostatic correlations of fluoride complexes in aqueous solution, Coord. Chem.Rev., 12, 221 (1974)

89. Van Pantaleon van Eck C.L., The relation between the stability of metal complexes in solution and the ionization potential of their metal component, Rec.Trav.Chim., 72, 50 (1953)

90. Nieboer E., McBryde W.A.E., Free-Energy Relationships in Coordination Chemistry. III. A comprehensive Index to Complex Stability, Can.J.Chem., 51, 2512 (1973)

91. Allred A.L., Electronegativity values from thermochemical data, J.Inorg.Nucl.Chem., 17, 215 (1961)

92. J.C.Slater., Atomic Shielding Constants, Phys.Rev., 36, 57 (1930)103.1rving H., Williams RJ.P., The stability of transition metal complexes, J.Chem.Soc., 31921953)

93. Bjerrum J. Jorgensen C.K., Crystal field stabilization and tendency towards complex formation of first transition group elements, Rev.Trav.Chim., 75, 658 (1956)

94. Cannon R.D., Stabilities of chromium(II) complexes, J. Inorg.Nucl.Chem., 38, 1222 (1976)

95. Nicskey K., Debreczeni F., Nagypal I., Equilibria in Aqueous Solution of Some Chromium(2+) complexes, J.Chem.Soc.Dalton, 1335 (1983)

96. SidwickN.V., Complex formation: 8-th Liverside lecture, J.Chem.Soc., 433 (1941)

97. Ahrland S., Larson R., Complexity of uranyl chloride, bromide and thiocyanate, Acta Chem.Scand., 8, 354 (1954)

98. Carleson B.G.F., Irving H., The Stability Constants of Indium Halides, J.Chem.soc., 43901954)

99. Ahrland S., Chatt J., Davies N.R., The Relative Affinities of Ligand Atoms for Acceptor Molecules and Ions, Quart. Rev., 12, 265 (1958)

100. Pearson R.G., Hard and Soft Acids and Bases, J.Am.Chem.Soc., 85, 3533 (1963)

101. Pearson R.G., Hard and Soft Acids and Bases, HSAB: Part I, Fundamental Principles, J.Chem.Ed., 45, 581 (1968)

102. Pearson R.G., Hard and Soft Acids and Bases, HSAB: Part II, Underlying Theories, J.Chem.Ed., 45, 643 (1968)

103. Ahrland S., The Relative Affinities of Ligand Atoms for Acceptor Molecules and Ions: a long story revisited, Coord.Chem.Rev., 154, 13 (1996)

104. Misono M., Ochiai E., Saito Y., Yoneda Y., A new dual parameter scale for the strength of lewis acids and bases with the evaluation of their softness, J.Inorg.Nucl.Chem., 29, 2685 (1967)

105. Drago R.S., Wayland B.B., A Double-Scale Equation for Correlating Enthalpies of Lewis Acid-Base Interactions, J.Am.Chem.Soc., 87, 3571 (1965)

106. Drago R.S., Vogel G.C., Needham Т.Е., Four-parameter equation for predicting enthalpies of adduct formation, J.Am.Chem.Soc., 93, 6014 (1971)

107. Drago R.S., Kroger M.K., Quantitative prediction and analysis of enthalpies for the interaction of gas-phase ion-ion, gas-phase ion-molecule, and molecule-molecule Lewis acid-base system, J.Am.Chem.Soc., 103, 3250 (1981)

108. Hancock R.D., Marsicano F., Parametric correlation of formation constants in aqueous solution.

109. Ligands with small donor atoms, Inorg.Chem., 17, 560 (1978)

110. Hancock R.D., Marsicano F., Parametric correlation of formation constants in aqueous solution.

111. Ligands with large donor atoms, Inorg.Chem., 19, 2709 (1980)

112. Pearson R.G., Acids and Bases, Science, 172, 151 (1966)

113. Pearson R.G., Hard and Soft Acids and Bases, Chem.Br., 103, 3 (1967)

114. Ahrland S., Scales of softness for acceptors and donors, Chem.Phys.Letters, 2, 303, 1968

115. Martell A.E., Motekaits R.J., Smith R.M., Structure-stability relationships of metal complexes and metal speciation in environmental aqueous solutions, Envirom.Toxicol.Chem., 7, 417, 1988

116. Pearson R.G., The HSAB Principle — more quantitative aspects, Inorg.Chem.Acta., 240, 93 (1995)

117. Parr R.G. Pearson R.G., Absolute hardness: companion parameter to absolute electronegativity, J.Am.Chem.Soc., 105, 7512 (1983)

118. Pearson R.G., The Principle of Maximum Hardness, Acc.Chem.Res., 26, 250 (1993)

119. Pearson R.G., Principle of Maximum Physical Hardness, J.Phys.Chem., 98, 1989 (1994)

120. Parr R.G., LeeH., Chattaraj P.K., Principle of maximum hardness, J.Am.Chem.Soc., 113, 1854 (1991)

121. Chattaraj P.K., Schleyer P.R, An ab initio study resulting in a greater understanding of the HSAB principle, J.Am.Chem.Soc., 116, 1067 (1994)

122. Garmer D.R., Gresh N., A Comprehensive Energy Component Analysis of the Interaction of Hard and Soft Dications with Biological Ligands, J.Am.Chem.Soc., 116, 3556 (1994)

123. Кумок B.H., Закономерности в устойчивости координационных соединений в растворах, Томск: Изд-во ТГУ, 1977, 230 стр.

124. Чудинов, Э.Г., Швецов И.К., Изучение комплексообразующей способности Np(V) Радиохимия, 7, 188 (1965)134.1rving Н., Rossotti H.S., Relations among the stabilities of metal complexes, Acta Chem.Scand., 10, 72(1956)

125. Кумок B.H., Корреляции в устойчивости комплексных соединений, ЖНХ, 11, ЗОЮ (1967)

126. Винокуров Е.Г., Бондарь В.В., Прогнозирование констант устойчивости комплексов хрома(Ш) и хрома(П), Коорд. Химия, 29 (1), 71 (2003)

127. Nieboer Е., McBryde W.A.E., Free-Energy Relationships in Coordination Chemistry. II. Requirements for linear relationships, Can.J.Chem., 48, 2565 (1970)

128. Nieboer E., McBryde W.A.E., Free-Energy Relationships in Coordination Chemistry. I. Linear Relationships among equilibrium constants, Can.J.Chem., 48, 2549 (1970)

129. E.Larrson, Die Dissoziationskonstanten von Aminium und Silberdiaminionen und ein Zusammenhang zwischen ihnen, Z.Physik.Chem (Leipzig), A169, 207 (1934)

130. Sigel H., Ternary complexes in solution—XIX Relation between ligand basicity and complex stability. A method for the estimation of stability constants, J.Inorg.Nucl.Chem., 37, 507 (1975)

131. Dimmok P.W., Warwick P., Robbins R.A., Approaches to Predicting Stability Constants, Analyst, 120,2159(1995)

132. Jahagirdar D.V., Potentiometric studies of Fe(lII) complexes of some substituted salicylic acids, J.Inorg.Nucl.Chem., 36, 2388 (1974)

133. Hancock R.D., Martell A.E. Ligand Design for selective Complexation of Metal Ions in Aqueous Solution, Chem.Rev., 89, 1875 (1989)

134. Яцимирский К.Б., Хелатный, полихелатный, макроциклический и криптатный эффекты, Журнал РХО им. Менделеева, XL(4-5), 7 (1996)

135. Раевский О.А., Сапегин A.M., Чистяков В.В., Соловьев В.П., Зефиров Н.С., Формирование моделей взаимосвязи структура комплексообразующая способность, Коорд.Хим., 18,212(1992)

136. Grgas В., Nikolic S., Paulic N., Raos N., Estimation of Stability Constants of Copper(II) Chelates with N-alkylated Amino Acids using Topological Indices, Croat.Chem.Acta, 72(4), 885 (1999)

137. Nikolic S., Raos N., Estimation of Stability Constants of Mixed Amino Acid Complexes with Copper(II) from Topological Indices, Croat.Chem.Acta, 74(3), 621 (2001)

138. Raos N., Suitability of the Topological Index W1/3 for estimation of the Stability Constants of Coordination Compounds, Croat.Chem.Acta, 75(1), 117 (2002)

139. Торопов А. А., Торопова А.П., Оптимизация корреляционных весов локальных инвариантов графа: использование для QSPR моделирования энтальпий образования комплексных соединений, Коорд.Хим., 24(2), 89 (1998)

140. Торопов А.А., Торопова А.П., QSPR-моделирование констант устойчивости на основе графа атомных орбиталей, Коорд.Хим., 26(6), 423 (2000)

141. Торопов А.А., Торопова А.П., QSPR-моделирование констант устойчивости комплексов биометаллов с фосфат-производными аденозина, Коорд.Хим., 26(11), 842 (2000)

142. Торопов А. А., Торопова А.П., QSPR-моделирование устойчивости комплексов посредством оптимизации корреляционных весов индекса водородной связи и локальных инвариантов графа, Коорд. Хим., 28(12), 938 (2002)

143. Gakh А.А., Sumpter B.G., Noid D.W., Sachleben R.A., Moyer B.A., Prediction of Complexation Properties of Crown Ethers Using Computational Neural Networks, Journal of Inclusion Phenomena and Molecular Recognition in Chemistry, 27, 201 (1997)

144. Adam K.R., Baldwin D.S., Lindoy L.F., Meehan G.V., Vasilescu I.M., Wei G., Metal-ion recognition. Modeling the stability constants of some mixed-donor macrocyclic metal ion complexes a simple model, Inorg.Chim.Acta, 352, 46 (2003)

145. Qi Y., Zhang Q., Xu L., Correlation Analysis of the Structures and Stability Constants of Gadolinium(III) Complexes, J.Chem.Inf.Comp.Sci., 42, 1471 (2002)

146. Тьюки Д., Анализ результатов наблюдений, М: Мир, 1981, 693 стр.

147. Дёрффель К., Статистика в аналитической химии, М: Мир, 1994, 268 стр.

148. Большев JI.H., Смирнов Н.В., Таблицы математической статистики, М: Наука, 1965

149. Р.Литтл, Д.Рубин, Статистический анализ данных с пропусками, М: Финансы и Статистика, 1990, 336 стр.

150. C.Lucas, Computing Nearest Covariance and Correlation Matrices, MSc dissertation: http://www.ma.man.ac.uk/~clucas/niscthesis.ps.gz

151. B.Walczak and D.L.Massart, Dealing with missing data: Part 2, Chemom.lntell.Lab.Syst., 58, 29(2001)

152. B.Walczak and D.L.Massart, Dealing with missing data: Part I, Chemom.lntell.Lab.Syst., 58, 15 (2001)

153. D.B.Rubin, Multiple Imputation for Nonresponse in Survey, Whiley, New-York, 1987

154. Иберла К., Факторный анализ. М.: Статистика, 1980. 398 стр.

155. Айвазян С.А., Енюков И.С., Мешалкин Л.Д., Прикладная статистика: классификация и снижение размерности, М: Финансы и Статистика, 1989, 607 стр.

156. Дубров A.M., Мхитарян B.C., Трошин Л.И., Многомерные статистические методы, М: Финансы и Статистика, 1998, 352 стр.

157. G.Mahe, Calculating the Principal Components, The NIPALS Algorithm: http://www.mathworks.eom/matlabcentral/files/5035/nipals2.m

158. Д.Голуб, Ч.Ван Лоун, Матричные вычисления, М: Мир, 1999, 548 стр.

159. LAPACK ~ Linear Algebra PACKage, http://www.netlib.org/lapack/

160. Matlab software, The Mathworks Inc. http://www.mathworks.com/

161. E.R.Malinowski, Factor analysis in chemistry, John Wiley, New York, 2002

162. PCR tutorial, Department of Pharmaceutical and Biomedical Analysis: http://minf.vub.ac.be/~fabi/

163. N.M.Faber, Modification of Malinowski's F-test for pseudo rank estimation revisited, Computers & Chemistry 23, 565-570 (1999)

164. K.Faber, B.Kowalski, Critical evaluation of two F-tests for selecting the number of factors in abstract factor analysis, Analytica Chimica Acta, 337, 57 (1997)

165. Cluster Analysis, in Electronic Statistics Textbook, Statsoft Inc.: http://www.statsoft.com/textbook/stathome.html

166. J.W.Sammon Jr., A nonlinear mapping for data structure analysis, IEEE Transactions on Computers, C-18: 401-409, 1969.

167. V.Vapnik, The Nature of Statistical Learning Theory, Springer, New York, 1995.

168. K.P.Bennett, C.Campbell, Support Vector Machines: Hype or Hallelujah?, SIGKDD Explorations, 2(2), 1, 2000.

169. Коренман Я.И. Коэффициенты распределения органических соединений: Справочник. Воронеж: Изд-во Воронеж, гос.ун-та, 1992.

170. J.G.Huddleston, A.E.Visser, W.M.Reichert, H.D.Willauer, G.A.Broker, R.D.Rogers, Characterization and comparision of hydrophilic and hydrophobic room temperature ionic liquids incorporating the imidazolium cation, Green Chem., 3, 156 (2001)

171. The IUPAC Stability Constants Database, Academic Software, UK: http://www.acadsoft.co.uk/193.http://www.ma.man.ac.uk/~clucas/download.html 194.Statistica software package, Statsoft Inc.: http://www.statsoft.com/

172. ChemoSoft, Chemical Diversity Labs, Inc.: http://www.chemosoft.com/196.www.pvthon.org

173. I.V.Pletnev, V.V.Zernov, Classification of metal ions according to their complexing properties: a data driven approach, Anal.Chim.Acta, 455, 131 (2002)

174. M.H.Abraahm, Scales of Solute Hydrogen-Bonding: Their Construction and Application to Physicochemical and Biochemical Processes, Chem.Soc.Rev., 73 (1993)

175. Ensemble database of pharmaceutical compounds, Prous Science, 2003. http://www.prous.com/

176. Chemical Diversity Labs, Inc. 2003. http://www.chemosoft.com/

177. Raevsky, O.; Trepalin, S.; Trepalina, H.; Gerasimenko, V.; Raevskaya, O. SLIPPER-2001 -Software for Predicting Molecular Properties on the Basis of Physicochemical Descriptors and Structural Similarity, J. Chem. Inf. Comput. Sci., 42, 540 (2002)

178. Accelrys, Inc. 2000. URL: http://www.accelrys.com/

179. Sadowski, J. Optimization of the drug-likeness of chemical libraries, Perspect. Drug Discovery Des., 20, 17 (2000)

180. Lipinsky, C.; Lombardo, F.; Dominy В.; Feeney, P. Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings, Adv. Drug Delivery Rev., 23, 3 (1997)

181. Gao, H.; Bajorah, J. Comparision of binary and 2D QSAR analyses using inhibitors of human carbonic anhydrase II as a test case, Mol.Diversity, 4, 115 (1999)