Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

Скворцова Мария Ивановна

МАТЕМАТИЧЕСКИЕ МОДЕЛИ И АЛГОРИТМЫ

В ИССЛЕДОВАНИЯХ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И СВОЙСТВАМИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

05.13.18 – математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

доктора физико-математических наук

Москва – 2007

Работа выполнена

в Московской государственной академии тонкой химической технологии (МИТХТ)

им. М. В. Ломоносова

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

доктор физико-математических наук, профессор Сапоженко А.А.

доктор физико-математических наук, профессор Чернозатонский Л.А.

доктор химических наук, профессор Гюльмалиев А.М.

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

Институт математического моделирования РАН

Защита состоится «___» ______________2007 г. в «___» час. на заседании диссертационного совета Д 501.001.43 при Московском государственном университете им. М.В. Ломоносова по адресу: 119992, г. Москва, ГСП-2, Ленинские горы, МГУ, факультет вычислительной математики и кибернетики, ауд. 685.

С диссертацией можно ознакомиться в библиотеке факультета вычислительной математики и кибернетики МГУ им. М.В.Ломоносова.

Автореферат разослан «____» __________2007 г.

Ученый секретарь

диссертационного совета, Захаров Е. В.

доктор физико-математических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

АКТУАЛЬНОСТЬ ТЕМЫ. Проблема моделирования связи между структурой и свойствами органических соединений является одной из важнейших математических задач современной теоретической химии. Найденные закономерности позволяют, минуя эксперимент, прогнозировать свойства новых химических соединений непосредственно по их структуре и могут быть использованы для планирования целенаправленного поиска соединений с заданными свойствами.

К настоящему времени синтезировано огромное количество химических соединений (около 20 млн.), которые интенсивно вовлекаются в сферу практического использования. Однако экспериментальное определение различных свойств этих веществ (физико-химических, разных видов биологической активности) часто связано со значительными трудностями, возникающими, например, при получении достаточного количества вещества, его очисткой, возможной нестойкостью, токсичностью и т. д., и, кроме того, не всегда возможно. Такие исследования требуют значительных финансовых и временных затрат. В связи с этим разработка любых теоретических методов расчета свойств веществ по их структуре, минуя эксперимент, является актуальной научно-практической задачей. Следует отметить, что выявленные закономерности могут быть использованы и при разработке новых теорий о связи свойств веществ с их строением, а также при изучении механизмов действия биологически активных соединений.

Приведем краткую характеристику наиболее распространенного современного подхода к моделированию связи «структура-свойство». Имеется выборка соединений с известными численными значениями некоторого свойства этих соединений. Структура соединений описывается при помощи набора молекулярных параметров x1,…,xn , в качестве которых используются топологические, электронные, геометрические характеристики молекул или значения каких-либо физико-химических свойств. Как правило, математическая модель связи «структура-свойство» в рамках этого подхода имеет вид уравнения, связывающего численные значения исследуемого свойства y и молекулярных параметров x1,…,xn при помощи некоторой функции f:

y=f(x1,…,xn). (1)

Вид функции f предполагается известным, однако f зависит от ряда подгоночных параметров. Эти параметры подбираются по известным численным значениям рассматриваемого свойства соединений заданной выборки так, чтобы соотношение (1) выполнялось бы как можно более точно на этой выборке.

Модели связи «структура-свойство» могут иметь и другую форму, отличную от уравнения (1). Например, используются модели, определяемые заданием некоторой количественной меры молекулярного подобия d(S1,S2) пары соединений S1 и S2, характеризующей количественно степень их сходства. Принцип расчета свойств соединений в рамках этого подхода базируется на постулате «близкие структуры имеют близкие свойства»: для оценки свойства какого-либо соединения S0 в базе данных находят соединение S, ближайшее к S0 по мере d, и полагают, что значения свойств этих соединений равны.

Важное место в вышеуказанных исследованиях занимают способы количественного описания структуры молекул, т.е. выбор параметров х1,…,хn. От этого выбора значительно зависит эффективность модели. Параметры х1,…,хn могут быть как экспериментальными, так и расчетными. Использование расчетных параметров в моделях связи «структура-свойство» более предпочтительно, т. к. они могут быть вычислены даже для гипотетических структур. Для получения этих параметров в качестве основы используется классическая структурная формула молекулы, которую можно рассматривать как меченый граф. По структурной формуле могут быть построены другие меченые графы. Вершины таких графов, называемых молекулярными, обычно соответствуют атомам (или фрагментам), а ребра – химическим связям молекулы. Метки вершин кодируют атомы различной химической природы, а метки ребер – связи разного типа. Метки типа буквенных символов характеризуют атомы и связи качественно, а числовые метки (веса) – количественно. Веса вершин и ребер могут быть взяты как из литературы (например, заряды ядер или ковалентные радиусы атомов), так и рассчитаны при помощи специальных стандартных программ, позволяющих определить электронные и геометрические характеристики молекул (например, могут быть найдены потенциалы ионизации, межатомные расстояния или рассчитаны заряды на атомах). На рис.1 в качестве примера приведена структурная формула 1,3-дихлорфенола и соответствующий ей меченый граф, в котором вершины соответствуют атомам углерода, а их метки A, B, C кодируют атомы углерода, в зависимости от присоединенных к ним фрагментов H, Cl или OH.

Таким образом, каждой молекулярной структуре могут быть сопоставлены различные инварианты x1,…,xn соответствующего молекулярного графа (т.е. числа, вычисляемые по графу, не зависящие от способа нумерации его вершин). Инварианты графов, для построения которых использовалась лишь информация о топологии молекулы и, возможно, литературные данные о количественных характеристиках атомов и связях разного типа, в теоретической химии обычно называют топологическими индексами. Инварианты графов, связанных с пространственными моделями молекул, называют геометрическими дескрипторами. Если же для вычисления весов графа использовались квантово-химические методы, то соответствующие инварианты называют квантово-химическими дескрипторами. При построении молекулярного графа возможна и комбинация этих подходов. Отметим, что все вышеуказанные молекулярные параметры, имеющие различную химическую интерпретацию и различные способы их построения, имеют единую математическую основу – это инварианты меченых графов.

В последние десятилетия опубликовано большое число работ, посвященных моделированию связи «структура-свойство». В подавляющем большинстве случаев для описания молекулярной структуры используются разнообразные топологические индексы, что связано с относительной простотой их вычисления. Область научных исследований, связанная с математическим моделированим связи «структура-свойство», возникла на стыке органической химии, дискретной математики, регрессионного анализа, программирования и ее иногда рассматривают как часть математической химии или химической информатики. Многочисленные работы, посвященные этой тематике, публикуются в таких международных журналах, как Journal of Chemical Information and Computer Science, Journal of Computational Chemistry, Journal of Mathematical Chemistry, Computers and Chemistry и. т. д. Интенсивное развитие данного направления связано, прежде всего, с широким внедрением ЭВМ в химические исследования, созданием баз данных по структурам и свойствам соединений, а также доступностью вычислительной техники для химиков. Все это делает возможным проводить статистический анализ накопленной информации с целью выявления различных скрытых закономерностей. Наличие многочисленных примеров успешного применения вышеуказанного подхода для моделирования связи «структура-свойство» как для физико-химических свойств, так и для разных видов биологической активности, показывающих эффективность применяемого метода, также способствует развитию данного направления.

Однако, несмотря на наличие большого числа отдельных, частных результатов в этой области, полученных для конкретных свойств и выборок соединений, общие, универсальные, теоретически обоснованные методы построения и исследования моделей вида (1) в настоящее время не разработаны. В задачах такого типа заранее неизвестно, от каких именно структурных особенностей зависит данное свойство, и каким образом. Поиск моделей обычно происходит путем перебора некоторого ограниченного числа стандартных вариантов, причем, как правило, обнаруживаются корреляции между различными молекулярными параметрами. Поэтому разработка и обоснование общих подходов к моделированию связи «структура-свойство», применимых к произвольным свойствам и классам органических соединений и допускающих компьютерную реализацию и автоматизацию, является актуальной задачей. Основой для разработки таких подходов может служить общая математическая природа изучаемых химических объектов (структурных формул органических соединений) – все они представляют собой меченые графы, а также возможность рассматривать различные наблюдаемые свойства соединений (в предположении, что они зависят лишь от структуры молекул) как некоторые инварианты соответствующих графов.

2. ЦЕЛИ РАБОТЫ. При моделировании связи «структура-свойство» вышеописанным методом возникают следующие проблемы:

1) Выбор весов вершин и ребер молекулярного графа в конкретной задаче. Для решения этой проблемы нет определенных, обоснованных методов;

2) Выбор функции f (или меры молекулярного подобия d) и инвариантов х1,…,хn для описания структуры молекул в конкретной задаче. Отметим, что число инвариантов графов бесконечно даже для одного, фиксированного способа взвешивания графа. Как правило, большинство инвариантов, используемых в теоретической химии, получают при помощи формальных математических операций с графами, поэтому им трудно дать достаточно ясную физико-химическую или структурную интерпретацию. Заранее не известно, от каких именно структурных особенностей зависит данное свойство, и каким образом. Поэтому никаких четких правил выбора молекулярных параметров x1,…,xn и аппроксимирующей функции f (или меры d) для построения модели не существует;

3) Оценка области применимости модели связи «структура-свойство». Очевидно, что любая математическая модель, построенная по ограниченному набору данных, имеет свою область применимости. В связи с этим возникает задача определения области применимости модели связи «структура-свойство», т. е. определения того класса химических соединений, свойства которых могут быть рассчитаны при помощи построенной модели с заданной точностью. Прогнозирование свойств соединений без учета области применимости модели может привести к неверным результатам;

4) Разработка методов компьютерной генерации химических структур, обладающих заданной величиной свойства, на основе модели типа (1) (обратная задача в проблеме связи «структура-свойство»). Как отмечалось выше, основная цель построения моделей типа (1) - прогнозировать численные значения свойств других соединений из некоторого заданного набора, минуя эксперимент, и находить среди них соединения с требуемыми свойствами. Однако могут существовать соединения (возможно, еще не синтезированные), не входящие в этот набор, которые имеют требуемое значение рассматриваемого свойства. Такие новые, перспективные соединения не будут обнаружены при вышеописанном подходе. В связи с этим в рамках исследований связи «структура-свойство» естественно сформулировать так называемую обратную задачу, заключающуюся в исчерпывающей генерации структур, обладающих заданным значением свойства y0. При наличии модели типа (1), где x1,…,xn - инварианты графов, эта проблема может быть сведена к математической задаче исчерпывающей генерации графов (возможно, определенного класса) с заданным значением инварианта f(x1,…,xn) и решена теоретико-графовыми методами. Однако уравнения типа (1) могут иметь разный вид, зависящий от функции f и инвариантов x1,…,xn. Отдельные методы решения обратных задач для конкретных случаев уравнения (1), учитывающие их специфику, не применимы к другим случаям. В связи с этим необходима разработка алгоритмов решения таких задач для наиболее типичных или общих случаев уравнения (1).

загрузка...