Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

Алгоритмы решения обратных задач и их тестирование. Приведены алгоритмы решения ОЗ для вышеуказанных корреляционных уравнений. Проведено их тестирование для конструирования химических соединений с заданными интервалами значений определенных свойств. Для этой цели предварительно были построены разнообразные модели связи «структура-свойство» вышеописанного вида.

Рассматривались: (1) температура кипения алканов; (2) температура кипения циклосодержащих углеводородов; (3) токсичность простых эфиров; (4) теплота парообразования алканов; (5) растворимость спиртов в воде; (6) параметр гидрофобности logP, где P - коэффициент распределения соединения в системе октанол-вода для кислородсодержащих соединений (кетонов, ненасыщенных и насыщенных спиртов, карбоновых кислот); (7) температура кипения аминов; (8) температура кипения сульфидов. Во всех рассмотренных случаях имеется хорошее соответствие между экспериментальными данными и результатами компьютерной генерации соединений с заданными свойствами.

- растворимость спиртов в воде (в мольных долях)), построено уравнение вида:

-logX=-0.8+1.186lnZ (R=0.976, s=0.21).

Поставим задачу: найти все соединения этого класса, для которых 2.6?-logX?3.0. Построено 20 структур, изображенных на рис. 4. Для соединений №№ 1-11 значения свойства известны. При этом для 9 структур экспериментальные значения свойства действительно лежат в заданном интервале; для 2 структур - незначительно выходят за пределы интервала (для №3 - 2.542; для №8 – 2.588). Для соединений №№ 12-20 экспериментальные значения рассматриваемого свойства неизвестны.

Таким образом, в Главе 4 рассматривается ряд алгоритмов решения ОЗ в исследованиях связи «структура-свойство» на основе предварительно построенных базовых моделей, содержащих различные инварианты графов (топологические индексы). Рассмотренные топологические индексы находят широкое применение в корреляциях «структура-свойство» и допускают определенную структурную интерпретацию (например, как количественная мера ветвления, компактности, симметрии, «формы», неоднородности молекулы и т. д.). Базовые корреляционные уравнения могут содержать как один, так и несколько различных инвариантов. Уравнения, содержащие какие-либо другие инварианты, не рассматриваемые в данной главе, в ряде случаев можно свести к уравнениям, содержащим уже рассмотренные инварианты, используя корреляционные соотношения между различными инвариантами. Применение алгоритмов и их эффективность продемонстрированы на конкретных примерах.

ГЛАВА 5. Построение моделей связи «структура-свойство» и прогнозирование свойств химических соединений на основе концепции молекулярного подобия.

Постановка задачи. В Главе 5 рассматривается один из широко распространенных подходов к построению моделей связи «структура-свойство», основанный на постулате «близкие структуры имеют близкие свойства». Для реализации этого метода необходимо: 1) иметь базу данных, содержащую структуры соединений {S} и значения их свойств; 2) выбрать способ математического описания структуры молекул, при котором структуре S соответствует объект М; 3) на множестве выбранных математических объектов {M} задать количественную меру подобия этих объектов: d(M1,M2)?0.

Для прогнозирования свойства y0 соединения S0 в рамках этого подхода используются различные методы, суть которых заключается в следующем: 1) для S0 следует найти cоединение S, «ближайшее» к нему в базе данных (или несколько «ближайших») и положить y0=y (или y0 равно среднему арифметическому свойств «ближайших» соединений). Метод такого типа целесообразно использовать, в частности, тогда, когда исходная база данных очень разнородна по своему составу, и не удается построить удовлетворительную модель вида y=f(S). Однако разбиение базы на части структурно-близких соединений приводит к малоинформативным выборкам небольшого размера.

Следует отметить, что меры подобия, обычно используемые для прогнозирования свойств в рамках этого подхода, зависят лишь от структур сравниваемых соединений и не зависят ни от исходной выборки, ни от рассматриваемого свойства. Имеются примеры, показывающие, что в то же время результат выбора «ближайшего» соседа (следовательно, и разультат прогнозирования) зависит от использованной меры подобия. Кроме того, различных мер подобия существует бесконечно много, а правил выбора меры в конкретной задаче – нет. В связи с этим основная задача, рассматриваемая в данной главе, такова: разработать алгоритмы подбора меры подобия, дающей наилучший результат при прогнозировании свойств соединений в рамках вышеуказанного метода, в предположении, что структуры соединений представлены графами.

Общая аналитическая формула для произвольной меры подобия молекулярных графов. Выведена общая аналитическая формула для произвольной симметричной меры подобия d(Gk,Gl), заданной на произвольном множестве графов {Gi}, i=1,...,N. Доказана теорема, соласно которой существует единственная симметричная квадратная матрица M=(mij) (i,j=1,...,N-1) такая, что мера d(Gk,G1) представляется в следующем виде:

d(Gk,Gl)=M(fk-fl)·(fk-fl)

где fk=(f1(Gk),...,fN-1(Gk)), fl=(f1(Gl),...,fN-1 (Gl)) - вектора-столбцы, компоненты которых – это значения некоторых базисных инвариантов исходного множества графов (в смысле определения 1, рассмотренного в Главе 1) на графах Gk и Gl, соответственно, M(fk-fl) - произведение M и fk-fl, символ «·» обозначает скалярное произведение соответствующих векторов.

Из этой теоремы следует, что: 1) Варьируя матрицу М, можно получить меру подобия, которая принимает любые заданные значения для каждой пары графов из рассматриваемого множества графов; 2) Полученная формула позволяет строить бесконечно много новых мер подобия, варьируя матрицу М, и адаптировать их к конкретной задаче.

Метод построения моделей связи «структура - свойство», основанный на оптимальном подборе меры подобия. Предложен метод построения моделей связи «структура-свойство» и прогнозирования свойств химических соединений, основанный на приведенных выше теоретических результатах. Для разработки этого метода используется аппроксимация вышеуказанной точной формулы для меры подобия. Предполагается, что структура соединений исходной выборки описана при помощи некоторых векторов X длины kj. В предлагаемом подходе мера подобия подбирается некоторым оптимальным образом по исходным данным. Заключительный этап - прогнозирование свойства y0 нового соединения G0 - тоже изменен. Вместо метода m «ближайших соседей» (где всегда остается вопрос о выборе числа m) предлагается другой подход, в котором для вычисления y0 используются все исходные данные. Однако для прогнозирования свойств может быть использован и метод «ближайших соседей».

Проведено тестирование разработанного метода и его сравнение с другими аналогичными методами. Рассмотрена база данных, состоящая из 76 соединений различных химических классов (спирты, фенолы, кетоны, карбоновые кислоты, простые и сложные эфиры, амины, амиды, нитрилы, галогенпроизводные, гетероциклические соединения и.т.д.) с известными значениями параметра log P, где P - коэффициент распределения соединения между водой и н-октанолом. Качество построенной модели оценивалось по коэффициенту корреляции R и среднеквадратичному отклонению s, найденным для корреляции между расчетными и экспериментальными значениями свойства. Приведены результаты сравнения построенной модели и двух других моделей, полученных другими авторами для тех же данных, где для оценки степени подобия использовались две другие меры подобия. Из этих результатов следует, что предлагаемый метод дает наилучшую модель из этих трех.

Оптимальный подбор меры подобия при прогнозировании свойств по методу «ближайшего соседа». Рассмотрена задача построения оптимальной меры подобия молекулярных графов при прогнозировании свойств соединений по методу одного «ближайшего соседа». Предполагается, что задана некоторая выборка молекулярных графов {Gi} с известными значениями некоторого свойства yi, причем все эти значения - различны.

Предложен метод построения меры подобия в вышеуказанной задаче, использующий известные значения свойств соединений исходной выборки. Метод позволяет построить меру подобия, дающую наилучший результат при вышеуказанном способе прогнозирования свойств соединений, по крайней мере, для исходной выборки (т. е. «ближайший сосед» каждого соединения имеет значение свойства, ближайшее к значению свойства исследуемого соединения). Метод основан на использовании общей аналитической формулы для произвольной меры подобия, полученной в данной главе.

Проведено тестирование предложенного метода и его сравнение с шестью аналогичными методами, использующими другие меры подобия, зависящие от различных особенностей молекулярного строения и не зависящие от исследуемого свойства. Рассмотрена база данных, содержащая структурные формулы нитрозаминов с известными значениями мутагенности y=ln? (на Salmonella typhimurium, ? - число ревертантов на наномоль). Установлено, что предложенный метод дает более точный результат, чем остальные методы.

Формализация и интерпретация постулата «близкие структуры имеют близкие свойства». Впервые рассмотрен вопрос о возможной формализации постулата «близкие структуры имеют близкие свойства» и проведено исследование его справедливости. Актуальность таких исследований связана с широким внедрением компьютеров в химические исследования, что приводит к необходимости формализаций различных понятий и эмпирических правил, разработанных в химии. Кроме того, анализ этого постулата важен для обоснования методов прогнозирования свойств соединений, которые на нем основаны.

Для проведения теоретического исследования справедливости этого утверждения рассмотрен общий случай, когда химические структуры представлены в виде некоторых математических объектов Mi (i=1,...,N), и на множестве этих объектов задана некоторая симметричная функция d(Mi,Mj) - мера подобия этих объектов. Предполагается, что d(Mi,Mj)=0 тогда и только тогда, когда Mi=Mj. Пусть заданы числа yi (i=1,...,N) – значения некоторого свойства соответствующих соединений. Естественно считать мерой близости свойств величину |yi-yj|. Предположим, что заранее указаны численные критерии подобия свойств и структур, т.е. такие числа ??0 и ??0, что если d(Mi,Mj)??, то структуры Mi, Mj считаются «близкими», и если |yi-yj|??, то значения свойств считаются «близкими». Очевидно, что число ? задается исследователем и зависит от конкретной задачи, а варьируемыми характеристиками являются d(Mi,Mj) и ?. Вышеуказанный постулат в этом случае можно сформулировать так: если для любых структур Mi и Mj d(Mi,Mj)

Приведенная формулировка этого постулата позволяет провести теоретическое исследование его справедливости в общем виде. Предполагается, что мера подобия такова, что d(Mi,Mj)=0 тогда и только тогда, когда Mi=Mj. Доказано, что для любой выборки структур, представленных в виде некоторых математических объектов Mi (i=1,...,N), любого свойства y, любой меры подобия d(Gi,Gj) верны следующие оценки:

a·d(Mi,Mj)?|yi-yj|?b·d(Mi,Mj),

где a и b - константы, зависящие от меры, свойства, и выборки структур. Этот результат сформулирован в виде теоремы.

Из полученного результата сделан ряд выводов: 1) Постулат будет всегда справедливым, если выбрать ?=?/b; 2) Предположим, что для данной выборки не все значения свойств близки, т.е. найдется пара Mi и Mj, что |yi-yj|>?. Тогда, если ?=maxd(Mi,Mj), то постулат не будет справедлив на данной выборке; 3) Если выбрать ? очень большим, то постулат будет справедлив при любых ? и d(Mi,Mj); 4) Из полученных неравенств следует качественный вывод: чем меньше величина d(Mi,Mj), тем меньше величина |yi-yj|, так что для «очень близких» структур их свойства также «очень близки». Этот качественный вывод, следующий из строгих математических рассуждений, по сути, и есть утверждение неформализованного постулата, обычно используемого в теоретической химии для предсказания свойств соединений.

ГЛАВА 6. Алгоритмы на графах, используемые для их кодирования, идентификации и исследования структурных особенностей.

Постановка задачи: разработать и обосновть ряд алгоритмов для произвольно меченых графов: канонизации графа, установления изоморфизма пары графов, нахождения группы симметрии графа, нахождения заданных подграфов в графе. Эти алгоритмы могут быть использованы как для решения ряда прикладных задач компьютерной и теоретической химии и химической информатики (например, при создании информационно-поисковых систем, анализе связи «структура-свойство» с помощью ЭВМ, компьютерном синтезе, масс-спектрометрии и т. д.), так и представляют самостоятельный интерес в теории графов.

Разработаны следующие алгоритмы на графах: 1) поиска канонической нумерации вершин взвешенного графа и его группы автоморфизмов, основанного на использовании ряда спектральных характеристик графа (даны примеры реализации алгоритма и некоторые результаты его тестирования на быстродействие при программной реализации); 2) установления изоморфизма графов G1 и G2 и поиска группы симметрии AutG графа G (приведены некоторые результаты тестирования алгоритма на быстродействие при его программной реализации); 3) поиска всех подграфов, изоморфных заданному подграфу, в произвольно взвешенном графе (прилагается акт о внедрении соответствующей компьютерной программы в ИОХФ им. А. Е. Арбузова в исследования по планированию органического синтеза).

1) Разработан и обоснован ряд новых методов построения моделей связи «структура-свойство» в терминах инвариантов молекулярных графов. Эти методы носят общий характер, применимы к произвольным свойствам и к произвольным выборкам химических соединений, представленных произвольно мечеными графами. Методы строго детерминированы и допускают компьютерную реализацию. Проведено тестирование предложенных подходов для моделирования связи «структура-свойство» для разнообразных свойств (физико-химические, биологическая активность, вычисляемые молекулярные параметры) и классов соединений, показавшее их практическую применимость и эффективность.

2) Разработана интеллектуальная система, предназначенная для автоматического конструирования произвольных наборов инвариантов графов различной природы для построения корреляций «структура-свойство». В ней реализовано моделирование последовательности действий человека, конструирующего инварианты графа для вышеуказанной задачи. Проведено исследование возможностей этой системы. Получаемые таким образом инварианты могут быть использованы при решении различных задач химической информатики, математической и компьютерной химии, в том числе при моделировании связи «структура-свойство».

3) На основе разработанной схемы конструирования инвариантов графов предложен новый метод построения моделей связи «структура-свойство». Проведено тестирование предлагаемого подхода для построения корреляций «структура-свойство» для физико-химических свойств и биологической активности органических соединений различных классов, показавшее его эффективность.

4) Проведено исследование задачи определения области применимости модели связи «структура-свойство» для заданной допустимой погрешности расчета свойств соединений, а также предложено два метода ее решения. Проведено тестирование этих методов.

5) Разработаны методы решения различных обратных задач в исследованиях связи «структура-свойство». Эти методы позволяют провести исчерпывающую генерацию химических структур определенного класса, имеющих заданное значение y0 рассматриваемого свойства (или заданный интервал (y1, y2) значений свойства), на основе предварительно построенной модели вида y=f(x1,...,xN), связывающей значения у изучаемого свойства и некоторые инварианты молекулярных графов x1,...,xN. Рассмотрены базовые модели, содержащие различные инварианты (топологические индексы), широко используемые при моделировании связи «структура-свойство» и допускающие определенную структурную интерпретацию. Проведено тестирование разработанных методов, показавшее хорошее соответствие получаемых результатов и экспериментальных данных.

6) Предложены модели связи «структура-свойство» нового типа, отражающие широко распространенный в химии постулат «близкие структуры имеют близкие свойства». Эти модели имеют следующий вид: (yi-yj(=d(Gi,Gj), где yi, yj – численные значения свойств i-ого u j-ого соединений, представленных графами Gi и Gj, а d(Gi,Gj) - некоторая симметричная функция двух аргументов Gi и Gj, значения которой количественно характеризуют степень подобия Gi и Gj. Предложен метод оптимального подбора меры подобия d(Gi,Gj) в этом соотношении, а также способ оценки свойств соединений на основе такой модели. Проведено тестирование этого метода, а также его сравнение с двумя другими методами, использующими другие меры подобия.

7) Предложен алгоритм оптимального подбора меры подобия при прогнозировании свойств соединений по методу «ближайшего соседа». Подход позволяет построить меру подобия, дающую наилучший результат при вышеуказанном способе прогнозирования свойств соединений, по крайней мере, для исходной выборки соединений. Проведено тестирование предложенного метода и его сравнение с шестью другими методами оценки свойств соединений, разработанных на основе других мер подобия.

8) Разработаны новые комбинаторные алгоритмы на графах, используемые при решении различных задач теоретической, компьютерной и математической химии, связанных с кодированием, идентификацией и анализом структурных особенностей графов. Эти алгоритмы позволяют строить каноническую нумерацию вершин графа, находить группу симметрии графа, устанавливать изоморфизм пары графов, находить все подграфы графа, изоморфные заданному подграфу. Алгоритмы математически обоснованы и применимы к графам произвольного вида, имеющим любые веса вершин и ребер.

9) Определены и исследованы три новых класса прикладных задач теории графов, имеющих практическое применение в области химии. Первый класс задач связан с проблемой восстановления аналитического вида инварианта меченых графов некоторого множества по всем или некоторым его значениям на графах этого множества. Второй класс задач связан с проблемой определения такого набора подграфов меченого графа (названных базисными подграфами), по которому граф восстанавливается однозначно. Третий класс задач связан с задачей аналитического представления произвольной симметричной меры подобия меченых графов произвольного конечного множества. Введен ряд новых определений, а также сформулирован и доказан ряд новых теорем в теории графов. Полученные теоретические результаты являются основой алгоритмов моделирования связи «структура-свойство», разработанных в диссертации.

10) Предложена формализация постулата «близкие структуры имеют близкие свойства», являющегося основой некоторых методов прогнозирования свойств соединений, и проведено теоретическое исследование его справедливости. Указаны общие случаи, когда вышеуказанное утверждение будет заведомо верным или заведомо неверным.

Автор глубоко признателен академику Н. С. Зефирову за предоставленную возможность работать в области математической химии, помощь в организации научной работы и обсуждение научных результатов, находящихся на стыке математики и химии.

Автор выражает искреннюю благодарность заслуженному деятелю науки РФ, д.ф.-м.н., профессору Карташову Э. М. за внимание к настоящей работе, ценные замечания и полезное обсуждение рукописи диссертации.

загрузка...