Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

Цели работы связаны с указанными выше проблемами. Они таковы:

1) Разработать и теоретически обосновать ряд общих детерминированных методов построения теоретико-графовых моделей связи «структура-свойство» вида (1), применимых к различным свойствам и классам соединений, для случая, когда их структуры представлены произвольно мечеными графами. Провести тестирование предложенных методов моделирования связи «структура-свойство».

2) Разработать систему автоматической генерации инвариантов графов разнообразной природы, моделирующую логику действий человека, конструирующего инварианты для вышеуказанных задач (систему «искусственного интеллекта»), и исследовать ее возможности. Разработать на основе этой системы подход к моделированию связи «структура-свойство», альтернативный указанному выше детерминированному подходу, когда подходящий набор параметров для модели отбирается из конечного, достаточно большого числа инвариантов, сгенерированных автоматически с использованием процедуры случайного выбора. Провести тестирование предложенного метода построения моделей связи «структура-свойство».

3) Разработать обоснованные подходы для конструктивного определения областей применимости моделей вида (1) некоторых специальных типов и провести их тестирование.

4) Разработать алгоритмы решения обратных задач в проблеме связи «структура-свойство» на основе уравнений (1) различных видов и провести их тестирование .

5) Разработать методы построения моделей связи «структура-свойство» и прогнозирования свойств химических соединений на основе концепции молекулярного подобия и провести их тестирование.

6) Разработать ряд комбинаторных алгоритмов на графах, применяемых в компьютерной химии и химической информатике (алгоритмы поиска канонической нумерации вершин графа, установления изоморфизма графов, поиска группы симметрии графа, нахождения всех заданных подграфов в графе).

3. НАУЧНАЯ НОВИЗНА И ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ РАБОТЫ.

Диссертационная работа посвящена разработке и обоснованию математических методов решения основных задач, возникающих при моделировании связи «структура-свойство» органических соединений: построения моделей, определения их областей применимости, конструирования химических соединений с заданными свойствами на основе построенных уравнений. В качестве исходных данных для такого моделирования используются базы данных по структурам и свойствам химических соединений. Обработка этих данных позволяет выявить скрытые закономерности между структурой и свойствами органических соединений. В качестве математических моделей химических соединений используются произвольно меченые графы. В диссертации:

1) Разработан и обоснован ряд новых методов построения моделей связи «структура-свойство» в терминах инвариантов молекулярных графов. Эти методы носят общий характер, применимы к произвольным свойствам и к произвольным выборкам химических соединений, представленных произвольно мечеными графами. Методы строго детерминированы и допускают компьютерную реализацию. Проведено тестирование предложенных подходов для моделирования связи «структура-свойство» для разнообразных свойств (физико-химические, биологическая активность, вычисляемые молекулярные параметры) и классов соединений, показавшее их практическую применимость и эффективность.

2) Разработана интеллектуальная система, предназначенная для автоматического конструирования произвольных наборов инвариантов графов различной природы для построения корреляций «структура-свойство». В этой системе реализовано моделирование действий человека, конструирующего инварианты графа для вышеуказанной задачи. Предполагается, что выбор варианта действий в этом алгоритме в процессе конструирования происходит случайным образом. Использование случайного выбора позволяет освободиться от элементов субъективизма и выйти за рамки стандартного мышления в процессе такой деятельности. Проведено исследование возможностей этой системы. Показано, что основные, известные из литературы инварианты молекулярных графов (называемые в теоретической химии топологическими индексами) могут быть получены в рамках разработанной схемы. В то же соответствующий алгоритм позволяет получить принципиально новые пути построения инвариантов графов, в том числе и такие, которые практически не могут быть разработаны человеком «вручную». Предложенная схема, позволяет строить автоматически сколь угодно много инвариантов графов разного типа. Эти инварианты могут быть использованы при решении различных задач химической информатики, математической и компьютерной химии, в том числе при моделировании связи «структура-свойство». Следует отметить, что аналогов предложенной системы нет.

3) На основе разработанной схемы конструирования инвариантов графов предложен новый метод построения моделей связи «структура-свойство», а также проведено его тестирование для построения корреляций «структура-свойство» для физико-химических свойств и биологической активности органических соединений различных классов, показавшее его практическую применимость и эффективность.

4) Проведено исследование задачи определения области применимости модели связи «структура-свойство» для заданной допустимой погрешности расчета свойств соединений, а также предложен ряд методов ее решения. Проведено тестирование этих методов, показавшее, что использование областей применимости моделей при прогнозировании свойств соединений, определенных в соответствии с разработанными подходами, позволяет сократить долю ошибочных прогнозов.

5) Разработаны алгоритмизированные методы решения различных обратных задач в исследованиях связи «структура-свойство». Эти методы позволяют провести исчерпывающую генерацию химических структур определенного класса, имеющих заданное значение y0 рассматриваемого свойства (или заданный интервал (y1, y2) значений свойства), на основе предварительно построенной модели вида y=f(x1,...,xN), связывающей значения рассматриваемого свойства у и некоторые инварианты молекулярных графов x1,...,xN. Рассмотрены базовые корреляционные уравнения, содержащие различные инварианты, широко используемые при моделировании связи «структура-свойство» и допускающие определенную структурную интерпретацию. Проведено тестирование предложенных методов.

6) Предложены модели связи «структура-свойство» нового типа, которые отражают широко распространенный в химии постулат «близкие структуры имеют близкие свойства», позволяющие в ряде случаев оценивать свойство соединения на основе его сходства с другим соединением, для которого значение изучаемого свойства известно. Эти модели имеют следующий вид: (yi-yj(=d(Gi,Gj), где yi, yj – значения свойств i–ого и j–ого соединений, представленных графами Gi и Gj, а d(Gi,Gj) - некоторая симметричная функция двух аргументов Gi и Gj, значения которой количественно характеризуют степень подобия Gi и Gj. Предложен метод оптимального подбора меры d(Gi,Gj) в этом соотношении, а также способ оценки свойств соединений на основе такой модели. Проведено тестирование метода, а также его сравнение с двумя другими методами, использующими другие меры подобия. Это сравнение показывает, что предложенный в работе метод дает более точный результат, чем остальные методы.

7) Разработан алгоритм оптимального подбора меры подобия при прогнозировании свойств соединений по методу «ближайшего соседа». Предлагаемый подход позволяет построить меру подобия, дающую наилучший результат при вышеуказанном способе прогнозирования свойств соединений, по крайней мере, для исходной выборки соединений. Проведено тестирование метода и его сравнение с другими методами оценки свойств соединений, основанными на других мерах подобия. Это сравнение показывает, что предложенный в работе подход дает более точный результат, чем остальные методы.

8) Разработаны новые комбинаторные алгоритмы на графах, используемые при решении различных задач теоретической, компьютерной и математической химии, связанных с кодированием, идентификацией и анализом структурных особенностей графов. Эти алгоритмы позволяют строить каноническую нумерацию вершин графа, находить группу симметрии графа, устанавливать изоморфизм пары графов, находить все подграфы графа, изоморфные заданному подграфу. Алгоритмы математически обоснованы и применимы к графам произвольного вида, имеющим любые веса вершин и ребер.

9) Определены три новых класса прикладных задач в теории графов, имеющих практическое применение в области химии, а также предложены методы их решения или исследования. Полученные теоретико-графовые результаты являются основой алгоритмов моделирования связи «структура-свойство», разработанных в диссертации.

Первый класс задач связан с восстановлением аналитического вида инварианта меченых графов некоторого множества по всем или некоторым его значениям на графах этого множества. Для решения или исследования задач такого типа в работе предложена новая стратегия, основанная на введении и использовании понятия базиса инвариантов меченых графов. Предложены три определения базиса инвариантов графов, доказан ряд теорем о свойствах базисов, дана химическая интерпретация полученных математических результатов, предложены варианты наборов базисных инвариантов.

Второй класс задач связан с проблемой определения такого набора подграфов меченого графа (названных базисными подграфами), по которому граф восстанавливается однозначно. Предложена стратегия решения этой задачи, основанная на использовании ряда результатов спектральной теории графов. Получены теоретические результаты, позволяющие выявить один из возможных наборов таких подграфов.

Третий класс задач связан с нахождением аналитического вида произвольной симметричной меры подобия меченых графов. Выведена аналитическая формула для такой меры, из которой получен ряд важных следствий. Найденная формула позволяет строить меры подобия, удовлетворяющие определенным условиям и адаптировать их к конкретным химическим задачам.

10) Предложена формализация постулата «близкие структуры имеют близкие свойства», являющегося основой некоторых методов прогнозирования свойств соединений, и проведено теоретическое исследование его справедливости. Указаны общие случаи, когда вышеуказанное утверждение будет заведомо верным или заведомо неверным. Актуальность таких исследований связана с широким внедрением компьютеров в химические исследования, что приводит к необходимости формализаций различных понятий и эмпирических правил, разработанных в химии. Кроме того, анализ этого постулата важен для обоснования методов прогнозирования свойств соединений, которые на нем основаны.

Таким образом, в работе предложен ряд новых математических моделей и алгоритмов в рамках исследований связи между структурой и свойствами органических соединений для случая, когда структура молекул представлена произвольно мечеными графами. Проведено тестирование предложенных методов, показавшее их практическую применимость и эффективность. Предложенные алгоритмы могут быть реализованы в виде компьютерных программ. Эти программы могут использоваться как самостоятельно, так и в составе уже имеющихся комплексов программ, предназначенных для исследования связи «структура-свойство». Следует отметить, что для решения одной и той же задачи (например, построения модели связи «структура-свойство», определения области ее применимости) в работе предлагается сразу несколько методов. Их совместное использование позволит повысить достоверность получаемых результатов.

Разработанные методы имеют большое практическое значение для моделирования связи между структурой и свойствами органических веществ, прогнозирования свойств соединений по их структуре, целенаправленного поиска соединений с заданными свойствами в области медицины, сельского хозяйства, промышленности, техники и т. д. Предложенные методы могут быть рекомендованы к внедрению в научно-исследовательских институтах, лабораториях и других организациях, занимающихся поиском соединений с определенным набором свойств разного профиля.

Полученные результаты могут быть включены в спецкурсы по математическому моделированию в химии, медицинской химии, теории графов, прикладной математике. Ряд приведеных в работе результатов был использован автором при чтении спецкурса по дисциплине «Теория графов» в МИТХТ им. М. В. Ломоносова.

4. ЛИЧНЫЙ ВКЛАД АВТОРА. Постановки задач, рассматриваемых в Главах 1-5, методы их решения, а также алгоритмы на графах из §6.2, §6.4 Главы 6 разработаны автором. Алгоритм из §6.3 Главы 6 разработан совместно с д.х.н. Трачом С. С. Теоретические результаты (определения, теоремы 1.1-1.12, 5.1-5.3) получены лично автором. Тестирование предложенных методов и алгоритмов в ряде случаев выполнено автором самостоятельно, а в ряде – совместно с соавторами публикаций по теме диссертации. Проведение компьютерно-статистических экспериментов по проверке гипотез о свойствах графов, описанных в §1.3-1.5, выполнено совместно с Федяевым К.С. В разработке компьютерных программ участвовали: Баскин И.И., Словохотова О.Л., Федяев К.С., Пасюков А.В., Дозор И.Н., Трач С.С., Гальперн Е.Г.

-ом Российском научном конгрессе «Человек и лекарство» (Москва, 1997); I-ой, II-ой, III-ей, IV-ой Всероссийских конференциях «Молекулярное моделирование» (Москва, 1998г, 2001 г., 2003 г., 2005); Ninth International Workshop on Quantitative Structure-Activity Relationships in Environmental Sciences, (Bulgaria, Bourgas, 2000); International School-Seminar on Computer Automatization and Information, (Russia, Moscow, 2000); II-ом Международном симпозиуме «Компьютерное обеспечение химических исследований», (Москва, 2001); Memorial International Symposium “Modern Trends in Organometallic and Catalitic Chemistry. Mark Vol’pin (1923-1996)” (Russia, Moscow, 2003); Fourth Indo-US Workshop on Mathematical Chemistry (With Application to Drug Discovery, Environmental Toxicology, Chemoinformatics and Bioinformatics), (Pune, Maharashtra, India, 2005); 11-ой Международной конференции «Математические модели физических процессов» (Россия, Таганрог, 2005); XIX Международной научной конференции «Математические методы в технике и технологиях» (Россия, Воронеж, 2006).

Научные исследования по теме диссертации были поддержаны следующими грантами: INTAS-93-32-33 («Development of New Technique for Quantitative Structure-Activity Relationships and Molecular Design»); INTAS-00-03-63 («Virtual Computational Chemistry Laboratory – CCLAB»); РФФИ - №95-03-09696а («Разработка новых нейросетевых методов исследования связи между структурой и свойствами органических соединений. Компьютерное конструирование и синтез соединений с заданными свойствами»); РФФИ - № 98-03-32955а («Разработка новых методов компьютерного дизайна органических соединений с заданными свойствами на основе искусственных нейросетей. Конструирование и синтез перспективных структур»); РФФИ- №96-03-33003а («Математические модели, алгоритмы и программы решения задач дизайна органических реакций»).

6. ПУБЛИКАЦИИ. По теме диссертации опубликовано 73 работы, среди которых 35 статей в журналах и сборниках (в том числе 24 статьи в журналах, рекомендованных ВАК), 34 тезиса докладов на конференциях, 2 главы в монографиях, 2 учебно-методических пособия.

7. СТРУКТУРА И ОБЪЕМ ДИССЕРТАЦИИ. Диссертация состоит из введения, шести глав, выводов, списка цитированной литературы (210 наименований), списка публикаций автора по теме диссертации (73 наименования) и Приложения. Работа изложена на 272 стр., содержит 35 таблиц, 49 рисунков. Каждая глава посвящена отдельной тематике, рассматриваемой в рамках общей задачи исследования связи «структура-свойство», и имеет логическую завершенность. В Главе 1 разработан ряд детерминированных методов построе-ния моделей связи «структура-свойство» на основе базисных инвариантов и базисных подграфов молекулярных графов. В Главе 2 описана система автоматической генерации инвариантов графов для моделирования связи «структура-свойство», использующая элементы случайного выбора. В Главе 3 рассматриваются различные методы определения областей применимости моделей связи «структура-свойство». Глава 4 посвящена алгоритмам решения обратных задач в исследованиях связи «структура-свойство» на основе различных базовых моделей связи «структура-свойство». В Главе 5 предложены модели, связывающие степень близости свойств и степень сходства химических соединений, отражающие постулат «близкие структуры имеют близкие свойства». Глава 6 посвящена описанию ряда алгоритмов на графах, используемых для их кодирования, идентификации и исследования структурных особенностей. Приложение содержит краткие описания некоторых из компьютерных программ, использованных для тестирования разработанных методов.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.

ГЛАВА 1. Методы построения моделей связи «структура-свойство» на основе базисных инвариантов и базисных подграфов молекулярных графов.

Постановки химических задач и их теоретико-графовые формулировки.

Рассматривается следующая общая проблема моделирования связи «структура-свойство»: по заданной выборке органических соединений {Si} (i=1,...,k), представленных классическими структурными формулами с известными численными значениями некоторого свойства {yi}, построить уравнение вида y=f(S), связывающее значения изучаемого свойства y и структуры S данных соединений при помощи некоторой функции f. Основная цель построения модели - оценить значения свойств yi других соединений Si, не включенных в исходную выборку. Следовательно, на этапе применения модели возникает задача определения ее области применимости, т. е. выделения такого подмножества структур в некотором заданном множестве {Si} (i=k+1,…,N), свойства которых могут быть рассчитаны при помощи уравнения y=f(S) с заданной допустимой погрешностью ((0.

Пусть математической моделью химического соединения S является произвольно меченый граф G, вершины и ребра которого соответствуют атомам и связям молекулы, а метки вершин и ребер кодируют атомы и связи различной химической природы. Метки могут быть как числами, так и произвольными символами. Способ выбора меток и их интерпретация для дальнейших исследований не важны. Если отождествить структуру S с соответствующим молекулярным графом G, то свойство y (функцию от структуры) можно рассматривать как инвариант графа y=f(G) (т.е. число, определяемое по графу, значение которого не зависит от способа нумерации его вершин).

Для этого способа представления химических структур впервые предложены теоретико-графовые формулировки вышеуказанных общих задач, возникающих при моделировании связи «структура-свойство» и прогнозировании свойств соединений:

- задача построения уравнения типа y=f(S) равносильна задаче восстановления аналитического вида некоторого инварианта y=f(G) графа G по набору его значений yi=f(Gi) (i=1,…,k) на исходной выборке графов (возможно, с заданной погрешностью ();

- задача определения области применимости построенной модели равносильна определению условий на граф G из некоторого множества {Gi} (i=k+1,…,N), при которых значения инварианта y=f(G) на этом графе однозначно определяются по его значениям на заданных графах {Gi} (i=1,…,k) (возможно, с заданной погрешностью ().

Эти формулировки позволяют: а) определить новый класс прикладных задач в теории графов, имеющих практическое применение в области химии, а также разработать методы решения таких задач; б) применить аппарат теории графов для разработки и обоснования новых методов исследования связи «структура-свойство».

Исследование теоретико-графовых задач, связанных с проблемой моделирования связи «структура-свойство». Для решения или исследования вышеуказанных задач теории графов предложены две стратегии. Первая стратегия основана на использовании понятия базиса инвариантов графов заданного множества меченых графов, введенном в диссертации. Базисом инвариантов графов заданного множества в общем случае естественно назвать такой набор инвариантов, через который может быть выражен (при помощи некоторых функциональных соотношений) любой инвариант графов этого множества (возможно, неоднозначно). Вторая стратегия основана на использовании понятия базисных подграфов меченого графа, введенном в диссертации. Базисными подграфами меченого графа назван такой набор подграфов этого графа, по которому он восстанавливается однозначно.

загрузка...