Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

Для графов произвольного множества базисность соответствующих инвариантов проверялась при помощи компьютерно-статистического эксперимента, описанного выше. Во всех рассмотренных случаях выдвинутая гипотеза оказалась справедливой. На основании полученных результатов введенные параметры были названы базисными (в смысле определения 3).

Метод построения моделей связи «структура-свойство» и его тестирование.

Разработан общий алгоритмизированный метод №3 построения моделей связи «структура-свойство». Метод заключается в следующем: 1) задается конечный набор М значений параметра (: (1=0, (2,…,(М с фиксированным значением шага h и заданным максимальным значением (М; 2) строятся инварианты {(k,m(()} для всех фрагментах Fk,m, которые присутствуют в заданном множестве структур, при всех выбранных значениях параметра (; 3) из этого множества инвариантов отбираются наилучшие для построения линейной модели. Если полученный результат является неудовлетворительным (по каким-либо критериям), то процедура повторяется для других значений (М или h.

Проведено тестирование предложенного метода. Для этой цели было использовано несколько баз данных по физико-химическим свойствам углеводородов различных классов и значениям некоторых широко известных топологических индексов. Рассматривались следующие свойства: 1) температура кипения; 2) критическая температура; 3) молярная рефракция; 4) теплота образования; 5) теплота сгорания; 6) критическое давление; 7) молярный объем; 8) теплота испарения; 9) поверхностное натяжение; 10) плотность; 11) энтальпия образования; 12) температура плавления; 13) энергия Гиббса; 14) удельная теплоемкость; 15) показатель преломления. В качестве топологических индексов были взяты индексы Винера, Хосойя, молекулярной связности, индексы молекулярной формы Кира, полная (-электронная энергия. Рассмотренные базы разбивались на обучающую и контрольную выборки так, чтобы число структур в последней составляло примерно 10% от общего числа структур базы. По обучающей выборке строилось уравнение связи «структура – свойство»; затем оно использовалось для расчета свойств соединений контрольной выборки. Было построено 27 моделей, для каждой из которых определялись коэффициент корреляции и среднеквадратичное отклонение как для обучающей выборки, так и для контрольной. В этих примерах были использованы значения h=0.1, (М =3, 4, 5, 6.

Полученные результаты свидетельствуют об эффективности предложенного метода: построенные модели обладают высокой точностью и имеют хорошую прогнозирующую способность. Таким образом, разработанный метод позволяет единообразно описывать различные свойства разнообразных классов углеводородов.

2) Вторая стратегия: поиск базисных подграфов графа. Рассмотривается задача поиска такого набора подграфов взвешенного графа G, по которому граф G может быть восстановлен однозначно (т. е. базисных подграфов). При этом желательно, чтобы среди этих подграфов были бы подграфы с относительно небольшим числом вершин.

Идея поиска таких подграфов основана на следующих известных результатах спектральной теории графов: 1) собственные числа взвешенного графа с n вершинами однозначно определяются по набору его подграфов на k=1,2,...,n вершинах, состоящих из объединения изолированных вершин, ребер и циклов; 2) граф однозначно определяется по набору его собственных чисел и соответствующих линейно независимых собственных векторов; однако в общем случае граф не определяется однозначно по набору собственных чисел. В связи с этим возникает следующая задача: найти подграфы, определяющие однозначно и собственные вектора графа. Отметим, что вышеуказанная проблема для собственных векторов более сложная, чем для собственных чисел, так как: 1) собственные вектора зависят от собственных чисел; 2) в общем случае может быть несколько линейно-независимых собственных векторов, соответствующих одному и тому же собственному числу; 3) компоненты собственных векторов зависят от нумерации вершин графа.

В этом разделе Главы 1 дано решение вышеуказанной проблемы: выведены формулы, связывающие собственные вектора графа и его некоторые подграфы. Полученные результаты сформулированы в виде теоремы 1.12. На их основе выделен объединенный набор подграфов, который используется для определения как собственных чисел, так и собственных векторов графа. Эти подграфы названы базисными.

Метод построения моделей связи «структура-свойство» и его тестирование. На основе полученных теоретических результатов, связанных с базисными подграфами, предложен общий алгоритмизированный метод №4 построения моделей связи «структура-свойство». Согласно этому методу, для описания структуры молекулярных графов рекомендуется использовать инварианты, равные числам вхождения в граф введенных в работе базисных подграфов, а в качестве аппроксимирующей функции в модели следует использовать многочлен нескольких переменных от этих параметров. Предложено две методики построения этого многочлена.

Проведено тестирование предложенного метода на основе баз данных по биологической активности разнообразных классов соединений, а также его сравнение с другими методами моделирования связи «структура-свойство» на используемых данных. Рассматривались: 1) галоидпроизводные метана и этана с известными значениями их наркотической активности lnAD50 (AD50 - концентрация вещества, вызывающая анестезию у половины подопытных животных); 2) нитробензолы и нитротолуолы с известными значениями мутагенной активности ln( (на Salmonella typhimurium, ( - количество ревертантов на наномоль); 3) хлорзамещенные анилины с известными значениями токсичности logEC50-1, где EC50 - концентрация вещества, вызывающая уменьшение интенсивности люминесценции в 2 раза у морских бактерий Photobacterium phosphoreum. Построенные модели обладают достаточно высокой точностью, что свидетельствует об эффективности предложенного метода.

Таким образом, в Главе 1 разработаны и обоснованы четыре новых метода построения моделей связи «структура-свойство» в терминах инвариантов молекулярных графов. Методы носят общий характер, применимы к произвольным свойствам и произвольным выборкам химических соединений. Два из них позволяют учесть метки соответствующих молекулярных графов, которые могут быть произвольными символами; два других используют представления структур в виде простых графов. Методы строго детерминированы и допускают компьютерную реализацию. Проведено тестирование предложенных подходов для моделирования связи «структура-свойство» для разнообразных свойств (физико-химических, биологической активности), вычисляемых молекулярных параметров и классов соединений, показавшее их широкую практическую применимость и эффективность. Кроме того, получен ряд новых теоретических результатов в области теории графов, являющихся основой для разработки соответствующих алгоритмов.

ГЛАВА 2. Система автоматической генерации инвариантов графов для моделирования связи «структура-свойство».

Постановка задачи: разработать алгоритм конструирования инвариантов графов: 1) моделирующий действия человека, строящего инварианты для использования их в корреляциях «структура-свойство»; 2) в котором выбор элементарных шагов в процессе конструирования инвариантов происходит случайным образом; 3) позволяющий генерировать как известные, так и новые инварианты графов. Цель разработки такой системы – получать произвольное количество разнообразных инвариантов графов для построения на их основе моделей связи «структура-свойство».

Целесообразность создания вышеуказанной системы обусловлена тем, что не всегда удается построить достаточно хорошие корреляции «структура-свойство», используя для этих целей даже достаточно большие наборы вполне определенных параметров, построенных «вручную». Это связано с тем, что: а) инвариантов графов в принципе существует бесконечно много, и использование какого-либо одного и того же конечного, фиксированного набора инвариантов для всех случаев не всегда приводит к требуемому результату; б) как правило, в процессе построения конкретной модели обнаруживаются корреляции между различными инвариантами. Последнее можно объяснить, в частности, тем, что при конструировании инвариантов «вручную» часто происходит применение одних и тех же приемов построения и действий «по аналогии».

5ых из литературы инвариантов графов, нашедших успешное применение при построении корреляций «структура-свойство». На основании проведенного анализа выделено несколько достаточно простых процедур, допускающих формальное описание. Установлено, что из этих процедур конструируются алгоритмы построения известных инвариантов путем их определенного сочетания, в том числе и размещения одной процедуры внутри другой. При этом в процессе выполнения каждой такой процедуры необходимо произвести выбор одного варианта из нескольких возможных. В связи с отсутствием теоретического обоснования (как с точки зрения математики, так и с точки зрения теоретической химии) принятия того или иного решения, в разработанном алгоритме предложено любой выбор проводить случайным образом. Однако выбор может быть сделан и исследователем. В этом случае процесс конструирования инвариантов будет управляемым.

Алгоритм описан в терминах блок-схем и состоит из двух последовательных этапов: 1) Создание Базы Матриц (БМ) графа; 2) Построение инвариантов графа по матрицам из БМ или по другим инвариантам. В связи с необходимостью выбора одного варианта из нескольких возможных на разных этапах алгоритма неотъемлемой частью структуры алгоритма являются предварительно составленные Списки возможных вариантов действий. Эти Списки можно как сокращать, так и расширять, добавляя в них новые варианты.

Далее в качестве примера на рис.3 приведена блок-схема 1-ого этапа. В качестве входных данных на этом этапе используется матрица смежности (или весов) A0=(aij) графа. Результатом работы алгоритма на этом этапе является База Матриц (БМ) введенного графа, полученных из А0 по разным правилам. Матрица А0 также заносится в БМ. На 1-ом этапе задаются Списки 1-5, содержащие варианты преобразования А0. Например, в Списке 1 приведены варианты начальных весов вершин графа, в Списке 2 - варианты начальных весов пар вершин; Списки 3 и 4 содержат варианты преобразований весов вершин или весов пар вершин. Так как некоторые варианты в Списках 1-5 предполагают использование каких-либо функций или определенных подграфов, то также вводятся дополнительные Списки 6-9 (перечни функций f одной переменной, симметричных функций F многих переменных, симметричных функций g двух векторных аргументов; перечень специальных подграфов).

Исследование возможностей системы генерации инвариантов графов. Показано, что основные, известные из литературы инварианты молекулярных графов (называемые в теоретической химии топологическими индексами) могут быть получены в рамках разработанной схемы. Рассмотрено 42 топологических индекса различного типа, причем некоторые из них в действительности представляют собой целые семейства инвариантов. Примерами таких являются индексы связности порядка h(1, для вычисления которых рассматриваются все цепи фиксированной длины h(1 в графе, или информационные индексы порядка k(1, где k - номер координационной сферы атома.

В то же время при анализе структуры алгоритма и содержания списков возможных вариантов, заложенных в него, выявляются принципиально новые пути построения инвариантов графов, которые могут оказаться полезными в корреляциях «структура-свойство». При реализации алгоритма можно получить довольно сложные и громоздкие по конструкции инварианты, которые практически не могут быть построены человеком «вручную», но также могут оказаться полезными в вышеуказанных задачах.

Используя предложенную схему, которая является, по сути, алгоритмом генерации алгоритмов генерации инвариантов, можно строить автоматически сколь угодно много инвариантов разного типа при помощи компьютера.

Метод построения моделей связи «структура-свойсво» на основе системы генерации инвариантов графов и его тестирование. Предложен следующий метод построения моделей связи «структура-свойство». Сначала генерируется некоторое множество инвариантов, затем из них выбирается небольшое число наилучших каким-либо стандартным образом (например, при помощи пошаговой линейной регрессии). Если результат оказался неудовлетворительным (с точки зрения какого-либо критерия), то можно расширить или заменить исходное множество инвариантов, используя генератор инвариантов повторно. Кроме того, можно построить много разных моделей для одних и тех же данных, и использовать для оценки свойств соединений все эти модели, усредняя получаемые результаты.

Проведено тестирование предлагаемого подхода для построения корреляций «структура-свойство» для физико-химических свойств и биологической активности органических соединений различных классов. Рассматривались: 1)-5) энтальпия образования, температура кипения, критическая температура, критическое давление, 3D-индекс Винера 3W алканов С2-С8; 6)-7) ингибирование микросомального пара-гидроксилирования анилина цитохромом Р450 (степень ингибирования характеризуется величиной pIC50,=-lgIC50 , где IC50 - концентрация вещества, приводящая к 50% ингибированию гидроксилирования анилина), а также температура кипения tкип. алифатических спиртов; 8), 9) параметр гидрофобности logP (P – коэффициент распределения соединения между водой и н-октанолом), а также токсичность, характеризуемая величиной logEC50-1 (EC50 – концентрация вещества, вызывающая 50% уменьшение биолюминисценции морских бактерий Photobacterium phosphoreum в течение 30 мин.) хлорзамещенных фенолов. Полученные результаты свидетельствуют об эффективности предложенного подхода.

Рис.3. Блок-схема 1-ого этапа алгоритма генерации инвариантов графа.

Таким образом, в Главе 2 разработана система автоматичекой генерации инвариантов графов различной структуры (топологических индексов) и в любом заданном количестве. В ней используются элементы случайного выбора возможных элементарных шагов в процессе конструирования инвариантов. Система позволяет получать как основные известные инварианты графов (топологические индексы), так и новые, которые вряд ли могут быть построены «вручную». На основе разработанного алгоритма предложен новый метод построения моделей связи «структура-свойство», а также приведены примеры его применения для различных физико-химических свойств соединений и видов биологической активности. Следует отметить, что аналогов предложенной системы нет.

ГЛАВА 3. Методы определения областей применимости моделей связи

«структура-свойство».

Постановка задачи: определить область применимости (ОП) построенной модели связи «структура-свойство», т. е. то множество химических соединений, свойства которых могут быть рассчитаны по соответствующему уравнению с заданной погрешностью (. Эта задача возникает на этапе прогнозирования свойств соединений при помощи построенной модели. Очевидно, что использование любой математической модели без учета ее ОП может дать неверный результат.

При исследовании проблемы конструктивного определения ОП по исходным данным прежде всего возникает вопрос о принципиальной возможности ее решения. В Главе 1 было теоретически доказано, что на основе исходных данных в принципе невозможно определить, принадлежит ли данный граф (т. е. химическая структура) области применимости построенной модели, т. е. исходных данных недостаточно для детерминированного решения этой проблемы. В то же время эти результаты позволяют выявить вид дополнительной информации, необходимой для решения поставленной задачи. Однако априорное выделение класса соединений, близкого в каком-либо смысле к реальной ОП (РОП), является важным при прогнозировании свойств соединений, так как его использование при прогнозировании свойств способствует сокращению доли ошибочных предсказаний. Такой класс соединений естественно назвать теоретической областью применимости модели (ТОП). Можно ожидать, что введение ТОП приведет к «пропуску» некоторых искомых соединений. Однако с практической точки зрения более важно уменьшить число ошибочных прогнозов, которые повлекут за собой неоправданные финансовые и временные затраты, чем «пропустить» перспективное соединение.

В связи с отмеченными выше особенностями поставленной задачи можно предложить два принципиально разных подхода к определению ТОП моделей связи «структура-свойство». Один из них базируется на выдвижении ряда гипотез относительно рассматриваемого свойства, которые, по сути, позволяют увеличить объем исходной информации. Другой подход носит вероятностный характер. Однако и в этом случае используется ряд гипотез, в частности, предположения о характере распределения некоторых случайных величин.

В данной главе описаны два общих, конструктивных метода априорного определения ТОП уравнений связи «структура-свойство» при заданной погрешности расчета свойств (. Приведены обоснования предложенных методов, а также результаты их тестирования.

Вероятностный метод определения ОП. Предложен вероятностный подход к определению области применимости линейной модели связи «структура-свойство» следующего вида:

y=a1x1+...+amxm ,

в которой параметры a1,...,am определяются по исходной выборке k соединений методом наименьших квадратов, а x1,…,xm - любые молекулярные параметры. Пусть yрасч - величина свойства, рассчитанная по вышеприведенному уравнению, у – экспериментальное значение свойства, М – множество, структуры которого требуется разделить на два класса: принадлежащие и не принадлежащие ТОП соответствующего уравнения. Согласно определению, РОП вышеприведенного уравнения состоит из тех соединений, для которых (y-yрасч(((. Так как невозможно учесть все факторы, влияющие на заданное свойство, его экспериментальное значение у можно рассматривать как случайную величину. Следовательно, выполнение условия (y-yрасч((( представляет собой случайное событие, и можно рассмотреть его вероятность P((y-yрасч(((). Будем считать, что ТОП состоит из тех соединений, для которых P((y-yрасч((()((кр, где (кр – некоторое пороговое (критическое) значение этой вероятности. Основная идея предложенного метода заключается в определении порога (кр по заданному значению (, и дальнейшей оценке вероятности P((y-yрасч((() для тестируемого соединения. Подход базируется на ряде гипотез, в частности, на предположении о том, что некоторые случайные величины, связанные с изучаемым свойством, распределены по нормальному закону. Критерий принадлежности некоторого соединения ТОП построенной модели заключается в выполнении для тестируемого соединения некоторого числового неравенства. Для его проверки необходимо знание значений параметров x1,…,xm для тестируемого соединения и для соединений исходной выборки, значений свойств соединений исходной выборки, чисел (кр и (, а также значения t((кр, k-m)- квантили уровня (кр распределения Стьюдента с k-m степенями свободы.

Проведено тестирование предложенного метода. При этом проверялись степень совпадения РОП и ТОП, степень сокращения доли ошибочных предсказаний и доля «пропущенных» соединений при использовании ТОП. В качестве множества М рассматривалось множество всех алканов С2-С8 (39 соединений) с известными значениями температуры кипения. Обучающая выборка состояла из k=12 соединений этого класса. По этим данным было построено линейное уравнение связи «структура-свойство», содержащее такие параметры как ln((+1), где ( - индекс Рандича, и n - число атомов углерода в молекуле. Рассматривался ряд значений ( (0<((5(0С)), и для этих значений определялось качество предложенного метода. Проведенные исследования показали, что описанный выше метод позволяет в 94-97% случаев отбросить соединения, не принадлежащие РОП, и в 80-85% случаев верно определить, принадлежит ли РОП данное соединение. Если проводить прогнозирование свойств всех соединений исходного множества, не выделяя ТОП, то доля верных предсказаний составляет 90%; если прогнозирование проводить только внутри ТОП, то доля верных предсказаний - 97%; доля «пропущенных» соединений -13%.

Аналогичные результаты были получены и для ряда других уравнений, построенных для тех же данных, и содержащих такие параметры, как индекс Рандича, индекс Винера, число атомов углерода в молекуле.

Метод определения ОП на основе базисных инвариантов. Предложен метод определения ТОП модели связи «структура-свойство» специального вида на основе базисных инвариантов (в смысле определения 1), рассмотренных в Главе 1, и ряда соответствующих теоретических результатов.

Рассматриваемые модели связи «структура-свойство» строятся следующим образом. Пусть задано множество соединений, представленных графами {Gi} (i=1,...,N), и выборка соединений из них {Gi} (i=1,...,k) с известными значениям некоторого свойства {yi} (i=1,...,k). Пусть {fj} (j=1,...,N) – базис инвариантов графов исходного множества, такой, что N-k+1 его элементов с номерами k,...,N постоянны на графах {Gi} (i=1,...,k), т.е. fp(Gi)=cp , i=1,...,k. Предположим, что по исходным данным сначала построено точное уравнение связи «структура-свойство» следующего вида:

k-1

y=(apfp(G)+ a0.

p=1

загрузка...