Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

Пусть из него получено приближенное уравнение (с заданной погрешностью () путем замены некоторых инвариантов fp (например, с номерами p=m+1,...,k-1) на константы bp, равные их средним на выборке значениям:

m k-1

y=(apfp(G)+A0 (A0=a0+(apbp).

p=1 p=m+1

В Главе 1 были даны некоторые достаточные условия на рассматриваемое свойство и молекулярный граф G (т.е. химическую структуру), при которых значение свойства этой структуры определяется по вышеуказанному уравнению с точностью ( (см. Теорему 1.9 и следствие из нее). Первое из них – это независимость рассматриваемого свойства для соединений исходного множества от некоторых базисных инвариантов fp с номерами p=k,...,N (что можно только предполагать и нельзя получить из исходных данных). Второе условие - это выполнение для графа G равенств вида fp(G)=cp для остальных номеров p=k,...,N. Третье условие - это выполнение следующего неравенства:

( (ap(fp(G)-bp)(((.

p=m+1

Из этих условий следует, что число L1 ограничений типа равенств на структуры графов из ТОП связаны с числом L2 гипотез о независимости свойства от некоторых базисных параметров так: L1+L2=N-k+1. Таким образом, чем меньше факторов влияет на величину данного свойства, тем меньше структурных ограничений надо вводить на графы из ТОП.

На основании этих теоретических результатов предложен следующий метод определения ТОП вышеприведенного уравнения: 1) выдвигается ряд гипотез о независимости рассматриваемого свойства от некоторых структурных параметров, задаваемых инвариантами fp; 2) для анализируемого графа G проверяется ряд соответствующих ограничений типа равенств и одно ограничение типа неравенства, приведенные выше; если все эти условия выполняются, то граф G считается принадлежащим ТОП.

Проведено тестирование предложенного метода. Проверялись степень совпадения РОП и ТОП, степень сокращения доли ошибочных предсказаний и доля «пропущенных» соединений при использовании ТОП. Рассмотрено множество всех алканов С2-С7 (N=21), с известными значениями температуры кипения у. В качестве обучающей выборки использовано множество всех алканов С2-С5 (k=7), а (=5(0С). Выдвигаемые гипотезы основаны на представлении о том, что температура кипения зависит, в основном, от размера и степени разветвленности молекул, а числа вхождения в граф некоторых специальных подграфов могут служить количественной мерой этих структурных особенностей. Проведенные исследования показали, что при классификации исходных соединений на «принадлежащие/не принадлежащие» РОП при помощи ТОП была сделана лишь одна ошибка, т.е. правильная классификация соединений была проведена в 95% случаев. Если проводить прогноз свойств всех соединений исходного множества, не выделяя ТОП, то доля верных прогнозов составляет 43%; если прогнозирование проводить внутри ТОП, то доля верных прогнозов – 100%; доля «пропущенных» соединений -5%.

Таким образом, в Главе 3 рассмотрена задача определения ОП модели связи «структура-свойство», построенной в результате анализа ограниченного набора данных (при заданной допустимой погрешности расчета свойств (, зависящей от конкретной задачи). Доказано, что данная задача в принципе не может быть решена на основе анализа исходных данных. При этом указан вид дополнительной информации, необходимой для ее решения. Предложены два общих метода определения теоретической области применимости моделей связи «структура-свойство» специального вида, учитывающие заданную погрешность (. Один из них использует аппарат теории вероятности и базируется на гипотезе о том, что некоторые величины, связанные с рассматриваемым свойством, являются случайными величинами, распределенными по нормальному закону. Второй подход опирается на понятие базисных инвариантов и их свойства и используется для моделей определенного типа. В этом подходе также необходимо выдвижение некоторых гипотез относительно рассматриваемого свойства. Проведено тестирование предложенных методов, показавшее, что учет теоретической области применимости при прогнозировании свойств соединений позволяет снизить долю ошибочных прогнозов.

ГЛАВА 4. Обратные задачи в исследованиях связи «структура-свойство»:

теоретико - графовый подход.

Постановка задачи. Обратная задача (ОЗ) в исследованиях связи «структура-свойство» - это задача исчерпывающей генерации химических структур определенного класса, имеющих заданное значение y0 рассматриваемого свойства (или заданный интервал (y1, y2) значений свойства), на основе предварительно построенной базовой модели связи «структура-свойство» следующего вида:

y=f(x1,...,xN),

где y - значение рассматриваемого свойства, x1,...,xN - какие-либо молекулярные параметры, f - некоторая функция. Если в качестве параметров x1,...,xN использованы инварианты соответствующих молекулярных графов, то ОЗ сводится к исчерпывающей генерации молекулярных графов по заданному значению их инварианта, задаваемому выражением вида f(x1,...,xN).

Метод ОЗ важен для целенаправленного поиска соединений с заданными свойствами. По сравнению с традиционным подходом к поиску таких соединений, когда при помощи базовой модели «структура-свойство» последовательно тестируется определенный набор соединений и затем из него отбираются подходящие соединения, метод ОЗ имеет явное преимущество: он позволяет дать исчерпывающее (с математической точки зрения) решение поставленной задачи. Такая особенность этого метода позволяет выявить структуры новых соединений (возможно, еще не синтезированных), которые, согласно прогнозу, должны обладать требуемым свойством.

В Главе 4 описаны алгоритмы решения ОЗ для некоторых наиболее популярных инвариантов графов, используемых в теоретической химии при построении корреляций «структура-свойство» и ставших в определенном смысле «классическими». Проведено тестирование предложенных алгоритмов.

Типы рассмотренных базовых моделей связи «структура-свойство».

Рассматриваются модели связи «структура-свойство» следующих видов:

а) Уравнение содержит только один молекулярный параметр ?, называемый

индексом Рандича:

?=?(vi vj)-1/2

(vi и vj - степени вершин i и j, суммирование проводится по всем ребрам (i,j) молекулярного графа). Предполагается, что ? может быть выражен однозначно из этого уравнения; рассматривается как случай произвольных графов так и случай молекулярных графов, соответствующих ката-конденсированным бензоидным углеводородам; б) корреляционное уравнение, наряду с индексом ? содержит и ряд других целочисленных параметров, ограниченных на рассматриваемом классе графов.

2) Уравнение содержит индекс Винера W и рассматривается для ациклических молекулярных графов:

W=?i

(dij - расстояние между вершинами i и j, суммирование проводится по всем парам вершин (i,j), i

3) Уравнение содержит «каппа»-индексы Кира i? (i=0, 1, 2, 3), предложенные для количественной характеристики различных особенностей «формы» молекулы, представленной простым графом. Эти молекулярные параметры определяются в терминах числа вершин графа n и числа путей iP длины i (i=1, 2, 3) в графе по следующим формулам:

1?=n(n-1)2/1P2,2?=(n-1)(n-2)2/2P2,

3?=(n-3)(n-2)2/3P2 (для четного n>3);3?=(n-1)(n-3)2/3P2 (для нечетного n>3).

Индекс 0? определяется по формуле: 0?=-n?(ni/n)log2(ni/n), где ni – число топологически эквивалентных вершин в i – ом классе эквивалентности. Разбиение вершин на классы происходит по каким-либо их топологическим характеристикам, причем самое «мелкое» разбиение соответствует орбитам группы симметрии графа.

4) Уравнение содержит индексы i? (i=0,1,2,3), а также их обобщения i?? (i=1,2,3), разработанные для учета гетероатомов и кратных связей в молекуле. Они вычисляются аналогично i? (i=1,2,3), но в вышеприведенных формулах вместо n используется величина n+?, а вместо iP - величина iP+? при некотором параметре ?, вычисляемом по взвешенному графу. Для вычисления ? атомы молекулы классифицируют по химическим символам атомов и распределениям типов связей; для атома каждого типа определенным способом вычисляют параметр ?j, зависящий от ковалентного радиуса атома, затем ? вычисляют по формуле ?=??j.

3) Уравнение содержит информационные топологические индексы разных типов, но одного порядка k.

Предположим, что химические соединения представлены в виде классических структурных формул, т.е. в виде вершинно – и реберно-меченых графов. Пусть атомы в молекуле разбиты на классы эквивалентности по окрестностям k-ого порядка (k(0). Информационными топологическими индексами, соответствующими такой классификации атомов, являются следующие инварианты:

ICk=-? ni/nilog2ni/ni (Information Content), SICk=ICk/log2n (Structural Information Content),

CICk=log2n (Complement Information Content), BICk=ICk/log2q (Boundary Information Content),

TICk=n·ICk (Total Information Content), (q – общее число связей в молекуле).

Аналогичные инварианты можно построить и для произвольно меченого графа.

4) Уравнение содержит индекс Хосойя Z, а также такие параметры как общее число вершин графа n и числа ni вершин графа степени i=1, 2, 3, 4. Инвариант Z определяется по формуле:

, n – число вершин графа. Отметим, что для ациклических графов индекс Хосойя равен сумме модулей коэффициентов характеристического полинома графа. Рассматриваются простые графы, степени вершин которых не превосходят четырех. Кроме того, предполагается, что индекс Z может быть выражен однозначно из вышеуказанного уравнения.

загрузка...