Delist.ru

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (15.08.2007)

Автор: Скворцова Мария Ивановна

f’(G)=(apfp(G)+А0 (A0=a0+(apbp) , (8)

p( S1 p(S\S1

причем (f(Gi)-f’(Gi)(?( (i=1,...,k). Значение f(G) для графа G?Gi (i=1,..,k) вычисляется с точностью ( по уравнению (8) (т.е. (f(G)-f’(G)(?() тогда и только тогда, когда

(((bp-fp(G))ap+((cp-fp(G))ap(?( . (9)

p(S\S1 p(S2

Следствие из теоремы 1.9.

Сформулируем достаточные условия, при которых f(G) определяется по уравнению (8). Как и в случае следствия из теоремы 1.7, предположим, что f и G таковы, что при p(S2 либо ap=0, либо fp(G)=cp. Тогда (apfp=a0 ,

p(S2

а условие (9) примет вид

(((bp-fp(G))ap(?(. (10)

Все величины, входящие в это неравенство, определяются по начальным данным, поэтому его можно использовать на практике.

Методологические выводы из ТЕОРЕМ 1.1-1.9 и их интерпретация:

1) Из теорем 1.1-1.3 следует, что для любой выборки химических структур и любого свойства всегда можно построить бесконечно много точных линейных моделей связи «структура-свойство», используя базисные инварианты. При этом всегда в качестве базисных инвариантов можно взять числа вхождения в структуру определенных фрагментов (подграфов). В качестве таких подграфов могут быть использованы сами графы заданной выборки. На основании точных моделей можно строить приближенные, отбрасывая несущественные параметры. Таким образом, теоремы 1.1-1.3 являются основой новой общей, математически обоснованной методологии построения моделей связи «структура-свойство». Кроме того, эти результаты можно рассматривать как обоснование довольно распространенного в исследованиях связи «структура-свойство» фрагментного подхода, когда предполагается, что величина некоторого свойства представляется в виде суммы вкладов отдельных структурных фрагментов.

2) Теорема 1.4 позволяет описать множество всех инвариантов, каждый из которых принимает одно и то же значение на всех графах заданной выборки, т. е. найти все общее у заданных графов в терминах их инвариантов. Эта задача теории графов тесно связана с проблемой определения молекулярного сходства. Полученные результаты важны для корректного определения области применимости модели связи «структура-свойство», которая, в свою очередь, также связана с этим понятием. Обычно «сходство» соединений определяется путем визуального выявления некоторых общих имеющихся или отсутствующих фрагментов у структур выборки. Это равносильно тому, что рассматриваются следующие инварианты, связанные с определенными фрагментами: если данный фрагмент присутствует в структуре, то значение инварианта полагается равным «1», если нет, то значение инварианта равно «0». Таким образом, сходными объявляются те структуры, для которых эти инварианты принимают одинаковые значения. При этом выбор таких фрагментов происходит субъективным образом, и некоторые из них могут быть не обнаружены. Теорема 1.4 позволяет дать описание множества всех таких инвариантов, выявляя тем самым скрытые общие черты заданной выборки структур.

3) Однако, как следует из теоремы 1.5, в практических задачах нельзя использовать для определения сходства некоторой структуры и структур заданной выборки все то общее (в терминах инвариантов графов), что обнаружено у этих структур: никакая новая структура не будет иметь этих характеристик.

4) Теорема 1.7 связана с возможностью экстраполяции найденной зависимости «структура-свойство» на новые соединения. В ней даны необходимые и достаточные условия на исходную выборку соединений, на новое соединение, для которого осуществляется прогноз, на исследуемое свойство, при которых это возможно. Из этих условий, в частности следует, что: а) на основе исходных данных в принципе невозможно определить, принадлежит ли данный граф области применимости построенной модели; б) можно предложить достаточные условия на свойство и граф, при которых эта задача разрешима: свойство не должно зависеть от некоторых структурных особенностей (что можно только предполагать и нельзя получить из исходных данных), а граф должен обладать определенным сходством с графами исходной выборки; в) чем меньше структурных факторов влияет на рассматриваемое свойство, тем меньше ограничений требуется на новые структуры и тем шире область применимости построенной модели. Теоремы 1.8, 1.9 обобщают теорему 1.7 на случай, когда вычисление значений рассматриваемого свойства допускается с определенной погрешностью (, а для вычислений используется приближенное уравнение. Таким образом, теоремы 1.4-1.9, могут служить основой для разработки новых, математически обоснованных методов определения областей применимости моделей связи «структура-свойство».

Метод построения моделей связи «структура-свойство» и его тестирование. На основании полученных теоретических результатов предложен общий алгоритмизированный метод №1 построения приближенной модели связи «структура-свойство» по набору N молекулярных графов. Метод заключается в следующем: для описания структуры графов рассматриваются N инвариантов, равных числам вхождения в произвольный граф графов этой выборки, а затем из них отбирается относительно небольшое число параметров, дающих модель удовлетворительной точности. Метод универсален: он позволяет построить точную модель связи «структура-свойство» для любой выборки химических соединений, представленных любыми мечеными графами и любого свойства химических соединений (физико-химического, биологической активности) или какого-либо вычисляемого молекулярного параметра. Таким образом, метод основан на определенном, строго детерминированном и теоретически обоснованном способе выбора инвариантов графов и аппроксимирующей функции в модели связи «структура-свойство». Число параметров, исключаемых из точной модели для получения приближенной модели заданной точности ((0, зависит от состава выборки, рассматриваемого свойства, числа (, а также от способа представления химических соединений молекулярными графами. Метод может быть модифицирован следующим образом: наряду с вышеуказанными подграфами рассматриваются также подграфы самого «маленького» по числу вершин графа, и наилучший набор параметров отбирается из соответствующего объединенного набора.

Проведено тестирование предложенного метода на основе баз данных по разнообразным свойствам и классам соединений. Рассматривались: 1)-3) алканы с известными значениями температуры кипения tкип., критической температуры tкр., критического давления Pкр.; 4) сульфиды с известными значениям температуры кипения tкип..; 5) спирты c известными значениями параметра y=-logX, где Х – растворимость соединения в воде; 6) амины с известными значениями температуры кипения tкип.; 7) эфиры с известными значениями токсичного действия (на мышей) y=-lgC (C - концентрация вещества, вызывающая заданный биологический эффект). Для оценки качества модели в соответствии с принятыми критериями использовались коэффициент корреляции R и среднеквадратичное отклонение s для регрессии, построенной для расчетных и экспериментальных значений свойства как для обучающей, так и для контрольной выборки соединений; рассматривались также коэффициент корреляции Rcv и среднеквадратичное отклонение scv для регрессии, полученной в процедуре «скользящего контроля» (“cross-validation”) в случае отсутствия контрольной выборки. Построенные модели обладают достаточно высокой точностью и имеют хорошую прогностическую способность, что свидетельствует об эффективности предложенного метода.

? Определение 2 базиса инвариантов графов.

Назовем набор инвариантов {gi} (i=1,2,...) меченых графов некоторого множества {Gi} (i=1,2,...; Gi1?Gi2 , i1?i2) базисным, если: 1) для любых графов Gi1 и Gi2 и (i1?i2) из этого множества вектора g(Gi1)=(g1(Gi1),g2(Gi1),…) и g(Gi2)=(g1(Gi2),g2(Gi2),…) различны; 2) любой инвариант f(G) графов любого конечного подмножества графов исходного множества {Gi} (i=1,2,...) может быть представлен в виде некоторой функции h от g1, g2,…, т.е. f(G)=h(g1(G),g2(G),…), причем h не зависит от G, а зависит от инварианта f и выбранного подмножества графов.

Отметим, что в определении 2, в отличие от определения 1, не требуется, чтобы: а) рассматриваемое множество графов было бы конечным; б) любой инвариант графа представлялся бы в виде линейной функции от базисных инвариантов; в) любой инвариант однозначно выражался бы через базисные инварианты.

Далее введены два набора инвариантов простых графов и проведено их исследование на базисность в смысле определения 2.

Для построения первого набора инвариантов рассматриваются все графы Fk с k?1 вершинами, состоящие из объединения нескольких несвязных компонент, каждая из которых является либо цепью, либо циклом, или циклом, к некоторым вершинам которого присоединено еще по одной вершине. В случае k=1 граф F1 состоит из одной вершины. Все такие графы для одного фиксированного k нумеруются произвольным образом и обозначаются через Fk,m (m=1,2,...). На рис. 2 приведены все такие графы при k=5. Пусть xk,m - инвариант, равный числу вхождения в некоторый граф G подграфа Fk,m.

Второй набор инвариантов строится на основе первого следующим образом. Нумеруются все вхождения Fk,m в граф G и j-ое вхождение обозначается через Fk,m,j . Каждому Fk,m,j сопоставляется число

где суммирование проводится по всем компонентам связности Fk,m,j, ni - число вершин в i - ой компоненте, vр (р=1,2,…) - степени вершин Fk,m,j в G. Инвариант (k,m определяется так:

Для исследования наборов инвариантов {xk,m} и {(k,m} на базисность в смысле определения 2 использованы разные методы исследования: 1) строгое математическое доказательство соответствующих утверждений для графов определенных классов; 2) выявление на основе некоторых теоретических результатов тех наборов графов, для которых могут нарушаться условия базисности; нахождение таких графов в разных классах графах с последующей непосредственной проверкой соответствующих утверждений для них; 3) проведение компьютерно-статистического эксперимента, в ходе которого случайным образом генерируются различные выборки графов и для них проверяется выдвигаемая гипотеза.

Рис. 2. Все графы Fk,m при k=5.

ТЕОРЕМА 1.10. Набор инвариантов xk,m является базисным (в смысле определения 2) для множества графов {Gi} (i=1,2,..,), состоящего из графов типа Fk,m.

Аналогичные результаты получены и для набора {(k,m}.

При исследовании базисности введенных инвариантов методами 2) и 3) во всех рассмотренных случаях выдвигаемая гипотеза оказалась верна; при этом было установлено, что в качестве функции h можно взять полином степени не более двух.

На основании результатов проведенных комбинированных исследований наборы инвариантов {xk,m } и {(k,m} были названы базисными (в смысле определения 2).

Метод построения моделей связи «структура-свойство» и его тестирование.

Предложен общий алгоритмизированный метод №2 построения моделей связи «структура-свойство», основанный на введенных выше инвариантах {(k,m}. Согласно этому методу, для данной выборки молекулярных графов строятся все возможные инварианты {(k,m}, а также их квадраты и попарные произведения, и затем из этого набора параметров отбирается небольшое число параметров, дающих удовлетворительную линейную модель.

Проведено тестирование предложенного метода на основе баз данных по углеводородам различных классов с различными свойствами. Рассматривались: (1-4) температура кипения, критическая температура, молярная рефракция, молярный объем алканов; (5) температура кипения циклосодержащих углеводородов; (6) полная (-электронной энергия бензоидных углеводородов. Полученные модели обладают достаточно высокой точностью.

? Определение 3 базиса инвариантов графов.

Назовем семейство инвариантов {Z1((1), Z2((2),…} произвольного набора графов {Gi}, зависящих от параметров (1, (2,…, базисным, если для любого инварианта f любой выборки графов {G1,…,GN} найдется N инвариантов Zj1((1),…, ZjN((N) из этого множества, и N чисел (1’,…, (N’, таких, что рассматриваемый инвариант f однозначно представляется в виде линейной комбинации Z1((1’),…,ZN((N’):

f=?сiZji((i’).

Далее введено семейство инвариантов {(k,m(()=(k,m/n( (k,m?1); (0,0(()=n(}, где n - число вершин графа G, (=((k,m)(0 - произвольный параметр, который для каждой пары (k,m) может принимать любые значения. Это семейство инвариантов является обобщением рассмотренного ранее набора инвариантов {(k,m }.

Проведено исследование семейства инвариантов {(k,m(()} на базисность в смысле определения 3. Для этой цели использованы два различных метода: 1) строгое математическое доказательство выдвигаемой гипотезы для определенных классов графов; 2) проверка гипотезы в ходе компьютерно-статистического эксперимента.

ТЕОРЕМА 1.11. Инварианты {(k,m(()} являются базисными в смысле определения 3 для любого множества графов {Gi}, i=1,...,N, удовлетворяющего одному из следующих условий: а) все графы данного множества имеют различное число вершин n1, n2,..., nN; б) каждый граф из данного множества является графом типа Fk,m при некоторых (k,m).

загрузка...