Delist.ru

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович

Создание прагматически-ориентированных сценариев работы с полученными знаниями, что позволяет обрабатывать информацию согласно нуждам пользователя и обеспечивает субъектно-ориентированное извлечение и анализ знаний.

3. Применение/Верификация – Механизмы поиска, сравнения, классификации и кластеризации информационных объектов на основе семантических дескрипторов – метод кластерного анализа, реализованный на основе агентного взаимодействия, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пошаговом, так и в пакетном режимах, а также дает возможность работы с неструктурированными квантами информации, тем самым предоставляя механизм поиска, анализа и классификации знаний, содержащихся в неструктурированных текстах.

В предлагаемом подходе в соответствие каждому элементу системы – каждой записи и кластеру, ставится программный агент, представляющий их интересы. Процесс работы системы состоит в переговорах агентов, направленных на улучшение их состояния согласно критериям оценки качества. Вместо централизованной последовательной обработки осуществляется распределенная обработка, в которой каждая запись и каждый кластер самостоятельно и на основе некоторых заданных стратегий в достаточно узко ограниченном контексте принимают решения о вхождении в кластер или выходе из него, расширении или сужении кластера или его удалении, представляя текущий локальный баланс интересов конкретных записей и кластеров. В итоге процесс кластеризации осуществляется путем самоорганизации агентов, формирующих иерархическую кластерную структуру.

В разделе описываются типовые стратегии записи и кластера, поддерживаемые типы полей, возможные способы представления структуры кластеров, вычисления расстояний между записями и кластерами, формулы ценности для кластера и записи, принципы точной и интервальной кластеризации, преобразование и нормирование атрибутов, параметры микроэкономики, в том числе назначение начального количества денег (энергии), механизмы поиска вариантов, вхождения в кластер, распределения денег между кластерами, выход из кластера и налоги.

. Цель кластера С – максимизация ценности

, k1,k2,k3 – регулирующие коэффициенты.

, где F – эвристическая функция ценности записи. Формула ценности кластера вычисляется следующим образом:

где Nrec – число записей в кластере, Nall – общее число записей в пространстве D, М – число полей, по которым образован кластер.

Число полей, по которым образуется кластер, определяется следующим образом – вычисляется Difi – степень совпадения атрибута i

– коэффициент поощрения похожести атрибута.

Оценка возможности создания кластера между точками X и Y:

Формула оплаты за вхождение в кластер:

Распределение денег между кластерами для записи:

Предлагаемый подход к кластеризации информации, основанный на агентном взаимодействии, позволяет добиться следующих основных преимуществ по сравнению с существующими методами:

Возможность работы с семантическими сетями, что позволяет кластеризовывать сложные информационные объекты (образы, тексты).

Алгоритм не требует предобработки данных экспертом предметной области, не требует участия человека в процессе работы, но может использовать взаимодействие с экспертом для повышения качества результатов.

Алгоритм способен работать в неэвклидовом пространстве, где мера близости может существовать только для каждой пары объектов, а правило треугольника не соблюдается.

Создание значимых кластеров в любом подпространстве исследуемого пространства решений, алгоритм учитывает любые комбинации параметров, позволяя находить зависимости между любым поднабором атрибутов.

Прозрачность принимаемых решений и описание кластера в терминах онтологии, что дает возможность удобного анализа результатов, описание кластера в виде правил вида «если – то».

Возможность создания сложной иерархической структуры кластеров, где каждая запись и кластер способны входить во множество других кластеров, тем самым учитывая и отображая все найденные семантические зависимости.

4. Переосмысление/Пополнение – Алгоритм машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров информационных объектов – метод автоматизированного пополнения онтологии новыми знаниями на основе анализа семантических групп, найденных на этапе кластеризации, и применения ряда эвристических правил, позволяющих уточнить и пополнить онтологию предметной области, тем самым улучшая качество представления, поиска и анализа документов.

Модуль автоматизированного пополнения онтологии позволяет на основе найденных групп семантически близких дескрипторов «выращивать» новые связи между существующими в онтологии квантами знаний.

Пополнение и уточнение онтологии основано на гипотезе взаимодействия: «если концепты онтологии всегда встречаются вместе в определенной ситуации, значит, они семантически связаны между собой, причем характер связи определяется ситуацией». Методы модуля позволяют проанализировать получившуюся структуру и дескрипторы кластеров, выделить необнаруженные ранее зависимости между концептами онтологии.

После того, как документы получили семантические дескрипторы и кластеризованы по семантической близости, происходит процесс кластеризации созданных ранее кластеров. Теперь анализируются те зависимости, по которым были объединены документы в различных группах. Подобный процесс позволяет подняться над уровнем документов и исследовать уже саму предметную область, анализируя те концепты, которые встречаются в различных семантически близких группах, и установить возможные взаимосвязи между ними.

Варианты зависимостей и возможных изменений онтологии приведены в таблице 3.

Таблица 3 – Типы зависимостей для пополнения онтологии предметной области

Тип зависимости Возможные изменения онтологии

Два несвязанных объекта

Ci – кластер семантических дескрипторов 1. Данные объекты должны быть связаны между собой отношением, которое присутствует в онтологии, но их не связывает

3. Объекты родственные, и один из них является наследником другого

Два объекта, связанные определенным отношением

1. Отношение делится на два различных отношения, связывающие объекты

2. Родственные отношения

Два объекта, всегда связанные двумя конкретными

отношениями

1. Синонимы для одного и того же отношения

2. Наследники \ родственники другого отношения, не существующего в онтологии

????ae????

"3. Раздваивается один из исследуемых объектов.

Объект плюс другой объект, связанный определенным отношением с различными третьими объектами

загрузка...