Delist.ru

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович

1. Объекты должны быть связаны данным отношением

Объект связан отношениями одного и того же типа с двумя объектами разных типов

1. Объекты родственны

Объект плюс атрибут, встречаемый у других различных объектов

1. Атрибут принадлежит данному объекту

Объект плюс атрибут, всегда наличествующий у другого объекта

1. Атрибут ошибочно приписан другому объекту

2. Субстантивация - атрибут используется вместо объекта

Объект плюс отношение, не связанные ни с каким объектом

1. Новый объект в онтологии

Два атрибута, встречающиеся у одного и того же объекта

1. Допустимо объединение атрибутов

Один атрибут, встречающийся одновременно у нескольких разных объектов (в случае устойчивой комбинации)

1. Одному из объектов атрибут приписан ошибочно

2. Данные объекты должны быть родственными, чтобы «законно» наследовать атрибут

В результате по итогам анализа семантики кластеров для каждой группы (кластера кластеров) определяется ряд возможных пополнений \ изменений в онтологию. При этом для каждого из вариантов изменения, аналогично этапу построения, считается степень его корректности путем временного изменения онтологии и анализа числа корректных \ некорректных использований измененной части онтологии на имеющемся наборе документов. Все варианты и их степень корректности предлагаются пользователю, и в интерактивном режиме можно изменить и уточнить предложенные гипотезы для окончательного утверждения и пополнения онтологии.

Предлагаемый подход к автоматизированному пополнению онтологии позволяет добиться следующих основных преимуществ по сравнению с существующими методами:

Процесс пополнения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены.

В процессе анализа и пополнения онтологии в полной мере учитывается семантика, построенная онтология является основой для анализа семантической корректности предлагаемых изменений.

Алгоритм ориентирован на пополнение всех существующих типов связей в онтологии, включая принадлежность атрибутов и корректность отношений.

Поддерживается возможность уточнения имеющейся онтологии с учетом ее потенциальной начальной некорректности.

Допустима работа с множеством документов из нескольких слабосвязанных предметных областей.

Алгоритм может работать как автономно, так и в интерактивном режиме, причем пользователь может повлиять на формирование решения на каждом из этапов работы.

Третий раздел посвящен разработке инструментальной среды онтологического анализа и синтеза для решения задач извлечения знаний и понимания текста на естественном языке, исследованию реализационных характеристик разработанных средств, оценке эффективности их работы и качества результатов.

Предлагаемый подход к интеграции знаний, основанный на агентных взаимодействиях и заключающийся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, позволил создать архитектуру работы со знанием для реализации предложенных методов автоматизированного конструирования онтологий, представления и обработки информации, анализа результатов и пополнения знаний, обеспечивая цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации в сфере промышленного проектирования и производства и других областях.

Разработанная среда включает в себя несколько программных комплексов: инструментарий инженерии знаний, предназначенный для создания онтологий предметной области и логики принятия решений агентов, и программный инструментарий, ориентированный на представление, анализ и обработку знаний, представленных в виде текста на естественном языке (Рисунок 5).

Рисунок 5 – Общая логическая архитектура системы

Инструментарий инженерии знаний включает в себя конструктор онтологий, автоматизированную систему построения онтологий, систему понимания научно-технического текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, в том числе отладочную систему, интерфейсы работы с базами данных и внешними приложениями.

Для создания специализированных программных компонент приложения предлагается инструментарий программиста, состоящий из расширяемого набора библиотек программ и позволяющий настроить инструментальную среду для обработки информации в исследуемой предметной области.

Основу всего комплекса составляет исполняющая система, реализованная в двух версиях на основе наиболее распространенных сред объектно-ориентированного программирования Object Pascal и C++ в операционной системе Windows.

В разделе описываются реализационные характеристики отдельных модулей и всей инструментальной среды в целом, в частности, поддерживаемые операционные системы Win 98, 2000, NT, XP, Vista, механизмы интеграции с базами данных BDE, ODBC, ADO и MTS, поддержка COM/CORBA, поддержка XML и периферийных устройств (SMS, E-mail, fax etc), а также характеристики системы по производительности.

В разделе приводится ряд экспериментальных оценок параметров производительности основных модулей и алгоритмов, входящих в структуру предлагаемой системы интеграции знаний, а также обсуждаются возможные способы улучшения производительности и качества результатов.

Анализ проводился независимо по нескольким предметным областям (в том числе малые космические аппараты, логистика, страхование, биология), исследуемым в рамках решения реальных прикладных задач в сфере промышленного проектирования и производства, и других областях. В каждой области была построена онтология, взяты наборы реальных документов из практики (две группы – исходная и тестовая выборки, в каждой порядка 5000 документов). Все замеры делались на разных типах и объемах данных, затем соответствующие результаты усреднялись по количеству запусков и выводились для анализа.

Исследование производительности, эффективности и качества

результатов для каждого из анализируемых модулей

А. Автоматизированное построение онтологии

Исследуемые характеристики:

1. Зависимость скорости работы системы от объема задачи (число слов в документах).

2. Требуемое количество агентов (среднее/пиковое) – объем задачи.

3. Число выделяемых терминов – объем задачи.

загрузка...