Delist.ru

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович

Общая синтаксическая корректность концепта онтологии:

Концепт онтологии исключается в случае, когда

вычисляется, как

Вклад концепта в смысл документа:

Термин понят неудовлетворительно и ухудшает общее понимание текста в случае:

Предлагаемый подход к автоматизированному построению онтологии позволяет добиться следующих основных преимуществ по сравнению с существующими методами:

Не требуется построение начальной онтологии предметной области человеком-экспертом в качестве базиса для дальнейшей работы.

Не требуется предобработка человеком-экспертом документов предметной области (включая стандартизацию шаблонов, преобразование форматов, предварительную разметку текста, составление вручную словаря терминов предметной области и пр.).

Процесс построения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены.

Процесс построения онтологии не зависит от языка документа, за исключением поддержки синтаксических онтологий для разных языков.

Процесс построения онтологии итеративный, всегда существует обратная связь с возможностью проверить семантику сгенерированной онтологии автоматическим путем, когда уже построенная часть онтологии сама является основой для анализа семантической корректности предлагаемых изменений и дополнений. При этом процесс саморегулирования автоматизирован и может обходиться без человека-эксперта.

Анализ и вычленение терминов с учетом их семантики происходит в рамках всего корпуса текстов, он не ограничивается анализом индивидуальных предложений.

Поддерживается возможность работы с множеством документов из нескольких слабосвязанных предметных областей за счет предварительного этапа автоматической предобработки алгоритмом кластеризации.

Алгоритм может работать как автономно, так и в интерактивном режиме, причем пользователь может повлиять на формирование решения на каждом из этапов работы.

2. Восприятие/Отражение – Представление информационных квантов в терминах онтологии предметной области – метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной

области, основанный на применении механизмов мультиагентного взаимодействия квантов знаний, позволяющих в процессе переговоров реконструировать смысл предложения, и использовании построенных онтологий для хранения межфразового контекста, тем самым дающий возможность представлять смысл связного текста и обеспечивающий механизмы сравнения семантики документов.

Суть предлагаемого подхода состоит в том, что каждому слову языка ставятся в соответствие агенты его смыслов, которые на основе собственных баз знаний (онтологий) конкурируют между собой и кооперируются, договариваясь о том, какой именно конкретный смысл имеет каждое слово в предложении и каков его общий смысл. В результате, основной моделью процесса понимания смысла становится процесс самоорганизации смыслов слов при построении сцены контекста, что принципиально отличает предлагаемый подход от всех на сегодня известных (Рисунок 4).

Рисунок 4 – Логическая модель процесса анализа ЕЯ текста

Осуществляются синтаксическое

и морфологическое уточнения:

Затем словосочетания объединяются между собой по правилам, приведенным в таблице 2.

Таблица 2 – Создание словосочетаний (на примере союзов)

Вариант

объединение двух слов союзом

непротиворечащие синтаксические свойства

Союзы могут соединяться с другими союзами

- оба союза должны присоединить к себе хотя бы одно другое слово

- только прямая связь

Субъектное объединение элементов перечисления с другими словами –

Союзное словосочетание является либо одиночным словом, либо объединением союза и предлога

Алгоритм синтаксического разбора заканчивается в одном из двух случаев:

На этапе семантического разбора проверяется непротиворечивость, осуществляется дополнение и уточнение семантического дескриптора. Для каждой пары объектов осуществляется оценка возможности связи. Допустимы следующие случаи:

Возможные противоречия выявляются на основе следующих правил:

В случае возникновения противоречия или требуемого уточнения алгоритм возвращается на стадию синтаксического разбора. В противном случае формируется общий семантический дескриптор документа посредством слияния имеющейся сцены и сцены, дополненной концептами данного предложения.

Объекты считаются совместимыми, если выполняется:

Отношения считаются совместимыми, если

Предлагаемый подход позволяет добиться следующих основных преимуществ по сравнению с существующими методами:

Возможность представления смыслового контекста связного текста за счет использования механизмов представления и обработки знаний, с поддержкой уточнений, разрешением противоречий и пр.

Возможность построения углубленного межфразового контекста, с возможностями «многократного прочтения» и обработки информации, поступающей онлайн, когда пришедшая позже фраза меняет смысл предыдущих, и требуется заново пересмотреть понимание текста с учетом вновь полученной информации.

Использование открытой модели предметной области, что дает возможность в полной мере использовать знания эксперта, давая ему мощный инструмент настройки и пополнения онтологии знаниями о предметной области в процессе работы.

загрузка...