Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович
Общая синтаксическая корректность концепта онтологии: Концепт онтологии исключается в случае, когда вычисляется, как Вклад концепта в смысл документа: Термин понят неудовлетворительно и ухудшает общее понимание текста в случае: Предлагаемый подход к автоматизированному построению онтологии позволяет добиться следующих основных преимуществ по сравнению с существующими методами: Не требуется построение начальной онтологии предметной области человеком-экспертом в качестве базиса для дальнейшей работы. Не требуется предобработка человеком-экспертом документов предметной области (включая стандартизацию шаблонов, преобразование форматов, предварительную разметку текста, составление вручную словаря терминов предметной области и пр.). Процесс построения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены. Процесс построения онтологии не зависит от языка документа, за исключением поддержки синтаксических онтологий для разных языков. Процесс построения онтологии итеративный, всегда существует обратная связь с возможностью проверить семантику сгенерированной онтологии автоматическим путем, когда уже построенная часть онтологии сама является основой для анализа семантической корректности предлагаемых изменений и дополнений. При этом процесс саморегулирования автоматизирован и может обходиться без человека-эксперта. Анализ и вычленение терминов с учетом их семантики происходит в рамках всего корпуса текстов, он не ограничивается анализом индивидуальных предложений. Поддерживается возможность работы с множеством документов из нескольких слабосвязанных предметных областей за счет предварительного этапа автоматической предобработки алгоритмом кластеризации. Алгоритм может работать как автономно, так и в интерактивном режиме, причем пользователь может повлиять на формирование решения на каждом из этапов работы. 2. Восприятие/Отражение – Представление информационных квантов в терминах онтологии предметной области – метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области, основанный на применении механизмов мультиагентного взаимодействия квантов знаний, позволяющих в процессе переговоров реконструировать смысл предложения, и использовании построенных онтологий для хранения межфразового контекста, тем самым дающий возможность представлять смысл связного текста и обеспечивающий механизмы сравнения семантики документов. Суть предлагаемого подхода состоит в том, что каждому слову языка ставятся в соответствие агенты его смыслов, которые на основе собственных баз знаний (онтологий) конкурируют между собой и кооперируются, договариваясь о том, какой именно конкретный смысл имеет каждое слово в предложении и каков его общий смысл. В результате, основной моделью процесса понимания смысла становится процесс самоорганизации смыслов слов при построении сцены контекста, что принципиально отличает предлагаемый подход от всех на сегодня известных (Рисунок 4). Рисунок 4 – Логическая модель процесса анализа ЕЯ текста Осуществляются синтаксическое и морфологическое уточнения: Затем словосочетания объединяются между собой по правилам, приведенным в таблице 2. Таблица 2 – Создание словосочетаний (на примере союзов) Вариант объединение двух слов союзом непротиворечащие синтаксические свойства Союзы могут соединяться с другими союзами - оба союза должны присоединить к себе хотя бы одно другое слово - только прямая связь Субъектное объединение элементов перечисления с другими словами – Союзное словосочетание является либо одиночным словом, либо объединением союза и предлога Алгоритм синтаксического разбора заканчивается в одном из двух случаев: На этапе семантического разбора проверяется непротиворечивость, осуществляется дополнение и уточнение семантического дескриптора. Для каждой пары объектов осуществляется оценка возможности связи. Допустимы следующие случаи: Возможные противоречия выявляются на основе следующих правил: В случае возникновения противоречия или требуемого уточнения алгоритм возвращается на стадию синтаксического разбора. В противном случае формируется общий семантический дескриптор документа посредством слияния имеющейся сцены и сцены, дополненной концептами данного предложения. Объекты считаются совместимыми, если выполняется: Отношения считаются совместимыми, если Предлагаемый подход позволяет добиться следующих основных преимуществ по сравнению с существующими методами: Возможность представления смыслового контекста связного текста за счет использования механизмов представления и обработки знаний, с поддержкой уточнений, разрешением противоречий и пр. Возможность построения углубленного межфразового контекста, с возможностями «многократного прочтения» и обработки информации, поступающей онлайн, когда пришедшая позже фраза меняет смысл предыдущих, и требуется заново пересмотреть понимание текста с учетом вновь полученной информации. Использование открытой модели предметной области, что дает возможность в полной мере использовать знания эксперта, давая ему мощный инструмент настройки и пополнения онтологии знаниями о предметной области в процессе работы. |