Delist.ru

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович

Среди российских работ можно выделить труды Ю.Д. Апресяна, Б.Ю. Городецкого, Ю.А. Загорулько, Н.Н. Леонтьевой, Н.В. Лукашевич, М.Г. Мальковского, И.А. Мельчука, А.С. Нариньяни, Г.С. Осипова, Э.В. Попова, В.А. Тузова, С.Д. Шелова и др.

В области кластеризации данных – труды И.З. Батыршина, Ж. Бола, В.Н. Вагина, Б. Дюрана, В.И. Городецкого, Н.Г. Загоруйко, Дж. Вэн Райзина, R. Agrawal, A. Maedche и др.

Необходимо также отметить, что данная диссертационная работа базируется на работах В.А. Виттиха, сформулировавшего принципы онтологического анализа и синтеза, применяемые в процессе познания, и П.О. Скобелева, выработавшего принципы создания открытых мультиагентных систем для поддержки процессов принятия решения в сложных системах.

Но, несмотря на актуальность методов по работе со знаниями и обработке текстов на естественном языке, нужно отметить, что известные публикации в большинстве своем носят либо концептуальный характер и не предлагают конструктивных подходов, либо относятся к частным методам (например, построение тезаурусов, работа с шаблонами, кластеризация числовых полей и др.).

В то же время с точки зрения инструментальных средств ситуация значительно хуже. Не только не существует единой инструментальной среды, обеспечивающей все шаги процесса интеграции и приобретения знаний, но и имеющиеся системы, ориентированные на решение подзадач, обладают целым рядом ограничений, существенно уменьшающих эффективность их практического использования.

, DOE, KEA, LTG, OntoLearn, Promethee, SIMER+MIR, SOAT, SubWordNet, SVETLAN, TFIDF, TERMINAE, Welkin для задач автоматизированного построения/поддержки онтологий, HPSG, SFG, LFG, SAM, ПОЭТ, ИВОС, InterBase, KRITON, ТАКТ, DocMiner, Enkata, Intellexer, Inxight, Ontos, Text Analyst, SAS Text Miner, Clearforest, dtSearch, TEMIS, VantagePoint – для анализа текстов на естественном языке, LSA/LSI, STC, Bayesian classifiers, Single Link, Complete Link, Group Average, Scatter/Gather, K-means, CI, Concept vector-based clustering, SOM, Clusty, Quintura, Nigma, Vivisimo Search Platform, iBoogie, CarrotSearch – для кластеризации документов.

К сожалению, для каждой группы программных систем можно выделить ряд принципиальных недостатков, включая необходимость существенной ручной предобработки данных человеком-экспертом; невозможность анализа всего набора текстов с точки зрения семантики предметной области; зависимость качества результатов от языка документов; отсутствие открытой модели предметной области, позволяющей в полной мере использовать знания эксперта и пополнять ее в процессе работы; ограниченность работы с семантическими сетями; непрозрачность и неинтерактивность алгоритмов; критичность к наличию «мусорной информации»; зависимость качества результатов от изначальной предпосылки – догадки о «правильной структуре»; нетерпимость к наличию неполной или противоречивой информации.

Поэтому задача интеграции знаний по-прежнему является актуальной, и разработка инструментальной системы для интеграции профессиональных научно-технических знаний, представленных на естественном языке, представляется важной задачей для данной диссертационной работы.

Предмет исследования составляют процессы обработки информации, направленные на интеграцию научно-технических знаний.

Цель исследования состоит в разработке теоретических основ и инструментальных программных средств для решения проблемы интеграции научно-технических профессиональных знаний, представленных в виде текстов на естественном языке, в сфере промышленного проектирования и производства.

Для достижения поставленной цели в работе решаются следующие задачи:

Построить обобщенную логическую модель приобретения научно-технических знаний, позволяющую формализовать и применять знания эксперта с учетом промышленной и производственной специфики; разработать принципы онтологического подхода, позволяющего реализовать все этапы процесса приобретения и интеграции знаний в рамках единой методологии и концептуальной модели (онтологии).

Разработать метод автоматизированного конструирования начальной онтологии предметной области.

Разработать метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области с целью представления семантики документа.

Разработать методы получения, анализа и обработки научно-технической информации, представленной в виде семантической сети, в том числе механизмы сравнения, поиска, структурирования и классификации с помощью кластерного анализа.

Разработать метод самокоррекции и саморегуляции системы путем автоматизированного уточнения и пополнения знаний, представленных в терминах онтологии.

Разработать архитектуру системы и программно-инструментальную среду для работы со знанием, реализующую предложенные методы.

Выработать критерии оценки и провести исследование параметров и качественных характеристик разработанных методов и средств работы со знаниями, выработать рекомендаций по их применению.

Оценить эффективность предложенных методов и средств при решении ряда практических задач в сфере промышленного проектирования и производства, и других применениях.

Методы исследования. Использованы теория и методы системного анализа, компьютерной лингвистики, эпистемологии, теории кластерного анализа, методы конструирования онтологий, теории графов, математической статистики, проектирования систем баз данных и знаний, структурного и объектно-ориентированного проектирования и программирования.

Научная новизна выполненных исследований заключается в развитии теоретических основ построения систем извлечения знаний и обработки неструктурированной информации на естественном языке:

Новизна предложенного онтологического подхода к решению задачи интеграции профессиональных научно-технических знаний состоит в использовании единой методологии, основанной на концептуальной модели эксперта, для реализации всех шагов цикла приобретения и интеграции знаний, что обеспечивает индивидуализацию процесса и учет целей эксперта.

Новизна предложенного метода автоматизированного построения онтологии предметной области заключается в итеративном анализе строящейся онтологии с помощью предложенного мультиагентного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов, что обеспечивает механизмы самокоррекции и саморегуляции в процессе построения начальной онтологии предметной области.

Новизна предложенного метода преобразования неструктурированной информации на естественном языке в семантическую сеть в терминах онтологии предметной области заключается в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения и всего документа, что дает возможность представлять смысл научно-технического текста в виде семантических сетей, обеспечивает механизмы уточнения семантики в режиме реального времени по мере поступления новой информации и предоставляет механизмы сравнения семантики связных профессиональных текстов.

Новизна предложенного метода кластерного анализа состоит в реализации его на основе агентных механизмов переговоров, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пакетном режиме так и в режиме реального времени, а также дает возможность работы с неструктурированными квантами информации, представленными в виде семантических сетей.

Новизна метода автоматизированного пополнения онтологии состоит в использовании мультиагентного кластерного анализа групп семантически схожих документов для выявления закономерностей, позволяющих уточнять онтологию предметной области, улучшая качество представления, поиска и анализа документов.

Новым является предложенная архитектура инструментальной среды онтологического анализа и синтеза, основанная на субъектно-ориентированной модели приобретения знания с применением агентных взаимодействий, и заключающаяся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, что обеспечивает полный цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации.

Практическая значимость. Научные результаты работы явились основой создания инструментальной среды онтологического анализа и синтеза, включающей подсистемы формирования, накопления, использования, анализа и пополнения разнородных знаний, необходимые для решения прикладных задач в сфере промышленного производства; предложены адекватные этим целям инструментальные программные средства.

Созданные программные инструментальные средства для реализации методов автоматизированного конструирования онтологий, обработки и представления информации, анализа результатов и пополнения знаний применяются в задачах мониторинга проектно-конструкторской информации в Интернет, логистики, поисковых и метапоисковых системах, системах классификации документооборота, онлайн-анализа и других применениях, поскольку использование созданного инструментария повышает скорость анализа и обработки информации, сокращает стоимость и сроки работ, увеличивает производительность и функциональность используемых систем.

Разработанные инструментальные средства имеют открытую архитектуру, гибкие механизмы импорта\экспорта, прозрачную процедуру настройки на любую предметную область посредством адаптации онтологии без необходимости изменения программного кода, что делает систему доступной экспертам предметных областей и открывает широкие перспективы как интеграции разработанных программных средств с имеющимся инструментарием, так и использования системы в тех научно-технических задачах, где актуальна проблема эффективного и оперативного анализа и приобретения научно-технических знаний, представленных в виде текстов на естественном языке.

Реализация работы. Результаты диссертационной работы нашли применение при выполнении научно-исследовательских работ:

по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2004-2006 гг. (раздел VI, тема «Онтологический анализ и синтез в процессах принятия решений», гос. рег. № 0120.0403300);

по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2000-2003 гг. (раздел III «Управление и автоматизация», тема «Разработка основ теории управления сложными открытыми системами с применением компьютерного представления и обработки знаний», гос. рег. № 0120.0110152);

по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 1996-2000 гг. (п. 3.1.2 «Разработка моделей управляемых процессов, методов прогнозирования экономической эффективности и социальных последствий», тема «Разработка методов и средств построения теорий артефактов для компьютерной интеграции знаний и автоматической генерации моделей объектов управления», гос. рег. № 01.9.60002398).

Прикладные разработки, связанные с проведением онтологического анализа и онтологического синтеза систем и созданием предметно-ориентированных пакетов прикладных программ выполнялись как в рамках перечисленных научных программ, так и по договорам с предприятиями на проведение НИОКР:

с ФГУП ГНПРКЦ «ЦСКБ-ПРОГРЕСС» по созданию системы интеллектуального метапоиска в сети Интернет для оперативного нахождения и мониторинга релевантной информации в области малых космических аппаратов (2007г.);

с ООО «Научно-производственная компания «Маджента Девелопмент», г. Самара (1999-2007 гг.), при разработке систем извлечения знаний и понимания текстов на естественном языке;

По результатам разработок подготовлен учебный курс «Мультиагентные системы», включающий цикл методических пособий и лабораторных работ, внедренный в учебный процесс в Самарском государственном аэрокосмическом университете и Поволжской государственной академии информатики и телекоммуникаций.

Апробация. Основные положения и результаты работы докладывались и обсуждались на международных и национальных конференциях и семинарах, в том числе: I-IX-ой Международных конференциях по проблемам управления и моделирования сложных систем (Самара, 1999 – 2007), 2-м Международном семинаре «Автономные интеллектуальные системы: извлечение знаний из данных и интеллектуальные агенты» (AIS-ADM 07, Санкт-Петербург), 6-й Международной конференции по телекоммуникациям и информатике (WSEAS TELE_INFO ’07 Даллас, США), 5-й Международной объединенной конференции по автономным агентам и мультиагентным системам (AAMAS-06, Хакодате, Япония), 1-й Международной конференции «Бизнес: информация, организация и менеджмент» (BIOPoM 2006, Лондон, Великобритания), Международной научной конференции «Интеллектуальные системы принятия решений и прикладные аспекты информационных технологий» (ISDMIT'2005, Херсон), Международной конференции «ИТ в бизнесе» (ITIB2005, Санкт-Петербург), Международной конференции по развитию инфраструктуры электронного бизнеса, науки, образования и медицины в Интернет (Аквила, Италия, 2002), 3-м Международном семинаре по новым информационным технологиям (CSIT’2001, Уфа), VII Национальной конференции по искусственному интеллекту (Переславль-Залесский, 2000).

Публикации. По теме диссертации опубликовано самостоятельно и в соавторстве свыше 50 работ, в том числе в перечне, рекомендованном ВАК – 13; а также 3 авторских свидетельства об официальной регистрации программ для ЭВМ. Опубликованные материалы отражают основное содержание диссертации.

загрузка...