Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович
1. Скорость работы системы от объема задачи (число концептов). 2. Требуемое количество агентов (среднее/пиковое) – объем задачи. 3. Типы комбинаций концептов онтологии (%). 4. Количество комбинаций определенного типа для онтологии порядка 1000 концептов, и набора документов порядка 10000 штук. 5. Распределение для каждой комбинации встречающихся вариантов изменения онтологии. 6. Причины возникновения некорректных гипотез. Основные результаты и выводы: 1. Учет затрат времени человека-эксперта примерно в 4 раза увеличивает общее время работы системы. (При этом качество результатов, оценочно возрастает примерно на 55%). 2. В результате предложенных изменений, которые принимались экспертом-онтологом, онтология выросла примерно на треть (32%). 3. С помощью данных алгоритмов даже с учетом работы эксперта можно успеть качественно пополнить онтологию примерно за 1-2 рабочих дня. В случае, если б работа полностью осуществлялась вручную, по оценкам это в среднем занимает от одной до полутора недель. 4. Наиболее частыми комбинациями, встречающимися при кластеризации и нахождении зависимостей, стали «два несвязанных объекта», «объект плюс отношение», «два объекта, связанные отношением», «два атрибута одного объекта» и «объект плюс чужой атрибут». На их долю пришлось порядка 74% от общего числа найденных комбинаций. 5. Наилучшие результаты, почти всегда ведущие к пополнению онтологии, показали такие типы комбинаций, как наличие двух несвязных объектов (требуют связи отношением) – 14% погрешности, объект с «повисшим» отношением (требует новый объект в онтологию) – 26% погрешности. В четвертом разделе рассматривается типовая прикладная задача в сфере интеграции профессиональных знаний - задача мониторинга релевантной информации в Интернете в области малых космических аппаратов с целью поддержки принятия решений в промышленном проектировании образцов новой техники. Анализ тенденций развития космических технологий показывает, что одним из наиболее перспективных путей их совершенствования является применение малых космических аппаратов (МКА) и систем на их основе. Побудительным мотивом для перехода от создания и использования крупных универсальных спутников к МКА стал прорыв в электронике, двигателестроении, в области создания новых конструкционных материалов и др. областях, что позволило получить такие преимущества, как низкая стоимость и малый срок создания, что ведет к уменьшению финансовых рисков и возможности использования МКА как «полигона обкатки» новых космических технологий. В силу перспективности МКА для космической промышленности России в рамках анализа существующих и планируемых решений, имеющихся на мировом рынке и предлагаемых странами-партнерами и конкурентами, становится необходимым постоянный мониторинг имеющейся и появляющейся информации, и особенно, в связи с все возрастающей популярностью Интернета, анализ электронных документов – новостных лент, специализированных порталов, блогов. Имеющиеся на текущий момент технологии поиска и метапоиска, включая поиск по ключевым словам, поиск с использованием операндов булевой алгебры, поиск с расстоянием, построение нового запроса на базе предыдущего, поиск в определенных полях html-документа и морфологический поиск все равно не обеспечивают основного – они не дают возможность проанализировать семантику документа, выявить его реальный смысл (который зачастую противоречит указанным в нем ключевым словам, т.к., например, они были указаны с целью занятия более высокого положения в поисковых системах) и определить актуальность предлагаемой информации. Была разработана метапоисковая система, позволяющая в удобной форме специфицировать интересующую предметную область (в данном случае – космические технологии и МКА), наполнить ее предметно-ориентированными знаниями и получить возможность анализировать возвращаемые поисковыми системами тексты с точки зрения семантики, отделяя релевантные тексты от ошибочных, анализируя степень релевантности текста запросу, осуществлять мониторинг сайтов. С помощью методов автоматизированного построения онтологий на основе набора текстов, выданных поисковыми системами по популярным запросам в данной области, создана онтология малых космических аппаратов. Выделены классы МКА – мини, микро, нано, пико, фемто. Для каждого из классов найден набор имен существующих спутников (в частности, для класса мини это наши спутники класса COSMOS (2337-39, 2390-1 (2002), 2384-6 (2001) и пр.) и GONETS (12-14 (2001), D1-1-3 (1996) и пр.), американские SORCE (2003), RHESSI, серия GLOBALSTAR M, японский MDS-1 и т.д.). Выделены параметры малых спутников, в том числе масса, полезная нагрузка, габариты, форма, бортовая и полезная емкость, тип орбиты, источники питания, каналы связи, типы двигателей \ горючего, датчики, стабилизация, тип оборудования, тип миссии и пр., Для каждого из параметров выделены возможные значения, например, для propulsion возможные значения – chemical rocket, bipropellant, air-breathing engine, monopropellant, resistojet, electric propulsion, ion thruster, solar sail, aerobraking, nuclear reactor и пр. (более 30 значений) Также выделены типы ракетоносителей и их названия (например, для heavy lift launch vehicles – Ariane 5, Protone D1, Titan III-IV, Zenith Sealauncher и пр.), наземных баз, организаций. Также в онтологию добавлен ряд типовых названий (имена стран, названия фирм, организаций и университетов, конференции, ученые и пр.). Всего в системе порядка 2000 концептов, из них ~15 отношений, ~300 объектов. С учетом всех значений атрибутов и синонимов, общее количество слов в тезаурусе порядка 15 тысяч. Для импортируемых документов из поисковых систем по набору запросов-критериев на основе онтологии предметной области создаются семантические дескрипторы, отражающие смысл сайта. Далее происходит сравнение семантических дескрипторов критериев отбора и документов на основе онтологии предметной области (Рисунок 6). По степени соответствия выставляется рейтинг, который используется для отсечения нерелевантных документов. Рисунок 6 – Представление сайта в виде семантического дескриптора и онтологическое сравнение с поисковым запросом В процессе экспертного сравнения качества результатов на наборе тестовых выборок, проанализированных вручную, показано, что степень отбора релевантных документов достигает 85-90%, во всех исследованных примерах разработанная система позволяла существенно улучшить результаты с точки зрения семантики сайтов \ документов, интересующих пользователя, четко разделяла релевантные и нерелевантные сайты и корректно упорядочивала релевантные сайты по степени соответствия пользовательскому запросу Предложенная система, в которой сочетаются разработки в области систем понимания текста на естественном языке и извлечения знаний, является уникальным примером процесса интеграции знаний, ориентированным на конкретного пользователя, предоставляя механизмы для формализации и структурирования предметных областей, интеллектуального поиска, анализа и классификации сайтов и документов. В сочетании с предлагаемыми методами анализа и формирования знания, система способна решать основные проблемы, стоящие в текущий момент перед Интернет-сообществом, и может служить основой для общеинтеграционной платформы систематизации, обобщения и анализа научно-технических и производственных знаний в самых разных предметных областях. В пятом разделе рассматривается ряд прикладных задач в сфере промышленного производства и других областях, решенных с использованием предлагаемых методов и средств, а также проводится сравнение с имеющимися аналогами. Проблема автоматической обработки, преобразования и коррекции логистических сообщений стандартных форматов обмена бизнес-данными. С целью интеграции информационных служб промышленных компаний-партнеров используются стандартные форматы обмена бизнес-данными (ANSI X12, EDIFACT, XML и пр.). Проблема перевода сообщений между различными форматами решается путем ручного конструирования схемы преобразования форматов с помощью некоторой программы интеграции приложений (например, BizTalk). Сложность такого решения состоит в том, что требуется серьезный предварительный экспертный анализ, помогающий выяснить семантические соответствия полей различных форматов. В случае же, если формат был адаптирован под нужды фирмы, или в рамках стандартного формата происходит интерпретация полей, специфичная только для данного клиента, процесс выявления соответствий может быть очень сложен и долог. На текущий день, по оценкам экспертов, построение соответствия одного раздела формата в рамках пакета стандартов занимает около недели. На то, чтобы полностью интегрировать информационные службы двух компаний, уходит не менее полугода, что является очень дорогостоящим решением, к тому же не отвечающим предъявляемым рынком требованиям к динамике и скорости реакции. Основной идеей предложенного подхода является введение «промежуточного» уровня – онтологии, хранящей знания о предметной области, т.н. нейтрального формата. Таким образом, знания, представленные в любом формате, хранятся в специальной внутренней структуре, не зависящей ни от структуры формата, ни от платформы. Подобная архитектура позволяет осуществлять перевод из формата в формат естественным образом – как только построено соответствие между новым форматом и онтологией, обеспечивается возможность коммуникации между всеми уже зарегистрированными форматами. Предложенные в диссертации методы помогли автоматизировано построить начальную версию онтологии нейтрального формата, покрывающую семантику различных форматов данных. В дальнейшем использование эвристических правил исправления на основе онтологии предметной области с поддержкой методов понимания текстов на естественном языке позволило подстраиваться под вариации имеющегося формата, определяя по контексту смысл неизвестного поля в процессе регистрации нового формата. А алгоритмы кластеризации, объединяя типовые значения полей и давая возможные корректные варианты и их вероятность, позволили осуществлять автоматизированное исправление значений в поступающих сообщениях в режиме онлайн. Задача классификации профессиональных, деловых, и научно-технических документов. У крупной страховой компании возникла задача классифицировать группы семантически схожих документов (страховых договоров), для построения на их базе документа-образца (например, необходимо все договора по страхованию автомобиля автоматически разделить на группы, т.к. условия сильно отличаются в зависимости от клиента – возраст, пол, история вождения, доход и пр., учесть аналогичные договора конкурирующих фирм, и для каждой группы схожих страховых договоров сформировать шаблон типового договора, включающий наиболее удачные пункты документов группы). Для решения данной задачи был предложен подход, основанный на разрабатываемых в работе методах – а именно: на основе выборки документов была автоматизированным образом построена онтология предметной области. Далее все документы получили семантические дескрипторы. Затем с помощью алгоритма кластеризации была сформирована иерархия групп документов. Для каждой группы, на основе эвристических правил, заданных в онтологии и статистики частности использования терминов и ключевых абзацев, формировался документ-шаблон. При анализе качества результатов приведем реальные цифры, выявленные при решении данной задачи для страховой компании. Имелось 25 000 различных договоров и соглашений в области страхования. В среднем один документ в формате MS Word имел объем порядка 30 страниц. По предварительным оценкам фирмы заказчика, на решение задачи классификации и формирования шаблонов групп документов им должно было потребоваться порядка 16 человеко-лет. С помощью разработанной программы задачу удалось решить в 30 человеко-месяцев – 6.5 раз быстрее. Разработанные в диссертации методы, в том числе метод понимания текста, обеспечивающий поиск и классификацию документов, и метод кластерного анализа, использующийся для извлечения знаний и нахождения зависимостей, достаточно универсальны и применимы в различных предметных областях, причем настройка осуществляется путем изменения онтологии предметной области, не затрагивая алгоритмы. Поэтому они способны решать задачи и вне сферы промышленного производства, характерными примерами чего могут служить проблема семантико-ориентированного поиска и проблема анализа действий пользователя в рамках Интернет-портала, рассмотренные ниже. Проблема семантико-ориентированного поиска в информационно-поисковой системе MEDLINE. Доступная в Интернете БД MEDLINE ежегодно пополняется более чем миллионом статей, посвященных современным проблемам биологии, химии, медицины. Для нахождения рефератов используется механизм поиска по ключевым словам, который, как показала практика, является поверхностным и весьма неточным, в изобилии предлагающим пользователю избыточную информацию и зачастую пропускающим необходимую. Становится востребованным другой механизм поиска, ориентированный на семантику предметной области и допускающий запросы вида: «Нас интересуют результаты экспериментов класса «А», причем только такие, в которых воздействию подвергался объект «Б», имеющий свойства «В» и «Г», при этом длительность этого процесса не превышала «Д»». Для решения проблемы был предложен новый подход, основанный на механизмах понимания текстов на естественном языке. В данном подходе посредством начального анализа текстов предметной области была построена онтология молекулярной биологии, которая затем валидировалась экспертом. На основе данной онтологии каждому документу, получаемому по исходному запросу к БД, ставился в соответствии семантический дескриптор, и далее система позволяла определить степень релевантности статьи запросу на основе сравнения дескрипторов с помощью онтологии. Сравнивая результаты системы со статьями, вручную проверенными и отобранными экспертами, было показано, что подобный подход позволяет добиться точности от 82 до 90% в отборе правильных рефератов (зависит от типа запроса), и порядка 5-8 % ошибки в процессе отсечения неправильных. На выполнение конкретного практического задания заказчиков-биологов по оценке вручную требовалось порядка 4 человеко-лет, с помощью разработанной системы удалось решить задачу за 8 человеко-месяцев, т.е. более, чем в 6 раз быстрее, тем самым высвободив ценные человеческие ресурсы и сэкономив значительные средства. |