Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
Автор: Минаков Игорь Александрович
4. Сложность онтологии: количество порождаемых концептов (объекты, отношения, атрибуты) – объем задачи. 5. Требуемый уровень доработки онтологии (%) от объема автоматически построенной онтологии 6. Тип доработок (%), требуемых от человека-эксперта для уточнения автоматически построенной онтологии. Основные результаты и выводы: 1. В среднем в тексте алгоритм выделяет порядка 20% слов как значимые, которые затем преобразуются в термины. 2. Для качественного построения начальной онтологии необходим анализ порядка 35 тысяч слов (около 300-400 типовых научно-технических документов) для выявления основных терминов, используемых в предметной области. Для минимально корректного реконструирования набора терминов рекомендуется брать не менее 12-15 тыс. слов. 3. При построении концептов онтологии из терминов наблюдается соотношение 4:1 – т.е. из четырех найденных терминов формируется один концепт. 4. При построении онтологии наблюдается пропорция 4:1:20, т.е. в среднем на 4 объекта приходится 1 отношение и 20 атрибутов. 5. По оценкам экспертов предметную область можно покрыть на основе порядка 2500-3000 концептов. Наши оценки показали чуть большие объемы – порядка 4000 концептов для начального покрытия предметной области (без учета добавлений человека-эксперта), и порядка 5000 после уточнений эксперта. 6. Уже простая онтология на 250 концептов требует не менее 15% дополнительных работ человека-эксперта, который уточняет и изменяет автоматически построенную онтологию. Показано, что процесс сходящийся, и даже в случае серьезных возрастаний объемов онтологии требуется не более 40% дополнительных настроек для получения окончательной работоспособной онтологии. B. Понимание текста на естественном языке – построение семантических дескрипторов Исследуемые характеристики: 1. Зависимость скорости работы системы от объема задачи (для всех этапов разбора – морфология, синтаксис, семантика, прагматика). 2. Среднее требуемое время на этап разбора (%). 3. Среднее/пиковое число агентов при обработке одного предложения – объем задачи (число слов, тыс.). 4. Среднее число изменений\дополнений в семантический дескриптор (т.е. перестройка структуры системы при разборе нового предложения) в зависимости от объема задачи. 5. Среднее время сравнения семантических дескрипторов – сложность дескриптора (число концептов и связей). Основные результаты и выводы: 1. Время на морфологию растет линейно – на данном этапе почти не осуществляется рассуждений. 2. Аналогичным образом линейна часть, связанная с прагматикой – т.к. она зависит только от сложности окончательно сформированного дескриптора. 3. Часть, связанная с синтаксисом, растет квадратично – связано с использованием агентных переговоров и множественностью вариантов разбора. 4. Наиболее сильно, хотя и по-прежнему квадратично, растет время, требуемое на семантический этап. Это согласуется с логикой алгоритма – большее число ветвей понимания предложения, уточнения смысла и пересмотра ранее распознанной сцены, что подразумевает возврат и повторный анализ предыдущих предложений. 5. При оценке пикового числа агентов выяснилось, что вне зависимости от объемов задачи, оно примерно совпадает, что противоречит теоретическим выводам. Таким образом, согласно нашим алгоритмам всегда есть некая «допустимая глубина перестройки», далее которой система не позволяет изменять смысл всего текста – ограничение текущей версии алгоритма. 6. Среднее число изменений и дополнений в семантический дескриптор растет с ростом размерности задачи, т.к. изменения не уходят «в глубину», а затрагивают непосредственно концепты, чей смысл изменяется с новой информацией. 7. В среднем новый объект в сцене обновляет 4-5 связей \ значений атрибутов, при этом глубина обновлений достигает 3 уровней (уровень – появление объекта \ уточнение значения). С. Кластеризация и извлечение знаний Исследуемые характеристики: 1. Зависимость скорости работы системы от объема задачи (точная кластеризация, кластеризация по диапазону, кластеризация семантических дескрипторов) 2. Среднее/пиковое число агентов при обработке одной записи – объем задачи (число записей). 3. Количество порождаемых кластеров – объем задачи (однокластерный и многокластерный случаи). 4. Уровень иерархии и размерность кластеров – объем задачи. 5. Среднее число изменений связей в зависимости от шага кластеризации. 6. Количество «значимых» кластеров в зависимости от объема задачи Основные результаты и выводы: 1. Среднее число агентов (и, соответственно, время) на обработку одной записи растет медленно и линейно с ростом размерности задачи, при этом пиковое время растет квадратично. 2. По мере возрастания числа записей, рост числа кластеров и в однокластерном, и особенно в многокластерном варианте начинает затухать. Это означает, что система приходит к динамическому равновесию. 3. Среднее число изменений связей при приходе новой записи коррелирует со средним числом задействованных агентов (в среднем изменение решения одного агента влечет за собой пересмотр 4-5 связей) и тоже возрастает по линейному закону. Но в случае «пика», т.е. прихода записи, которая повлекла за собой серьезную перестройку структуры, данный график коррелирует с пиковой нагрузкой по агентам, и возрастает по полиномиальному закону. 4. Вне зависимости от объема задачи, число значимых правил составляет порядка 20-25 % от общего числа найденных правил, из них тривиальными (т.е. сразу очевидными эксперту за счет дополнительных знаний о предметной области), является порядка 60% D. Автоматизированное пополнение онтологии Исследуемые характеристики: |