Delist.ru

Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах (31.01.2008)

Автор: Харламов Александр Александрович

Харламов Александр Александрович

Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах

05.13.01 «Системный анализ, управление и обработка информации»

Автореферат диссертации на соискание ученой степени

доктора технических наук

Москва 2008

Работа выполнена в Институте высшей нервной деятельности и нейрофизиологии Российской академии наук.

Официальные оппоненты:

доктор технических наук, профессор Галушкин Александр Иванович

доктор технических наук Женило Валерий Романович

доктор технических наук Лакаев Анатолий Семенович

Ведущая организация:

ФГУП Научно исследовательский институт микроэлектронной аппаратуры «Прогресс», г. Москва

Защита состоится 29 апреля 2008 года в 14-00 на заседании диссертационного совета Д 212.133.01 в Московском государственном институте электроники и математики по адресу: 109, Москва, Большой Трехсвятительский пер., д. 3/12

С диссертацией можно ознакомиться в библиотеке института

Автореферат разослан «___» ____________ 2008г.

Ученый секретарь

Диссертационного совета к.т.н., доцент С.Е. Бузников

Общая характеристика работы

Актуальность темы диссертации: В настоящее время успешно решаются отдельные задачи из области распознавания образов: известны коммерческие системы распознавания речи, распознавания изображений, автоматического анализа текстов. Степень успешности решения этих задач зависит от степени формализованности описания предметной области. Так, хорошо распознаются изображения символов – букв и цифр, менее успешно, но все же решена задача распознавания изображений лиц. Решена задача распознавания изолированно произнесенных команд. Успешно решена задача выявления грамматических и синтаксических ошибок в тексте.

Более сложные задачи – распознавание изображений сцен, диктовка текстов с микрофона, автоматическая классификация текстов – далеки от решения. Существующие системы лишь демонстрируют уровень сложности этих задач. Трудности, возникающие при решении этих задач, определяются, в том числе, существенной неоднозначностью анализируемой информации, что приводит к формированию большого числа гипотез, проверка которых, в случае обработки больших объемов информации становится нетривиальной задачей, а иногда и не решаемой в рамках разрешения применяемых методов.

Естественным способом улучшить ситуацию в задачах распознавания является использование семантической и прагматической информации, которая является фильтром, позволяющим ограничить число гипотез, возникающих комбинаторно в системах распознавания на нижних уровнях принятия решений. Такими нижними уровнями для системы распознавания изображений являются уровень элементарных представлений, уровень элементов объектов, и уровень объектов. В задачах распознавания речи и анализа текстов это – морфологический, лексический и синтаксический уровни представления и обработки информации.

В настоящее время сложность методов представления семантической и прагматической информации как металингвистическими, так и образными средствами практически не позволяет эффективно использовать эту информацию для решения задач распознавания образов.

В рамках научного направления искусственный интеллект предпринимались и предпринимаются многочисленные попытки использования семантической и прагматической информации, в основном, для решения задачи человеко-машинного общения на естественном языке. Широко известна работа Попова Э.В. в этом направлении. Однако, по его мнению, успех работы был обусловлен исключительно тем, что семантическая картина мира была заменена жесткой структурой реляционной базы, данные из которой и интерпретировались на естественном языке. В настоящее время предпринимаются попытки интерпретации естественно-языковых высказываний в терминах понятий и их отношений. Но большая неоднозначность этих интерпретаций, возникающая в силу многозначности языковой модели мира, не позволяет автоматически формировать модель мира на основе текстов.

Менее известны способы использования семантической информации для распознавания изображений. В качестве модели мира для анализа сцен использовалась квази-3d сцена, на которой отдельные объекты представляются обобщенными геометрическими формами: шариками, цилиндрами. С помощью этого представления осуществляется сегментация и идентификация объектов сцены, которые далее описываются метаязыковыми терминами, так же как и отношения между ними, и их динамика.

Разработка методов представления информации семантического и прагматического уровней, одинаково удобных для использования, как в задачах распознавания языковых образов, так и изображений, является ключевым моментом как в улучшении качества, так и в улучшении функциональности указанных систем распознавания, а также в переходе на следующий этап разработки интеллектуальных систем – этап создания интегрированных многомодальных систем обработки и хранения информации – интегральных роботов. Существование этих задач заставляет искать новые подходы к методам представления и обработки информации различных модальностей – речевой, зрительной, а также надмодальной (семантической, прагматической) информации.

Для решения задач такого типа необходим комплексный интегральный подход, позволяющий использовать и многомодальную и надмодальную информацию, при помощи которого можно построить общую методологию обработки информации указанных типов, сформированную на основе общей математической модели. Она должна содержать методы удобного представления информации и эффективного доступа к ней, а также - структурной обработки информации, в том числе выявления внутренней структуры информации.

На основании этого, составными частями такого подхода должны стать методы обработки речевой информации, обработки изображений, анализа текстовой информации, представления семантической и прагматической информации.

Для практического подтверждения правильности выбранных методов необходимо отработать их применение на обработке реальной информации, для чего необходимо разработать программные реализации систем распознавания речи и изображений, а также анализа текстов, включающих представление семантической и прагматической информации. Реальная интеграция представления информации различных модальностей, а также надмодальной информации может быть эффективно осуществлена на основе аппаратной реализации указанных методов.

Поскольку до настоящего времени ни один из этих вопросов не решался в совокупности со всеми остальными, можно считать, что решение такой проблемы весьма актуально.

Целью диссертационной работы является:

Целью настоящей диссертационной работы является выявление эффективных способов представления многоуровневой структурированной информации различных модальностей (изображения, речь, текст), адекватных представляемой информации, позволяющих естественным образом воспроизводить структуру информации так, как это происходит в мозгу человека. Указанные способы должны позволить осуществлять эффективное представление, как информации различных модальностей, так и надмодальной информации, в том числе, семантической и прагматической.

Выбранные способы представления и обработки информации должны позволять осуществить единое интегрированное представление многомодальной и надмодальной информации, каковая, являясь многомодальной моделью мира, или ее частью – фреймом, сценарием – позволит фильтровать комбинаторные гипотезы, возникающие на разных уровнях в разных модальностях.

Достижение поставленной цели предполагает решение ряда задач теоретического, методического и практического характера. В том числе задач:

разработки теоретических основ и формализации процесса нейросетевой обработки информации;

формализации нейросетевого представления и обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;

разработки методов и алгоритмов для структурной нейросетевой обработки изображений, речи, текстов;

разработки методов аппаратной реализации эффективного представления и нейросетевой обработки информации.

Для достижения поставленных задач необходимо провести следующие исследования:

рассмотреть существующие подходы к обработке и распознаванию информации различных модальностей, а также надмодальной: семантической и прагматической информации, и на их основе разработать единое математическое описание для представления в наиболее общей форме технологии обработки информации, описания эталонов, методов распознавания;

загрузка...