Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах (31.01.2008)
Автор: Харламов Александр Александрович
Подавая на вход акустико-фонетического уровня обучающую выборку, состоящую из множества предложений, после их взаимодействия со словарем фонем на акустико-фонетическом уровне и словарем основ слов на лексическом уровне, мы получим на входе синтаксического уровня множество синтаксем, состоящих из последовательностей предлогов и флективных морфем с купюрами вместо отфильтрованных корневых основ. Семантика выходит за рамки языкового представления. Человек оперирует не языковой, а многомодальной моделью мира. Только в таком представлении удается избежать трудностей объяснения первичных смыслов – они формируются как элементы модели мира соответствующих модальностей. Однако необходимо отметить, что семантика отражается в языке, наряду с лексической и грамматической компонентами смысла, в виде сочетаемости слов, и, в конечном итоге, в виде семантической сети. Поэтому, на этих уровнях формируются словари сочетаемости слов (точнее – основ слов). Семантическая сеть легко может быть получена из словаря пар слов. Отличие информации семантического и прагматического уровня заключается только в объеме сети. В случае представления семантической информации сеть опосредует всю модель мира. Источник знаний прагматического уровня содержит частные сети для соответствующих предметных областей (ситуаций). Обработка зрительной информации отличается от обработки речевой информации. Основное отличие заключается в наличии двух каналов обработки зрительной информации: канала, ответственного за грубое интегральное описание поля зрения, и канала, ответственного за точное описание объектов. Наиболее наглядно особенности нейросетевого подхода выявляются на примере точной обработки информации. Первичная обработка осуществляет улучшение, оконтуривание и сегментацию изображения. Изображение подвергается двум разным видам обработки: эквитекстурному анализу для реализации сегментирующей функции, и улучшению и яркостному анализу, с целью выделения контуров. В точном канале реализуются следующие уровни обработки информации: уровень элементарных представлений, уровень элементов объектов, уровень объектов, и уровень сцен. Входной информацией для точного канала является оконтуренное изображение сегмента. Обработка В зрительном анализаторе имеется две формы обработки информации: параллельная, характерная для нижних уровней анализа, и последовательная. Параллельная обработка заканчивается на этапе формирования словаря элементарных представлений на первом уровне иерархической структуры зрительного анализатора. Последовательная обработка аналогична таковой для речевого анализа. Использование однородного нейросетевого представления информации позволяет интегрировать информацию всех уровней в процессе принятия решения. Особенностью такого представления информации является возможность автоматического формирования информационных баз источников знаний на основе соответствующих обучающих выборок, при приемлемом объеме ручной работы по составлению обучающих выборок. Семантика и прагматика выходят за рамки лингвистических представлений, хотя и содержат лингвистические эквиваленты понятий - означающие. Второй компонентой семантических и прагматических структур являются элементы многомодальной модели мира – означаемые. В отличие от традиционного представления модели мира в виде различного типа тезаурусов, в работе предлагается использование означаемых в их естественном многомодальном представлении: в виде интегральной структуры, содержащей элементы разных модальностей, как сенсорных, так и эффекторных. В первую очередь это, естественно, зрительная модальность. Деление единого представления на семантику и прагматику осуществляется по динамическому принципу: все понятия модели мира объединяются в статическую ассоциативную сеть – модель мира. На этой ассоциативной сети конкретные ситуации высвечивают им соответствующие прагматические конфигурации – фреймовые структуры. И наоборот: частные прагматические фреймы в совокупности формируют модель мира. Объединенное представление информации в двух полушариях можно назвать единой семантической сетью - многомодальной моделью мира, где потенциально представлены все события и их связи, встречавшиеся на входе системы во время ее обучения. Это знание является статическим знанием. События мира в той или иной комбинации связываются в ситуации, которые высвечивают на модели мира динамически изменяющуюся структуру из слов словарей разных уровней разных модальностей - фреймовое представление [43]. В каждый конкретный момент в каждой модальности может высвечиваться только одно слово и объединение этих множеств слов, соответствующее некоторой ситуации, составляет динамическое знание - фрейм. Предложенная в работе интерпретация известного разделения фреймовых структур на фреймы-прототипы и фреймы экземпляры в терминах категориальных и функциональных знаний, где флективная структура фразы (в том числе неязыковой квазифразы), описывающей ситуацию, соответствует категориальной компоненте, а лексическое наполнение фразы – функциональной, позволяет использовать подмену многомодального семантического представления текстовым представлением. Что в свою очередь дает эффективный методический прием при обработке текстовой информации. В результате анализа в тексте выделяются некоторые подобразы, которые в дальнейшем объединяются в более сложные образы. Можно представить несколько подобных пар отношений, формируемых на текстовом представлении. Рассмотрим одну из пар представлений, в которой отдельные слова текста, представленные на нижнем уровне пары, на следующем уровне объединяются в предложения текста. При этом элементы нижнего уровня – слова – являются носителями лексической компоненты значений текстовых единиц, а предложения с купюрами вместо корневых основ, составленные из этих слов (без конкретного наполнения значением слов) – носителями грамматической компоненты значений. В многомодальной модели мира словам соответствуют события, а предложениям - сцены. Для простоты анализа, вместо формирования флективной структуры предложения анализируется частота попарной встречаемости слов (корневых основ) в предложении. Считается, что слова из текста, встречающиеся с другими в рамках одного предложения, связаны с ними. При объединении обоих текстовых компонент (слов и их попарных связей) в единое представление формируется сеть, вершинами которой являются носители лексических значений корневые основы, а связи между ними являются носителями грамматических значений. Сформированное первоначально статистическое представление текста – сеть слов с их связями - является лишь частотным портретом текста. Перенормировка сети с помощью итеративной процедуры, аналогичной алгоритму сети Хопфилда позволяет перейти от частотного портрета текста к ассоциативной сети ключевых понятий текста: -функция является нормирующим множителем. В результате такой перенормировки меняются первоначальные числовые характеристики слов. Слова, которые в сети связаны со словами с большим весом, в том числе через промежуточные слова, в результате такой процедуры повышают свой вес, вес остальных слов равномерно уменьшается. Полученная числовая характеристика слов – их смысловой вес - характеризует степень их важности в тексте. Ассоциативная сеть может быть сформирована, как для отдельного текста, так и для множества текстов. Это множество текстов может охватывать одну предметную область или соответствовать нескольким предметным областям. Ассоциативная сеть, построенная в результате такой обработки, будет содержать основные понятия предметных областей и связи между ними, ранжированные некоторыми числовыми значениями. Причем, для каждого понятия сети его ближайшие соседи являются его семантическими признаками. Такое сетевое представление может автоматически разбиваться на подсети, относящиеся к различным предметным областям. Для этого пороговым преобразованием устраняются некоторые несущественные связи, и тогда целостная сеть разбивается на несколько подсетей, объективно содержащих понятия, характерные для соответствующих предметных областей. Совершенно ясно, что если такая сеть соответствует некоторой предметной области, и если ассоциативная сеть некоторого текста вкладывается в ассоциативную сеть этой предметной области (пересекается с ней), можно говорить о том, что указанный текст относится к данной предметной области (пересекается с ней). В пятой главе описываются программные приложения, реализованные на основе нейросетевой технологии. В том числе, были реализованы системы анализа текстов, распознавания речи и распознавания изображений рукописных символов. Особенностью реализаций является единый подход к обработке информации. Во всех случаях существенно различаются только способы первичной обработки информации, которые определяются типом выбранной модальности. На основе нейросетевой технологии Научно-производственным инновационным центром «Микросистемы», г. Москва было разработано семейства программных продуктов для автоматического смыслового анализа текстовой информации TextAnalyst. Система реализована как инструмент для автоматического формирования баз знаний на основе множества естественно-языковых текстов. Ядро системы выполнено как программный компонент (inproc server), соответствующий спецификации Component Object Model (COM) фирмы Microsoft. Ядро системы реализует следующие функции. Нормализацию грамматических форм слов и вариаций словосочетаний. Автоматическое выделение базовых понятий текста (слов и словосочетаний) и их взаимосвязей с вычислением их относительной значимости. Формирование представления семантики текста (множества текстов) в форме семантической сети. В состав ядра системы, помимо блока первичной обработки, входят следующие блоки: лингвистический процессор, блок выделения понятий текста, блок формирования семантической сети, блок хранения семантической сети. Блок выделения ключевых понятий предметной области (слов и словосочетаний) создан на базе программной модели иерархических структур из ДАЗУ, и реализует алгоритмы автоматического формирования частотного словаря текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину понятия предметной области и равняется двадцати. Блок формирования семантической сети реализован как база данных, в которой представляются семантические связи понятий предметной области. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой просто ассоциативные связи. В качестве критерия для определения наличия семантической связи между парой понятий используется частота их совместной встречаемости в одном предложении. На основе результатов работы модуля индексации реализованы следующие функции обработки текстовой информации. Функции формирования гипертекстовой структуры, навигации по базе знаний, формирования тематического дерева, реферирования текстов, автоматической кластеризации множества текстов, сравнения текстов (автоматической классификации текстов). Наконец реализована функция формирования ответа на смысловой зарос пользователя – формирования тематического реферата. Реализованная система анализа текстовой информации является удобным интерфейсом для представления е-книги, а также и инструментом для ее создания. Она была использована для создания электронных книг и периодических изданий. Описана также реализованная система распознавания речевых единиц (слогов, слов), произносимых с паузами, с настройкой (обучением) на конкретного диктора, в которой для создания подсистемы представления эталонов была использована программная модель ДАЗУ. Система распознавания речи была реализована на персональной ЭВМ в виде системы диктовки для ввода информации с голоса в текстовый редактор. Данная работа была поддержана Министерством науки и технологий РФ. Система в составе двух программных модулей - модуля предобработки речевого сигнала и модуля эмуляции иерархии из ДАЗУ имеет два режима работы - обучение (формирование эталонов) и распознавание. Структура системы распознавания речи включает в свой состав аналого-цифровой преобразователь, блок вычисления быстрого преобразования Фурье, блок, реализующий перцептивное сглаживание спектра, блок вычисления автокорреляционной функции, блок линейного предсказания, блок вычисления кепстральных коэффициентов, общий регистр сдвига нейроподобных элементов ДАЗУ, а также блок оценки. Для уменьшения количества коррелированной информации и вариативности описания речевого сигнала в системе использована априорная информация о процессе порождения речевого сигнала и о психоакустических особенностях восприятия речи человеком. Для получения первичного описания речевого сигнала использован метод так называемого перцептивного линейного предсказания. Полученные в процессе первичной обработки векторы параметров далее используются при обучении для формирования фонетической базы данных. Для этого, в процессе распознавания векторы параметров подвергаются процедуре автоматической классификации. Для классификации используется нейронная сеть Кохонена. Указанный метод классификации инвариантен по отношению к содержимому векторов. Точность классификации определяется количеством нейронов выходного слоя и количеством итераций, т.е. величиной обучающей выборки. С помощью сети Кохонена происходит преобразование звуковой волны в акустический текст. При обучении сети используется фонетически сбалансированный текст, зачитанный разными дикторами. В данном случае для обучения использовался фонетически сбалансированный текст, зачитанный одним диктором. Каждое значение вектора параметров кодируется двухбуквенным сочетанием. Это удобно для нейросетевой обработки, описанной в разделе 4.1, а также для простоты визуальной интерпретации полученных результатов. Выходом этого этапа обработки является множество векторов параметров, расклассифицированное по разделам кодовой книги. Формирование фонетической базы данных (формирование системы кластеров) происходит в полуавтоматическом режиме с помощью программы TextAnalyst. В этом случае TextAnalyst реализует квази-синтаксический подуровень, который интерпретирует связи квази-слов во входном акустическом тексте в рамках его устойчивых фрагментов, а также позволяет отнести некоторый фрагмент входного сообщения к определенному классу фрагментов. Выделение ключевых фрагментов осуществляется на базе программной модели иерархической структуры из ДАЗУ, и реализует алгоритмы автоматического формирования частотного словаря акустического текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину фрагментов и равняется двадцати. После выбора классифицируемых элементов речи (фонемы, субфонемные элементы, слоги, слова и пр.) дальнейшая обработка речи носит универсальный характер. Формирование эталонов слов для дикторозависимого режима работы системы распознавания речи подразумевает сохранение эталонных реализаций в параметрической форме. Формирование эталонов происходит в соответствии с выбранным сценарием обучения системы. В режиме распознавания использовались алгоритм динамического программирования и алгоритм локального поиска. Наиболее полное применение изложенной выше теории может быть проиллюстрировано на примере реализованной системы распознавания символов. Рассмотренное на примере распознавания типографских символов, это представление может быть использовано и для распознавания изолированно написанных рукописных символов. В краткой постановке задача распознавания символов выглядит следующим образом. Исходной информацией для системы являются полутоновые изображения символов, введенные в компьютер со сканера, или с цифровой фотокамеры. Система распознавания символов включает в свой состав светочувствительную матрицу, блок предварительной обработки, два блока представления информации, состоящих из ДАЗУ (в том числе двухуровневого структурного и одноуровневого ассоциативного), а также блок принятия решения. Введенное изображение подвергается предобработке, целью которой является получение бинарного контурного изображения набора символов. Набор программных средств на этапе предобработки стандартен – улучшение качества изображения, масштабирование, фильтрация, бинаризация, выделение контура, сглаживание. |