Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах (31.01.2008)
Автор: Харламов Александр Александрович
разработать обобщенный способ описания объектов (эталонов), включающий способы его получения и методы, по которым он может быть идентифицирован. Методы исследований, применяемые в работе, основываются на использовании алгоритмов обработки изображений, алгоритмов распознавания речи, алгоритмов обработки текстовой информации, теории распознавания образов, теории графов. Достоверность результатов теоретических исследований подтверждается данными, полученными при обработке реальной информации, с применением построенных системы распознавания изображений рукописных символов, системы распознавания речи, и системы анализа текстов. Научная новизна работы заключается в следующем: разработаны теоретические основы и формализация процесса нейросетевой обработки информации с помощью одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов; разработана формализация представления и нейросетевой обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической; разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов; разработаны методы аппаратной реализации эффективного представления и нейросетевой обработки информации. Практическая ценность диссертационной работы состоит в том, что ее результаты были использованы или могут быть использованы в разработке: систем распознавания слитной речи и систем понимания речи для построения источников знаний верхних уровней; систем распознавания изображений для структурного анализа, включая автоматическое формирование эталонов разных уровней; систем анализа текстовой информации, в том числе, информационных и информационно-поисковых систем; блоков ассоциативной памяти, позволяющей реализовать быстрый поиск на больших массивах данных. Реализация результатов. Результаты исследований в виде готовых программных продуктов были использованы в организациях министерства обороны и других органах государственной власти, и на фирмах «Интеллектуальные системы безопасности», «ОАО Ангстрем-М», «Юникор микросистемы». Апробация работы. Основные положения диссертации докладывались на Международном симпозиуме «Нейронные сети и нейрокомпьютинг» NEURONET’90, Прага 1990г.; на Всесоюзном семинаре «Автоматическое распознавание слуховых образов (АРСО-16)», Москва 1991г.; на Международном совещании «Нейрокомпьютеры и внимание», Москва 1991г.; на XI Международной конференции по нейрокибернетике, Ростов-на-Дону 1995г.; на Втором международном симпозиуме «Интеллектуальные системы», С.-Петербург 1996г.; на IV Всероссийской конференции «Нейрокомпьютеры и их применение (НКП-98)», Москва 1998г.; на Международной конференции «Информатизация правоохранительных систем», Москва 1998г.; на Третьем Международном симпозиуме «Интеллектуальные системы», Псков 1998г.; на IX сессии Российского акустического общества, Москва 1999г.; на международной конференции-совещании "Новые информационные технологии из России", Берлин 2002г.; на IV Международном социальном конгрессе, Москва 2004г.; на международной конференции-совещании "Новые информационные технологии из России", Белград 2004г.; на Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы – 2005 (ИМС-2005)», Геленджик 2005г., на международной конференции-совещании "Новые информационные технологии из России", Будапешт 2005г.; на Третьем совещании Российской секции IEEE Computation Intelligence Society «Биометрические системы», Москва 2005г., на 5-х Годичных научных чтениях факультета иностранных языков РГСУ, Москва 2006г.; на конференции «Нейрокомпьютеры и их применение» (Нейро-2007), Геленджик 2007г., на конференции «Digital libraries and technology-enhanced learning: Call 3 information days», Люксембург 2007г. Публикации. Результаты работы опубликованы в 58 печатных научных трудах общим объемом 20 печатных листов, среди которых монографии, статьи в центральных журналах, труды и тезисы конференций. Личный вклад. Лично автором получены следующие основные результаты. Разработаны теоретические основы и формализация процесса нейросетевой обработки информации. Формализованы нейросетевое представление и обработка информации различных модальностей: речи, изображений, текстов, а также надмодальной информации - семантической и прагматической. Разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов. Разработаны методы аппаратной реализации эффективного нейросетевого представления и обработки информации. Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, приложений. Работа содержит 256 страниц текста, список литературы включает 143 наименования. Содержание работы. Во введении дана общая характеристика работы, отмечена ее актуальность, научная новизна и практическая ценность. Приводится краткое описание работы по главам. В первой главе изложена классификация и описание некоторых методов обработки информации различных модальностей. Рассмотрены существующие подходы к представлению и распознаванию речевой информации различных уровней, распознаванию зрительной информации, к обработке текстовой информации. А также рассмотрены вопросы представления и использования, для распознавания речи, изображений и анализа текстов, семантической и прагматической информации. Показано, что внесение знаний в искусственно-интеллектуальные системы эффективно не моделированием отдельных интеллектуальных функций, а моделированием вычислительной среды, в которой решаются интеллектуальные задачи. Интеллектуальными системами являются системы, реализующие интеллектуальные функции в рамках познавательного поведения: восприятие, обучение (формирование модели мира), мышление (использование модели для решения текущих задач), решение задач, прогнозирование и принятие решений, языковое поведение, и т.д. Следовательно, к интеллектуальным системам можно отнести информационные системы, компьютерные системы обработки естественного языка, в том числе, системы обработки текстов, в том числе, системы автоматического извлечения знаний из текстов, компьютерные системы интеллектуального анализа данных, в том числе, системы, основанные на нейросетевых технологиях: системы распознавания изображений, системы распознавания, анализа и синтеза речи. Некоторые из этих систем рассматриваются более подробно. В первую очередь, это системы распознавания речи, изображений и анализа текстовой информации. Классификация существующих систем распознавания речи позволяет разбить их на два класса: (1) одноуровневые системы, распознающие речевые события с помощью так или иначе модифицированных правил Байеса (в том числе и реализованных на нейронных сетях); и (2) системы для структурной обработки, в том числе, использующие эмпирические лингвистические правила. В настоящее время под системой распознавания речи понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач. Распознавание изолированных устно произносимых команд ограниченного словаря. Распознавание слитной речи. Понимание речи. Обычно, системы распознавания речи имеют в своем составе следующие блоки и устройства: микрофон, блок преобразования акустического сигнала в цифровую форму, блок шумоочистки, блок формирования первичного описания, блок акустико-фонетического анализа, блоки обработки верхних уровней: морфологического, лексического, синтаксического, и т.д. Акустический речевой сигнал, после его ввода в систему, оцифровывается, очищается от шумов, нормализуется по амплитуде и освобождается от коррелированной информации. Затем начинается сравнение его фрагментов со сформированными на этапе обучения эталонами разных уровней. Причем, сформированные на самом нижнем (акустико-фонетическом) уровне гипотезы – цепочки фонем (или любых других фонемоподобных элементов), на следующих уровнях сравниваются с эталонами поуровневых словарей. Например, с эталонами словаря корневых морфем – на нижнем уровне, на следующем уровне – с эталонами словаря слов, и т.д. Влияние более высоких уровней позволяет прекратить рост числа вероятных гипотез. В случае решения простых задач распознавания, например, команд ограниченного словаря, используются чаще всего одноуровневые статистические подходы. При решении более сложных задач, например, распознавания ключевых слов в потоке слитной речи, требуется привлечение в рамках структурного подхода лингвистической информации всех уровней, от морфологического до синтаксического. А также экстралингвистической информации – семантической и прагматической. Показано, таким образом, что сложность реализации систем распознавания речи заключается в необходимости интеграции в единое целое большого объема информации, имеющей различную внутреннюю структуру и требующей для ее обработки различных алгоритмов. Кроме того, использование практически всех существующих решений задачи распознавания речи натыкается на психологический барьер, заключающийся в том, что от систем распознавания речи человек ожидает тех же возможностей в общении, что и в общении с человеком. Решение последней задачи предполагает воссоздание, по возможности, всей системы обработки и представления информации, каковая имеется у человека. Это значит, что помимо интеграции лингвистических и экстралингвистических источников знаний различных уровней, в систему необходимо интегрировать подсистемы обработки информации других модальностей, в первую очередь - зрительной. Эффективная интеграция большого объема разнородной информации становится возможной в случае решения трех проблем. Во-первых, необходимо использовать одинаковые алгоритмы обработки информации, имеющей различную структуру. Во-вторых, желательно реализовать эти алгоритмы с наименьшими затратами, то есть с использованием специализированной (нацеленной именно на эти алгоритмы) аппаратуры, вместо универсальных процессорных средств. И, в-третьих – необходимо реализовать ассоциативный способ обращения к информации. Анализ существующих систем распознавания изображений показал, что, как и в случае распознавания речи, при решении задачи распознавания изображений используются, в основном, два подхода: геометрический (одноуровневый), и структурный или лингвистический. Также как системы распознавания речи, системы распознавания изображений, помимо модуля ввода и оцифровки сигнала, имеют два основных модуля: модуль предобработки и модуль распознавания. Модуль предобработки существенно учитывает особенности воспринимаемого двумерного пространства, или двумерного отображения трехмерного видимого мира. Состав этого модуля чем-то похож на состав аналогичного модуля в системах распознавания речи. В него также входят блок шумоочистки, блок нормировки, блок сжатия информации, а также блок кодирования, от эффективности работы которого в большой степени зависит эффективность работы всей системы. Этот блок в наибольшей степени учитывает особенности двумерного сигнала, в отличие от одномерного: в этом блоке используется тот или иной способ позиционного кодирования, который воспроизводит особенности фовеального зрения человека. Показано, что распознавание изображений имеет свои сложности, связанные с перебором больших объемов информации, сопряженным с большим объемом сопутствующих вычислений, помимо той же, что и для задач распознавания речи - сложности интеграции разнородных источников знаний. Как и в случае с распознаванием речи, эффективным решением может быть использование однородных алгоритмов обработки информации, аппаратной реализации и ассоциативного доступа. Анализ существующих систем обработки текстов позволил выявить их основные функции: извлечения индекса текста, автоматического формирования множества рубрик - кластеризации множества текстов, отнесения текста к рубрике (классификация) и сравнения текстов, создания реферата, а также - формирования гипертекстового представления со средствами навигации по гипертекстовой структуре. Важнейшая из этих функций – индексация – осуществляется в разных системах по-разному. В основном используются два подхода. |