Delist.ru

Методы распознаваниярукописных текстов в системах автоматизации документооборота на промышленных предприятиях. (15.08.2008)

Автор: Ла Суан Тханг

Иерархическая структура (+) (+) (+)

БОСС-Референт (+)

Иерархическая структура (+)

Иерархическая структура (+)

Список (+) (+) (+)

Таблица 2.

Наименование

СЭД Стоимость лицензий, $ Стоимость внедрения,

$/час Стоимость обучения,

$/час Стоимость технической поддержки

за 1 год, $ (от) Стоимость обновления системы, $ Стоимость заказных доработок,

$/час Всего, $

МОТИВ 2 300 33,05 21 968,65 550 30 3 902

CORPORATE BUSINESS 3 499 30 30 360 200 25 4 144

PayDox 5 000 40 40 0 2 500 30 7 610

СУПеР 5 995 40 40 0 1 600 40 7 715

Effect Office 6 295,36 17 17,86 1 259 1 573 18 9 182

ДЕЛО 10 245 37 27 2 049 0 50 12 407

jDocflow 10 000 0 0 3 000 0 40 13 040

DocsVision 9 200 30 20 1 800 2800 40 13 890

Во второй главе представлены новый подход к распознаванию рукописных символов, модель нейронной сети, которая обеспечивает устойчивость к разным видам деформации в задаче распознавания рукописных символов, а также алгоритм ускоренного обучения многослойных нейронных сетей с большим количеством весовых коэффициентов.

В диссертации приведены классификация задач обработки документов (Рис. 1.)

Рис 1. Классификация задач обработки документов

В традиционной модели (рис.2) распознавания образов система делится на 2 модуля:

Вручную настроечный модуль выделения признаков собирает наиболее значимую входящую информацию и отсеивает лишнюю.

Обучаемый классификатор сортирует полученные характеристические векторы по классам. При таком подходе, как правило, полносвязные многослойные нейронные сети могут быть использованы как классификаторы.

Однако при использовании полносвязных нейронных сетей в РРТ могут возникнуть некоторые проблемы:

Сети должны иметь большое количество весов в порядке нескольких десятков тысяч.

Отсутствие инвариантности по отношению к переменным и искажению образов входных данных.

Обучение требует большого количества обучающих образов сходных по структуре, но имеющих различное положение или наклон для покрытия всего разнообразия возможных вариантов сходной входной информации.

Топология входной информации полностью игнорируется.

Точность распознавания в значительной степени определяется эффективностью работы модуля выделения признаков. Это приводит к тому, что для каждого нового задания, к сожалению, придется перенастраивать систему.

Рис 2. Традиционная модель Рис 3. Новая модель

Более рациональный подход состоит в построении систем РРТ, объединяющих модули выделения признаков и классификатор с применением нейронных сетей, имеющих меньшее количество весов относительно многослойных полносвязных нейронных сетей. Системы должны сами выделять признаки и обладать инвариантностью к искажению входных символьных изображений. В диссертации предлагается метод построения таких систем на основе сверточных нейронных сетей (рис. 3).

Нейроны на каждом слое объединены в плоскости (характеристической карте), при этом все нейроны в одной плоскости выделяют одинаковую совокупность весовых коэффициентов. Все нейроны характеристической карты призваны выполнять одинаковые операции над разными частями изображения.

Каждый слой состоит из несколько характерных карт. Каждому нейрону сверточного слоя соответствует поле чувствительности (рецептивное поле), состоящее из матрицы 5х5 сенсорных узлов. Каждый нейрон имеет 25 входов и, следовательно, 25 обучаемых коэффициентов, плюс 1 настраиваемый коэффициент порога. Рецептивное поле каждого нейрона слоя подвыборки представляет собой квадрат размером 2х2 в соответствии с характеристической карты предыдущего слоя (Рис. 4).

Рис 4. Архитектура сверточной нейронной сети СНС_РТ

Каждый нейрон определяет некоторые усредненные величины входных данных со своих четырех входов, умножает их на обучающий весовой коэффициент. Затем добавляет величину настроечного коэффициента порога, и пропускает результат через сигмоидальную функцию. В таблице 3 представлен способ соединения слоев 2 и 3 сети. В таблице 4 приведены показатели сети. Сеть имеет 340908 связей, но только 60030 свободных обучающих параметров, причиной чему является совместное использование весовых коэффициентов.

Таблица 3.

Таблица 4.

загрузка...