Delist.ru

Методы распознаваниярукописных текстов в системах автоматизации документооборота на промышленных предприятиях. (15.08.2008)

Автор: Ла Суан Тханг

Функция активации:

(а= 1,7159, b = 2/3). Определенная таким образом функция гиперболического тангенса имеет ряд полезных свойств.

? (1) = 1 и ?(-1) = -1.

В начале координат тангенс угла наклона (т.е. эффективный угол) функции активации близок к единице:

?(0) = аb = 1,7159 х 2/3 = 1,1424.

Вторая производная ?(v) достигает своего максимального значения при v = 1.

Рис 5. Функция активации

????????

??????o?L

Обучение заданной модели нейронной сети проводилось с использованием следующих алгоритмов:

"классический" алгоритм обратного распространения ошибки;

алгоритм обратного распространения ошибки с моментом;

алгоритм обратного распространения ошибки с оптимизацией квази-Ньютона;

алгоритм обратного распространения Левенберга-Маркара;

Уравнение для коррекции весовых коэффициентов НС при обучении по классическому алгоритму обратного распространения имеет следующий вид:

с учетом слагаемого момента видоизменяется таким образом:

В алгоритме с оптимизацией квази-Ньютона целевая функция в окрестностях произвольной точки аппроксимируется квадратичной функцией, при этом на каждой итерации решается задача локальной минимизации:

где H - симметричная и положительно определенная матрица вторых частных производных (матрица Гессе), с - постоянный вектор, b - константа.

Итерационное уравнение методов Ньютона имеет вид:

где f(wk) - функция, для которой ведется поиск минимума. Уравнение (4) в том виде, в котором оно записано, требует вычисления и обращения матрицы Гессе на каждом шаге, что часто является основной частью вычислений.

Алгоритм Левенберга-Марквардта (Levenberg-Marquardt Algorithm, LMA) является наиболее распространенным алгоритмом оптимизации. Он превосходит по производительности методы сопряженных градиентов в различных задачах. Как видно из таблицы 5 , наиболее быстрым алгоритмом обучения НС является алгоритм обратного распространения LMA.

Таблица 5.

Алгоритм Ошибка Эпохи

"Классический" алгоритм обратного распространения ошибки 0.0997834 674

Алгоритм обратного распространения ошибки с моментом 0.0993434 1005

Алгоритм обратного распространения ошибки с оптимизацией квази-Ньютона 0.0944526 12

Алгоритм обратного распространения Левенберга-Маркара (LMA) 0.0034274 4

В модели НС функции стоимости определяются формулой:

- вектор весовых коэффициентов сети;

dkp – настоящее значение k-ого выхода при подаче на НС p-ого образа;

okp – ожидаемое значение k-ого выхода при подаче на НС p-ого образа;

N – колличество весов сети, P – количество образов обучающей выборки.

Уравнение (5) можно переписать в виде:

Матрица Якобиан определяется формулой:

Веса в каждой итерации вычисляются по формуле:

где I – единичная матрица.

- обучающий параметр.

Данное правило используется следующим образом: если на очередной итерации невязка сокращается, мы уменьшаем ? (обычно в 10 раз), чтобы понизить влияние градиентного спуска. Если невязка увеличивается, необходимо следовать направлению градиента, и мы увеличиваем ? (во столько же раз).

Единственный недостаток алгоритма LMA заключается в необходимости обращения матрицы на каждом шаге.

Даже не смотря на то, что нахождение обратной матрицы обычно выполняется с использованием быстрых методов псевдообращения (таких как, разложение по сингулярным числам матрицы), время одной итерации становится неприемлемым для нескольких тысяч параметров. В диссертации разработан модифицированный алгоритм LMA, который обеспечивает эффективность и быстроту обучения многослойных нейронных сетей по методу обратного распространения ошибок.

загрузка...