Delist.ru

Разработка системы информационной поддержки контроля производственных процессов на базе терм-связности элементов электронного документооборота (21.04.2008)

Автор: Баринов Александр Петрович

поддерживать удаленный доступ к информации.

Продвинутые системы должны поддерживать:

кластерные технологии для обеспечения бесперебойной работы;

территориально распределенные организации;

алгоритмы шифрования при хранении и передаче данных;

цифровую подпись.

Требования к архитектуре:

наличие выделенного сервера приложений;

наличие тонкого клиента; поддержка доступа к документам с использованием браузера.

многоплатформность для обеспечения масштабируемости.

Требования к открытости и интеграции с другими системами:

интеграция со средствами потокового ввода документов;

интеграция с офисными приложениями;

интеграция с электронной почтой;

наличие развитого программного интерфейса;

интеграция со стандартными службами каталогов для ведения и синхронизации списка пользователей системы;

возможность адаптации пользовательского интерфейса под конкретные задачи;

возможность дополнения системы собственными специализированными компонентами.

В случае использования внешней базы данных для хранения атрибутов документов необходимо наличие подробного описания структуры данных и средств работы с разными СУБД.

Структура работы

Предполагается, что на всем технологическом цикле проводится документальное описание технологических процессов. На основе поиска соответствующих документально оформленных технологических требований, а также описания состояния процесса, проводятся экспертные заключения с целью формирования количественных и качественных (в виде лингвистических переменных) показателей характеристик процессов, что дает основу формирования документальных распоряжений о модернизации, ремонте или замене технологического оборудования, изменении параметров технологических процессов и других управляющих воздействий.

Во второй главе разработаны формализованные модели структуризации документов на основе терм-связности и формальных методов теории нечетких множеств (отношений). Данные модели необходимы для повышения эффективности поисковых функций соответствующей информации о технологических нормах и соответствия им текущего состояния процесса.

Предполагается, что:

D=(d1, d2,…, dm) – множество документов;

T=(t1, t2,…, tn) – множество терминов словаря (тезауруса).

В модели структуризации предлагается использовать функцию (A, которая является размытой функцией принадлежности, определяющей относительную важность термина в тексте документа:

Для конечных множеств такое соответствие определяется матрицами:

Таким образом, документу dj(D ставится в соответствие запись a1j, a2j,…, anj и на множестве документов и термов определено нечеткое отношение:

а также инвертированное отношение A’(T( D.

В терминологии планирования эксперимента матрица AAT будет представлять информационную матрицу базы документов.

Запрос на поиск документа в данном случае будет представлять вектор столбец:

В данной постановке вектор B=A(r)(x будет представлять меру соответствия документа данному запросу.

Матрица C(r)=A(r)(AT(r) – представляет отношение «документ-документ». Диагональные элементы матрицы будут представлять количество термов в данном документе, а внедиагональные – количество общих термов в различных документах. Аналогично матрица C(r)=AT(r)(A(r) – представляет отношение «терм-терм».

Таким образом, матрицы C(r) и CT(r) определяют степень «сходства» документов и термов для данной коллекции документов размытого отношения A.

При этом уравнение

можно рассматривать как уравнение гиперплоскости в информационном пространстве X, коэффициенты aij определяют ориентацию этой гиперплоскости, а bk – начальное положение.

Таким образом, для каждого запроса x и соответственно определяемой этим запросом гиперплоскости, при подстановке в уравнение значений весов документов БД, в зависимости от знака выражения, определим, входит ли документ в полупространство выдачи. Поэтому в двойственном пространстве положение гиперплоскости будет определяться весами терминов запроса, а положение точки – весами терминов в документе.

, образуют некоторое подмножество. Некоторые из них не могут быть реализованы разбиением информационного пространства линейной границей, т.е. не являются линейно отделимыми множествами (линейно отделимыми являются только выпуклые множества).

Выдача на некоторые запросы будет включать наряду с релевантными документами, также и нерелевантные документы. В тоже время некоторые из релевантных документов будут отсутствовать в выдаче.

Линейная отделимость множества релевантных документов

загрузка...