text
Секретариат

Как перейти к технологиям интеллектуальной обработки текстов?

  • 22 сентября 2017
  • 217

Вопрос

Мы хотим перейти к технологиям интеллектуальной обработки текстов. Как оценить, достаточно ли для этого растущих объемов регистрируемых и обрабатываемых документов?

Ответ

Сначала уточним, что мы подразумеваем под технологиями интеллектуальной обработки текстов. Интеллектуальная обработка текстов – это аппаратно-программные решения, которые могут:

●             автоматически классифицировать документ, т.е. распознать его вид;

●             извлекать метаданные из текста.

 В контексте СЭД это будет, например, автоматическое заполнение полей регистрационно-контрольной карточки. Для договора это могут быть номер, предмет договора, дата заключения, реквизиты контрагента и т.д.;

 ●       маршрутизировать документ в зависимости от извлеченных данных и настроенной прикладной логики.

 Например, если входящим документом является договор с организацией X, то отправить его нужно на согласование ответственному Y.

Подходы к решению задач

Можно выделить несколько основных подходов к решению этих задач.

1. Обработка скан-образа документа на основе статических шаблонов, привязанных к координатной сетке.

Данный вариант предполагает работу с документом как с изображением. Алгоритмы ничего не знают о содержимом документа. Они просто пытаются преобразовать выбранный фрагмент изображения из растрового представления в машиночитаемый текст. Это широко распространенный подход к автоматизации потокового ввода однотипных документов. Он применяется во многих сферах, в том числе и в документообороте. 

В качестве примера такого решения можно назвать ABBYY FlexiCapture.

2.  Обработка текста документа на основе простых зависимостей и регулярных выражений.

Вариант работает с документом как с текстом. Алгоритмы пытаются извлечь данные на основе зависимостей: 

ключевые слова, порядок строк и слов, регулярные выражения (поиск строк определенной длины с определенным набором символов).  

Подобные решения отличаются своей простотой. Как правило, они разрабатываются организациями для внутренних нужд и не тиражируются.

3. Семантический анализ текста – это самый интересный и одновременно самый сложный в реализации вариант. Он предполагает полный семантический разбор текста и построение смыслового дерева. Алгоритмы буквально понимают, «о чем идет речь». Когда говорят об интеллектуальной обработке текстов, как правило, подразумевают именно этот подход. 

В качестве ориентира можно назвать технологию ABBYY Comeno.   

Недостатки решений

Однако у решений такого класса есть ряд важных недостатков. Они затрудняют активное применение этих решений по следующим причинам:

● подобные решения нужно дорабатывать под каждого заказчика. Это сказывается на стоимости проекта и времени его реализации;

● высокая стоимость владения – для их работы требуются мощные выделенные сервера;

● высокая вычислительная сложность алгоритмов – обработка стандартного документа может занять несколько минут. 

У сценариев применения есть важное ограничение в виде необходимости асинхронного выполнения. Другими словами, не получится применить технологию для работы с пользователем в режиме реального времени;

● входящие документы в большинстве случаев приходят в бумажном виде. Понадобится дополнительно приобретать решение по преобразованию скан-образов в машиночитаемый текст.

В итоге цена такой автоматизации может превысить издержки на ручную и частично автоматизированную обработку документопотока. Это ставит под вопрос рентабельность технологии для бизнеса. Большинство организаций останавливаются на первых двух вариантах. Примеров реальных проектов на основе семантического анализа текстов пока не так много. Однако с развитием технологий недостатки должны нивелироваться, а решения стать доступнее.

Еще не подписаны на наше издание? Оформите бесплатный доступ и читайте статьи в течение трех дней!

Рекомендации по теме

Мероприятия

Мероприятия

Проверь свои знания и приобрети новые

Посмотреть

Самое выгодное предложение

Самое выгодное предложение

Воспользуйтесь самым выгодным предложением на подписку и станьте читателем уже сейчас

Мы в соцсетях
×
Зарегистрируйтесь и продолжите чтение!

Регистрация бесплатная и займет всего минуту!

После регистрации вы сможете:

  • читать любые статьи по Делопроизводству и Документообороту на нашем сайте
  • бесплатно подписаться на ежедневные новости для секретарей и офис-менеджеров
  • участие в онлайн вебинарах и возможность задавать вопросы экспертам

У меня есть пароль
напомнить
Пароль отправлен на почту
Ввести
Я тут впервые
И получить доступ на сайт Займет минуту!
Введите эл. почту или логин
Неверный логин или пароль
Неверный пароль
Введите пароль
Всего один шаг - и документ Ваш!

Только зарегистрированные пользователи могут скачивать материалы с сайта. Регистрация бесплатна и займет менее минуты. После нее Вы сможете загрузить документ, а также получите доступ к материалам и сервисам сайта.

У меня есть пароль
напомнить
Пароль отправлен на почту
Ввести
Я тут впервые
И получить доступ на сайт Займет минуту!
Введите эл. почту или логин
Неверный логин или пароль
Неверный пароль
Введите пароль
Сайт использует файлы cookie. Они позволяют узнавать вас и получать информацию о вашем пользовательском опыте. Это нужно, чтобы улучшать сайт. Посещая страницы сайта и предоставляя свои данные, вы позволяете нам предоставлять их сторонним партнерам. Если согласны, продолжайте пользоваться сайтом. Если нет – установите специальные настройки в браузере или обратитесь в техподдержку.