Как перейти к технологиям интеллектуальной обработки текстов?

117

Вопрос

Мы хотим перейти к технологиям интеллектуальной обработки текстов. Как оценить, достаточно ли для этого растущих объемов регистрируемых и обрабатываемых документов?

Ответ

Сначала уточним, что мы подразумеваем под технологиями интеллектуальной обработки текстов. Интеллектуальная обработка текстов – это аппаратно-программные решения, которые могут:

●             автоматически классифицировать документ, т.е. распознать его вид;

●             извлекать метаданные из текста.

 В контексте СЭД это будет, например, автоматическое заполнение полей регистрационно-контрольной карточки. Для договора это могут быть номер, предмет договора, дата заключения, реквизиты контрагента и т.д.;

 ●       маршрутизировать документ в зависимости от извлеченных данных и настроенной прикладной логики.

 Например, если входящим документом является договор с организацией X, то отправить его нужно на согласование ответственному Y.

Подходы к решению задач

Можно выделить несколько основных подходов к решению этих задач.

1. Обработка скан-образа документа на основе статических шаблонов, привязанных к координатной сетке.

Данный вариант предполагает работу с документом как с изображением. Алгоритмы ничего не знают о содержимом документа. Они просто пытаются преобразовать выбранный фрагмент изображения из растрового представления в машиночитаемый текст. Это широко распространенный подход к автоматизации потокового ввода однотипных документов. Он применяется во многих сферах, в том числе и в документообороте. 

В качестве примера такого решения можно назвать ABBYY FlexiCapture.

2.  Обработка текста документа на основе простых зависимостей и регулярных выражений.

Вариант работает с документом как с текстом. Алгоритмы пытаются извлечь данные на основе зависимостей: 

ключевые слова, порядок строк и слов, регулярные выражения (поиск строк определенной длины с определенным набором символов).  

Подобные решения отличаются своей простотой. Как правило, они разрабатываются организациями для внутренних нужд и не тиражируются.

3. Семантический анализ текста – это самый интересный и одновременно самый сложный в реализации вариант. Он предполагает полный семантический разбор текста и построение смыслового дерева. Алгоритмы буквально понимают, «о чем идет речь». Когда говорят об интеллектуальной обработке текстов, как правило, подразумевают именно этот подход. 

В качестве ориентира можно назвать технологию ABBYY Comeno.   

Недостатки решений

Однако у решений такого класса есть ряд важных недостатков. Они затрудняют активное применение этих решений по следующим причинам:

● подобные решения нужно дорабатывать под каждого заказчика. Это сказывается на стоимости проекта и времени его реализации;

● высокая стоимость владения – для их работы требуются мощные выделенные сервера;

● высокая вычислительная сложность алгоритмов – обработка стандартного документа может занять несколько минут. 

У сценариев применения есть важное ограничение в виде необходимости асинхронного выполнения. Другими словами, не получится применить технологию для работы с пользователем в режиме реального времени;

● входящие документы в большинстве случаев приходят в бумажном виде. Понадобится дополнительно приобретать решение по преобразованию скан-образов в машиночитаемый текст.

В итоге цена такой автоматизации может превысить издержки на ручную и частично автоматизированную обработку документопотока. Это ставит под вопрос рентабельность технологии для бизнеса. Большинство организаций останавливаются на первых двух вариантах. Примеров реальных проектов на основе семантического анализа текстов пока не так много. Однако с развитием технологий недостатки должны нивелироваться, а решения стать доступнее.

Еще не подписаны на наше издание? Оформите бесплатный доступ и читайте статьи в течение трех дней!

Анонсы будущих номеров
    Подробнее о журнале


    Ваша персональная подборка

      Мероприятия

      Мероприятия

      Проверь свои знания и приобрети новые

      Посмотреть

      Самое выгодное предложение

      Самое выгодное предложение

      Воспользуйтесь самым выгодным предложением на подписку и станьте читателем уже сейчас

      Живое общение с редакцией
      Вебинар «Секретарь в соцсетях. Правила поведения»
      Журнал «Справочник секретаря и офис-менеджера»




      Вопрос - ответ

      Отвечаем на Ваши вопросы

      Какие реквизиты используются при оформлении приказов по основной деятельности?
      Проекты приказов по основной деятельности готовятся по поручению руководителя организации в структурных подразделениях организации, оформляются на специальном бланке и содержат следующие реквизиты
      Недавно устроилась секретарем в компанию, где передо мной встала задача наладить документооборот
      Подскажите, как правильно начать формировать локальную нормативную базу и какие нормативные документы мне в этом помогут? Читайте ответ на вопрос
      Задайте свой вопрос здесь>>> www.sekretariat.ru/pk

      PRO Делопроизводство
      Портал для руководителей служб ДОУ и секретарей всех уровней

      Все права защищены. Полное или частичное копирование любых материалов сайта возможно только с письменного разрешения редакции сайта. Нарушение авторских прав влечет за собой ответственность в соответствии с законодательством РФ.

      Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор). Свидетельство о регистрации ПИ № ФС77-64197 от 25.12.2015


      E-mail: document@sekretariat.ru

      
      • Мы в соцсетях
      Сайт использует файлы cookie. Они позволяют узнавать вас и получать информацию о вашем пользовательском опыте. Это нужно, чтобы улучшать сайт. Если согласны, продолжайте пользоваться сайтом. Если нет – установите специальные настройки в браузере или обратитесь в техподдержку.
      Зарегистрируйтесь и продолжите чтение!

      Регистрация бесплатная и займет всего минуту!

      После регистрации вы сможете:

      • читать любые статьи по Делопроизводству и Документообороту на нашем сайте
      • бесплатно подписаться на ежедневные новости для секретарей и офис-менеджеров
      • участие в онлайн вебинарах и возможность задавать вопросы экспертам

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль
      Всего один шаг - и документ Ваш!

      Только зарегистрированные пользователи могут скачивать материалы с сайта. Регистрация бесплатна и займет менее минуты. После нее Вы сможете загрузить документ, а также получите доступ к материалам и сервисам сайта.

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль