Технологии анализа неструктурированных данных и их использование в СЭД

222
Что можно и нужно требовать от поставщиков СЭД во второй декаде XXI века? Последнее десятилетие развития рынка систем электронного документооборота сопровождалось появлением множества технологических решений, которые прошли путь от экзотики, интересной и понятной лишь узкому кругу «технологических пионеров», до привычных и понятных вещей, которые широко используются в повседневной работе с документами. Например, технологии электронного согласования документов, электронная цифровая подпись, межведомственное взаимодействие, подключение мобильных устройств, специализированные рабочие места для руководителей – эти и многие другие возможности уже прочно вошли в арсенал продуктов и услуг, предлагаемых поставщиками СЭД. Но время и прогресс не стоят на месте – на подходе новые технологии, способные существенно расширить традиционные возможности СЭД и повысить практическую отдачу от их применения.

Речь идет прежде всего о технологиях анализа неструктурированных данных – тема, которая, несмотря на давнюю историю, для многих организаций пока еще в новинку. Можно сказать, что сейчас эта тема открывается заново. В течение нескольких последних лет интерес к ней возродился. Если традиционный Business intelligence (BI) – числовая аналитика – это уже достаточно продвинутая технология, имеющая множество примеров успешной реализации, то внедрение технологий анализа неструктурированной информации идет с задержкой в 5-10 лет.Технологии анализа неструктурированных данных и их использование в СЭД

СЛОВАРЬ

Business intelligence, или сокращенно BI — бизнес-анализ, бизнес-аналитика. Под этим понятием чаще всего подразумевают программное обеспечение, созданное для помощи менеджеру в анализе информации о своей компании и её окружении.

В чем же причина такого отставания?

На мой взгляд, одна из главных причин заключается в том, что многие организации лишь сейчас прошли этап первичного накопления неструктурированной информации. Фактически большинство из них уже внедрили системы электронного документооборота, у них давно есть электронная почта, активно внедряются электронные архивы. Как следствие, в компаниях появилось большое количество накопленного неструктурированного контента. Появляются и возможности решать многие проблемы, стоящие перед организацией, путем анализа этой информации.

Зачем нужны организации информационные системы для обработки неструктурированной информации? Какие задачи можно решать с их помощью? Чтобы ответить на этот вопрос, выясним сначала, чем же отличаются друг от друга числовая и текстовая информация.

Основное отличие: текстовая информация менее формализована по сравнению с числовой. И дело даже не в том, что текст может быть представлен на разных языках и в разных кодировках. Проблема глубже — текст, как правило, значительно сложнее разделить на части и «разложить по полочкам» без потери смысла.

Формализованная, структурированная, главным образом числовая информация легко представима в виде записей одинаковой структуры, хранимых в базах данных, и ценность такой информации от этого не меняется. Напротив, текстовая информация, документы, контент имеют ценность, только если рассматриваются как целое.

В современных организациях используется большое количество разнообразных приложений, которые порождают и хранят текстовую информацию, — текстовые редакторы, электронная почта, системы электронного документооборота, электронные архивы, корпоративные порталы и т.п. Средства текстовой аналитики наследуют эту особенность и также отличаются гораздо большим разнообразием по сравнению с технологиями для аналитической работы с «числами». Остановимся кратко на некоторых технологиях, применяемых в решениях для анализа текстовой информации.

Технологии для анализа неструктурированной информации

Одна из наиболее понятных и наглядных технологий — полнотекстовый поиск. Нужно отметить, что современные технологии полнотекстового поиска, применяемые в решениях для текстовой аналитики, существенно отличаются от того, к чему привыкли пользователи поисковых серверов в Интернете. Для анализа текстовой информации нужна модель конкретной предметной области, а часто — и настройка на специфику деятельности конкретной организации. Обычно такая модель представляется в виде семантической сети — взаимосвязанной совокупности терминов и понятий.

Простейший вид связей в сети — объединение синонимов, описывающих одно и то же понятие. Более сложные системы текстовой аналитики поддерживают связи типа «часть — целое», «род — вид», «причина — следствие» и т.п.

Другой аспект технологий текстовой аналитики — работа с таксономиями, то есть многоуровневыми иерархическими классификаторами. Каждый элемент таксономии может быть связан с определенной группой терминов семантической сети. Это дает возможность при работе с неструктурированной информацией отойти от простейших «ключевых слов» и приблизиться к «пониманию» смысла документов.

Выделяются два основных подхода к созданию семантических сетей и таксономий. Ручной: моделирование предметной области осуществляется специалистами и экспертами — точно, качественно, но довольно долго и трудоемко. Автоматическое (или полуавтоматическое): семантические сети и таксономии строятся путем анализа частотных характеристик совместной встречаемости терминов в текстах документов. Получается быстро, но не всегда точно, поэтому полученные результаты могут дополнительно корректироваться экс­пертами.

Следующий этап аналитической обработки текста — выделение из текста фактов и объектов (даты, география, названия компаний, ФИО, торговые марки, типовые события и т.п.). Встречаются и более сложные виды анализа.

Например, возможно определение так называемой «эмоциональной окраски» информации, которая характеризует отношение автора или комментатора к описываемому событию, процессу, объекту и т.п.

Индексирование документов с применением семантических сетей, таксономий, выделение фактографической информации позволяют решать задачи автоматической классификации. Эти процедуры не меняют содержимого документов — фактически речь идет об отнесении документов к тем или иным категориям. Часто требуется автоматически составить краткое изложение сути большого документа или целого множества документов. На помощь приходят технологии аннотирования или автореферирования. К этой задаче примыкают технологии автоматической генерации связанного текста на естественном языке на основании формализованной информации.

Важная часть технологий текстовой аналитики — визуализация массивов найденной неструктурированной информации. Классический пример неудобной формы представления — плоские списки документов, которые выдают многие поисковые серверы. Несмотря на сложные технологии определения релевантности, часто добраться до нужной информации в таком плоском списке весьма и весьма непросто.

Чтобы упростить доступ к неструктурированной информации и сделать его более наглядным, в приложениях текстовой аналитики используются, например, представление массива категорий в виде облака тэгов, многомерные таблицы, отображение массива документов в виде сети, представление в виде сети найденных в документах информационных объектов.

Наконец, создавая корпоративные приложения для текстовой аналитики, приходится решать много дополнительных прикладных задач:

обеспечивать индексирование любых источников неструктурированной информации независимо от их местонахождения, форматов и языков хранимых электронных документов, учитывать права доступа пользователей к данным источникам при выдаче результатов аналитической обработки и т.п.

Итак, разобравшись вкратце с технологиями текстовой аналитики, посмотрим, какие же прикладные задачи можно и нужно решать с помощью этих технологий.

Решение прикладных задач

Рассмотрим для начала случай, когда источники неструктурированной текстовой информации находятся вне компании. Внешние информационные ресурсы — это, как правило, различные сайты в Интернете. Реже осуществляется доступ к удаленным файловым системам или базам данных. Традиционно и уже давно технологии текстовой аналитики, нацеленные на обработку внешних информационных ресурсов, находят самые разнообразные применения в спецслужбах и силовых структурах многих стран. В свою очередь, коммерческие компании с помощью аналогичных подходов решают задачи бизнес-разведки.

Для банков или страховых компаний одна из основных проблем — анализ рисков. Технологии текстовой аналитики помогут в сборе и анализе доступной в Интернете информации о заемщике при рассмотрении заявки на выдачу кредита или оформлении страхового полиса. HR‑службы компаний и специализированные кадровые агентства аналогичным образом смогут значительно улучшить свои процедуры сбора и анализа информации о кандидате на ту или иную вакансию.

Службы маркетинга любой организации получают возможность в автоматическом режиме осуществлять мониторинг действий конкурентов, проводить оценку эффективности собственных рекламных кампаний. А технологии текстовой аналитики помогут ответить на вопрос: «Сколько средств массовой информации и как именно (эмоциональная окраска!) отреагировали на проводимые маркетинговые мероприятия?». Службы продаж наверняка заинтересует возможность оперативно, в автоматическом режиме просматривать информацию на электронных торговых площадках и находить актуальную информацию о проводимых тендерах и аукционах, соотнося ее со спектром продуктов и услуг собственной компании.

Применение текстовой аналитики внутри компании также имеет много вариантов. Один из наиболее востребованных — создание единой корпоративной поисковой системы, которая охватывает все внутренние информационные ресурсы компании, гибко настраивается на специфику деятельности и значительно сокращает время поиска нужной информации. Интересный вариант применения технологий текстовой аналитики — системы правового мониторинга, помогающие юристам находить пробелы и коллизии в массивах нормативных правовых документов и проводить правовую экспертизу проектов таких документов.

Если посмотреть на деятельность современной организации, то можно увидеть, что все виды взаимодействий между людьми оставляют «следы», когда те перезваниваются, пишут письма, взаимодействуют в рамках корпоративных систем. Все факты передачи информации фиксируются, и анализ информационных потоков позволяет выяснить, как взаимодействуют сотрудники. Это дает возможность решать массу задач, связанную с совершенствованием бизнес-процессов и управления в целом, с нахождением «узких мест» и информационных разрывов. Таким образом, менеджмент в постиндустриальную эпоху в условиях экономики знаний может и должен быть представлен как точная наука.

Фактически мы получаем возможность взглянуть на деятельность организации «сверху», понять, как она устроена, какая преобладает корпоративная культура. Эти возможности отсутствовали раньше. Во второй декаде XXI века СЭД – это уже не просто инструмент для управления документами, а прежде всего инструмент для управления людьми, управления процессами их взаимодействия друг с другом, управления интеллектуальным и инновационным капиталом организации.

Очень важно, что эффективность внутренних коммуникаций между сотрудниками самым прямым и непосредственным образом влияет на эффективность деятельности как самих сотрудников, так и всей организации в целом. Представьте себе организацию, в которой каждая коммуникация между сотрудниками (передача информации от одного сотрудника другому) требует больших усилий, занимает много времени, да еще и сопровождается сильным информационным шумом. Очевидно, что о продуктивной деятельности в такой организации говорить не приходится. В действительности такие ситуации возникают гораздо чаще, чем может показаться на первый взгляд.

Например, даже в средних по размеру организациях с численностью несколько сотен человек вполне типичной является ситуация, когда тот или иной сотрудник совершает множество избыточных и непродуктивных действий (звонки по телефону, массовые рассылки по электронной почте и т.п.), пытаясь найти нужного специалиста или решить конкретный вопрос. Другим менее очевидным вариантом неэффективности во внутренних коммуникациях является информационный разрыв, т.е. полное отсутствие коммуникаций там, где они должны быть.

Средства текстовой аналитики, интегрированные с СЭД и электронным архивом, фактически становятся ядром корпоративной системы управления знаниями. И в арсенале продуктов, предлагаемых поставщиками СЭД, уже появляются новые инновационные продукты для решения данных задач.

Система поиска экспертов – один из таких инновационных программных продуктов, созданных компанией «АйТи» совместно с Высшей школой экономики. За счет анализа содержания документов, получаемых и создаваемых сотрудниками организации, система поиска экспертов строит профили компетенций сотрудников и помогает находить людей, релевантных заданной тематике. Типичной для крупных компаний является картина, когда люди, работающие в соседних комнатах, не представляют, чем занимаются их соседи. В результате масса знаний пропадает – они оказываются неиспользуемыми, а многие работы приходится делать каждый раз заново. Поиск экспертов позволяет сократить время на обнаружение нужной информации или путей решения задач.

Кроме того, анализ процессов обмена информацией легко выявляет информационные разрывы в бизнес-процессах организации – места, где теряется информация. Не меньшую проблему представляют сотрудники, к которым, наоборот, сходится слишком много информационных потоков: такая перегруженность может вести к неэффективности, хотя об этом никто не подозревает.

Хотелось бы упомянуть также и о некоторых полезных вариантах применения средств текстовой аналитики в комплексе с уже существующими и работающими в организации системами электронного документооборота. Первый из этих вариантов связан с возможностями получать автоматические рекомендации по маршрутизации документов.

Например, система может самостоятельно проанализировать содержание поступившего входящего документа и предложить перечень структурных подразделений организации, которые обычно занимаются исполнением документов с похожей тематикой. При отправке на согласование внутреннего документа (например, проекта приказа) система сама выделит в тексте упомянутые наименования структурных подразделений организации и предложит включить их в лист согласования. Второй интересной и полезной возможностью является автоматизация аналитической работы с письмами и обращениями граждан.

Применение семантических технологий для выделения из текстов обращений типовых информационных объектов (организации, персоны, адреса, тематика и т.п.) позволяет за несколько секунд подготовить аналитический отчет, который вручную готовится много дней.

Например, система сама проанализирует тематики обращений, покажет распределение обращений на карте города или области, отметит изменения актуальности той или иной темы за заданный период времени. Наконец, автоматический анализ содержания документов способен оказывать огромную помощь при проведении экспертизы ценности документов в электронных архивах. Известно, что ручной просмотр документа стоит гораздо дороже его хранения – и тут технологии текстовой аналитики способны сберечь массу рабочего времени квалифицированных сотрудников.

В заключение статьи хотелось бы отметить, что решение перечисленных выше задач – это не какая-то утопия, возможная лишь в отдаленном будущем. Все это возможно уже сейчас как на основе продуктов, предлагаемых крупными западными компаниями (например, IBM Content Analytics или Microsoft FAST), так и на основе продуктов российских разработчиков или же на основе свободного программного обеспечения (СПО). Будущее давно наступило! Важно понять, что от систем электронного документооборота и от их поставщиков во второй декаде XXI века можно и нужно требовать много большего, помимо решения традиционных задач регистрации документов и контроля исполнительской дисциплины.

Романов Д.А., директор по развитию технологий информационного менеджмента компании «Логика бизнеса 2.0» 

Анонсы будущих номеров

    Подробнее о журнале


    Ваша персональная подборка

      Подписка на статьи

      Чтобы не пропустить ни одной важной или интересной статьи, подпишитесь на рассылку. Это бесплатно.

      Рекомендации по теме

      Мероприятия

      Мероприятия

      Проверь свои знания и приобрети новые

      Посмотреть

      Самое выгодное предложение

      Самое выгодное предложение

      Воспользуйтесь самым выгодным предложением на подписку и станьте читателем уже сейчас

      Живое общение с редакцией

      Вебинар «Секретарь в соцсетях. Правила поведения» Вебинар «Секретарь в соцсетях. Правила поведения»
      Журнал «Справочник секретаря и офис-менеджера»

      Рассылка




      Вопрос - ответ

      Отвечаем на Ваши вопросы

      Какие реквизиты используются при оформлении приказов по основной деятельности?
      Проекты приказов по основной деятельности готовятся по поручению руководителя организации в структурных подразделениях организации, оформляются на специальном бланке и содержат следующие реквизиты
      Недавно устроилась секретарем в компанию, где передо мной встала задача наладить документооборот
      Подскажите, как правильно начать формировать локальную нормативную базу и какие нормативные документы мне в этом помогут? Читайте ответ на вопрос
      Задайте свой вопрос здесь>>> www.sekretariat.ru/pk

      PRO Делопроизводство
      Портал для руководителей служб ДОУ и секретарей всех уровней

      Все права защищены. Полное или частичное копирование любых материалов сайта возможно только с письменного разрешения редакции сайта. Нарушение авторских прав влечет за собой ответственность в соответствии с законодательством РФ.

      E-mail: document@sekretariat.ru

      
      • Мы в соцсетях
      Вы - делопроизводитель? Зарегистрируйтесь!

      Регистрация бесплатная и займет всего 1 минуту!
      После регистрации вы сможете:

      • читать любые статьи по делопроизводству на нашем сайте!
      • бесплатно подписаться на ежедневные новости по делопроизводству
      • участвовать в вебинарах
      • задавать вопросы экспертам

      Оставайтесь с нами!
      с заботой о Вас, портал PRO - делопроизводство

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль
      Всего один шаг - и документ Ваш!

      Только зарегистрированные пользователи могут скачивать материалы с сайта. Регистрация бесплатна и займет менее минуты. После нее Вы сможете загрузить документ, а также получите доступ к материалам и сервисам сайта.

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль