Экономическая эффективность технологий поиска и анализа неструктурированной информации

248
В предыдущих статьях мы рассмотрели подходы к анализу экономической эффективности СЭД и электронных архивов. Данная статья будет посвящена вопросам экономической эффективности технологий поиска и анализа неструктурированной информации. И первое, с чего хотелось бы начать,– определить предмет обсуждения.

Если с системами электронного документооборота и электронными архивами большинство читателей уже давно и хорошо знакомы (в том числе и на личном опыте), то технологии поиска и анализа неструктурированной информации по-прежнему остаются для многих terra incognita. Разнообразие и сложность решаемых задач приводят не только к появлению широкого семейства технологий, но и к многочисленным названиям данного семейства. Семантические технологии, текстовая аналитика, Text Minning, Content Intelligence – вот далеко не полный перечень названий, которые встречаются в публикациях. К сожалению, начавшаяся пару лет назад и набравшая силу в последнее время маркетинговая шумиха по продвижению тематики BigData не проясняет, а скорее запутывает и затрудняет понимание этих вопросов.

Определимся с предметом обсуждения

Итак, что же это такое – анализ неструктурированной информации? «Это ведь просто полнотекстовый поиск? Так он давно у нас есть в СЭД, в архиве, да и просто на локальном компьютере я тоже могу искать нужные файлы по ключевым словам...», – примерно такие вопросы и рассуждения вполне типичны, когда речь заходит о технологиях анализа неструктурированной информации. Да, технология полнотекстового поиска исторически является одним из первых примеров тех технологий, вопросам экономической эффективности которых и посвящена данная статья. Благодаря широкому распространению поисковых сервисов в Интернете она стала доступной и хорошо известной. Но полнотекстовый поиск по неструктурированной информации – далеко не единственная из возможных технологий и, более того, далеко не самая выгодная в части экономического эффекта, получаемого при корпоративном применении. Попробуем разобраться, что же еще входит в спектр современных технологий для анализа неструктурированной информации.

Для упрощения под неструктурированной информацией далее в данной статье будем понимать прежде всего текстовую информацию – тексты документов, сообщения электронной почты, публикации в блогах и социальных сетях и т.п. Прочие виды неструктурированной информации – изображения, звук, видео и технологии для их анализа – оставим для отдельного рассмотрения в последующих публикациях.

В целом можно сказать, что исследователи и разработчики, создающие программы для анализа неструктурированной информации, двигаются по пути создания искусственного интеллекта. Однако научить компьютер понимать смысл текстовой информации далеко не так просто, как может показаться на первый взгляд. Даже простые человеческие языки значительно более сложны, чем самые сложные языки программирования. Очевидно, что общение между людьми несравнимо богаче, ярче, эмоциональнее, чем передача информации между компьютерами.

В текстах существует множество особенностей и исключений из правил, умолчаний и неоднозначностей, тонких намеков и нюансов, легко воспринимаемых и осознаваемых любым человеком, но крайне сложных для понимания компьютером. Тем не менее, в последние годы на этом пути достигнуты значительные успехи.

Анализ, по определению, это разложение целого на составные части. Составными частями текста являются слова и предложения. Первое, что потребуется нам для разделения текста на составные части, – технология, позволяющая извлекать текст из множества различных источников корпоративной неструктурированной информации и понимать разнообразные и многочисленные файловые форматы, в которых сохраняют информацию используемые в организациях программные продукты.

Насколько объемным будет множество источников неструктурированной информации и насколько многочисленными окажутся файловые форматы в конкретной организации?

Это зависит от размера организации и специфики ее деятельности, но в большинстве средних и крупных российских компаний можно смело рассчитывать на десятки (если не сотни) форматов файлов с текстовой информацией и не меньшее количество источников различных типов (от обычных файловых папок и реляционных баз данных до проприетарных форматов хранения текста в справочных правовых системах, CAD-системах, на серверах MS Exchange и SharePoint, в базах данных Lotus Domino и т.п.). Большинство производителей решений для анализа неструктурированной текстовой информации реализуют средства для извлечения текста из различных корпоративных источников в виде специальных модулей – программных адаптеров, которые настраиваются на применяемые в организации информационные системы и извлекают из них текст для последующего морфологического анализа.

Выделение информационных объектов

Морфологический и синтаксический анализ текста

Морфологический анализ текста позволяет для каждого встретившегося слова (специалисты используют термин «лексема») определить, к какой части речи относится данное слово, в какой грамматической форме оно употреблено в заданном контексте, и привести слово к его начальной форме. Если разработка адаптеров для выделения текстовой информации из разных источников – в значительной степени  техническая, инженерная задача, то определение, настройка и программирование правил работы морфологического анализатора требует глубоких знаний в области компьютерной лингвистики.

Обычно для морфологического анализа используются сочетания нескольких подходов: большая часть слов описывается с помощью словаря с перечнем базовых словоформ и способов словообразования, а для сложных случаев и исключений применяются специальные алгоритмы и наборы эвристических правил.

Синтаксический анализ – следующий этап в анализе текстовой информации. Разобравшись с частями речи на предыдущем этапе, можно переходить к более сложной задаче и выяснить, как эти слова соотносятся друг с другом и какими членами предложения они являются.

Синтаксический анализ позволяет выделить в предложении подлежащее, сказуемое, обстоятельства, дополнения, причастные и деепричастные обороты.

Технологии семантического анализа и определения значимости. Таксономия

Конечная цель многочисленных исследований и разработок, проводящихся в данной области, – приблизиться к пониманию компьютером смысла анализируемого текста. Здесь уже приходится прибегать к помощи следующего этапа в анализе неструктурированной информации – технологии семантического анализа.

На этом уровне необходимо учитывать взаимосвязи между терминами и понятиями предметной области, работать с синонимами, анализировать не только отдельные предложения, но и весь текст целиком.

Важной как самой по себе, так и крайне необходимой для корректной работы других способов обработки неструктурированной текстовой информации является технология определения значимости лексических и семантических единиц. Реализация данной технологии означает способность присваивать терминам определенный вес и тем самым отделять общеупотребительные слова и словосочетания от тех, которые описывают важные смысловые понятия и нужны для выражения экспертных знаний и компетенций. Накопление статистических данных о том, насколько часто те или иные значимые слова или словосочетания оказываются расположенными близко друг к другу в текстах документов, позволяет строить семантические сети и таксономии (иерархические классификаторы).

Таксономия – учение о принципах и практике классификации и систематизации.

В текстах документов, новостных лентах, публикациях в социальных сетях и других источниках неструктурированной информации часто упоминаются фамилии, имена и отчества людей, их должности и звания, названия организаций и их Экономическая эффективность технологий поиска и анализа неструктурированной информацииструктурных подразделений, географические объекты (страны, города, реки, моря и т. д.), адреса зданий, сооружений и других объектов недвижимости, номера телефонов, адреса веб-сайтов и электронной почты, торговые марки и названия товаров, ссылки на нормативные правовые акты, даты и временные интервалы и множество других информационных объектов.

Технология, выделяющая из текста все упоминания информационных объектов

Для множества практических применений крайне необходима технология, выделяющая из текста все упоминания информационных объектов. Фактически данная технология позволяет частично структурировать неструктурированный текст. Выделение некоторых информационных объектов осуществляется на основе специальных словарей (например, словарей названий географических объектов), для других приходится применять сложные эвристические правила (такими являются названия организаций). Иногда приходится комбинировать несколько подходов (без этого сложно реализовать выделение упоминаний физических лиц). Основная проблема при решении данной задачи заключается даже не столько в непосредственном выделении упоминаний информационного объекта из текста отдельного документа или сообщения, сколько в принятии алгоритмом решения об их отождествлении, т.е. объединении нескольких объектов в один. У организаций могут быть полные, официальные и краткие, жаргонные наименования. Среди сотрудников организации вполне возможны однофамильцы и даже полные тезки.

Например, если в одном документе встретится «Романов Д.А.», а в другом «Романов Дмитрий Александрович», то можно ли считать, что речь идет об одном и том же человеке? А если в третьем документе появится «Романов Денис Алексеевич»? Даже понимание того, идет ли речь о мужчине или о женщине, может вызывать проблемы (Женя Криворучко – это кто?).

Тут на помощь приходит синтаксический анализ конкретного контекста употребления информационного объекта, анализ дополнительных свойств объекта (например, должности), анализ статистики совместно упоминаемых терминов и другие более сложные методы. Но даже при обилии информации и применении мощного математического аппарата всегда существует вероятность ошибки. Впрочем, люди также неидеальны, часто ошибаются и принимают одного человека за другого.

Выделение взаимосвязи между объектами

Технологии обработки и выделения фактографической информации

Научившись выделять информационные объекты, можно переходить к более сложной задаче и выделять взаимосвязи между объектами. Иногда такие взаимосвязи пытаются представить в виде некоторого факта – определенного действия, совершенного тем или иным субъектом над каким-то объектом или по отношению к другому субъекту. Лучше всего технологии обработки и выделения фактографической информации работают в тех задачах, в которых обеспечивается достаточно высокая степень формализации и однородности исходных информационных потоков.

Такими задачами, например, являются обработка сообщений из новостных лент или сводок о происшествиях и чрезвычайных ситуациях.

Технология определения степени похожести между текстами

Следующей технологией, о которой нужно  рассказать, является технология определения степени похожести между текстами. Расстояние между географическими объектами измеряют в метрах и километрах, а в каких единицах можно измерить расстояние между документами? Существует множество определений того, что считать степенью похожести и как эту похожесть измерять.

Например, два текста могут считаться похожими друг на друга, если они содержат большую долю одинаковых и значимых слов и словосочетаний.

Понятно, что общеупотребительная лексика и тем более стоп-слова не должны оказывать заметного влияния на расчет степени похожести.

На заметку!

Стоп-слова – это слова, которые не несут абсолютно никакой смысловой нагрузки, например, цифры или отдельно стоящие знаки препинания.

Другой вариант – считать тексты похожими, если они описывают один и тот же (или близкий) набор фактов. Такой подход применяется при агрегации новостных потоков и позволяет группировать различные описания одних и тех же событий. Наконец, можно считать тексты похожими, если в них много одинаковых предложений, совпадающих с точностью до каждого отдельного символа. Похожий способ используется поисковыми серверами при нахождении дублирующихся страниц в Интернете для сокращения за счет этого количества страниц, предоставляемых пользователю в ответ на его запрос.

Наверняка многим читателям приходилось встречать примерно такое сообщение: «Мы нашли еще NNNN страниц, очень похожих на те, которые вы уже видели...».

Технология классификации документов

Близкой к определению степени похожести является технология классификации документов. Здесь также разработано множество подходов, отличающихся как по применяемым алгоритмам, так и по начальным условиям решения задачи. Выделяют два основных вида классификации. В первом, более простом случае, для алгоритма классификации доступна обучающая выборка документов, каждый из которых заранее отнесен к некоторым классам. Это так называемая классификация «с учителем».

Например, предположим, что у пользователя все почтовые сообщения разложены по некоторой иерархии папок и каждой папке задано определенное название. Задача алгоритма классификации в таком случае заключается в том, чтобы проанализировать обучающую выборку документов, а затем сформировать и настроить набор правил, которые позволят ему отнести следующий документ к одной или нескольким категориям. Для пользователя электронной почты такой обученный алгоритм может автоматически предложить отнести новое сообщение к одной или нескольким папкам.

Более сложной является классификация «без учителя», т.е. ситуация, когда нет заранее сформированной выборки документов, да и сам набор классов неизвестен. Неизвестно даже количество таких классов.

Работая без учителя, алгоритм классификации пытается самостоятельно разделить массив документов на несколько групп таким образом, чтобы в каждой группе оказались максимально похожие друг на друга документы. Количество групп может задаваться алгоритму в качестве внешнего параметра или же оставаться целиком «на совести» алгоритма.

Технологии анализа эмоциональной окраски и выделения мнений

Относительно новыми технологиями в анализе неструктурированной информации, активно развиваемыми в последние годы, являются технологии анализа эмоциональной окраски (Sentiment analysis) и выделения мнений (opinion detection). Распознавание эмоциональной компоненты в человеческой речи необходимо для того, чтобы понимать, как автор текста относится к излагаемым вопросам, как он характеризует те или иные информационные объекты (бренды, продукты, политические партии и т.п.). Простейшим вариантом такой технологии является подход, основанный на использовании словарей позитивных и негативных характеристик.

Например, прилагательные «отличный», «замечательный», «чудесный» и аналогичные им рассматриваются при анализе как свидетельства позитивной окраски текста. Однако далеко не всегда такой простейший подход дает удовлетворительные результаты.

Как уже отмечалось выше, человеческой речи свойственны сарказм и «эзопов язык», неоднозначные эпитеты, двусмысленности и намеки, которые правильно и без усилий понимаются человеком в контексте конкретной ситуации, но являются очень сложными для алгоритмического описания. Ситуация усложняется, если еще и сам анализируемый текст является очень коротким и фрагментарным, таким как комментарии и ответы в форумах и блогах. Поэтому для повышения точности и более корректного определения эмоциональной окраски приходится задействовать статистические методы и подключать для анализа дополнительную информацию.

Например, если пользователь в социальной сети в явном виде отметил публикацию как нравящуюся ему и как-то прокомментировал, это помогает компьютерному алгоритму понять, какие термины данный пользователь обычно употребляет в позитивном ключе.

Аннотирование текстов и подготовка кратких рефератов

Аннотирование текстов и подготовка на основе толстых многостраничных документов их кратких рефератов – еще одна технология из рассматриваемого семейства. Многие знакомы с функцией «Автореферат», реализованной в текстовом редакторе MS Word.

Пользователь указывает системе, насколько надо сжать текст, и из всего текста автоматически выбираются наиболее значимые и важные предложения.

Очевидно, мнение пользователя о важности и значимости предложений в тексте может сильно не совпадать с мнением системы. Но даже два человека, если их попросить выделить самые главные предложения из текста, сделают это по-разному. Поэтому более совершенные технологии автореферирования позволяют задействовать механизмы самообучения, настраиваясь на предпочтения пользователей.

Наилучшим образом технологии автореферирования работают в тех задачах, в которых требуется «сжимать» большое количество однотипных документов по близким тематикам.

Анализ социального взаимодействия

В рассмотренных выше технологиях анализа неструктурированной информации программные алгоритмы работают с текстом как с некоей данностью, не принимая во внимание то, как, когда и откуда эти тексты появились, кем были созданы, как люди обменивались этими текстами друг с другом. Иначе говоря, не учитывалась информация о том, что документы или сообщения возникли в сложных процессах многочисленных коммуникаций между людьми. Эти коммуникации могут быть более формальными (взаимодействие в рамках СЭД или BPM-системы) или менее формальными (обмен сообщениями по электронной почте, переписка в системах обмена сообщениями или комментирование в блогах и форумах). Анализ топологии, динамики, семантики информационных потоков, создаваемых сообщениями электронной почты, постами и комментариями в блогах и социальных сетях, является источником важнейшей информации о том, как на самом деле работает та или иная организация, какие процессы в ней происходят, как сотрудники организации взаимодействуют друг с другом. Поэтому последние из технологий, которые мы затронем в рамках данной статьи, предназначены для анализа социальных сетей (Social Network Analysis).

Технологии для анализа социальных сетей

Строго говоря, под социальными сетями здесь понимается не семейство известных «убийц рабочего времени» (Facebook, Одноклассники и т.п.), а вообще любые формы коммуникаций между людьми.

Традиционные социальные структуры, изучавшиеся социологами с начала XX века, содержали несколько десятков, в лучшем случае – несколько сотен узлов. При таком небольшом количестве элементов, эти структуры и связи между ними еще можно было отобразить на одном рисунке в виде социограммы, предложенной создателем социометрии, американским психологом и социологом Якобом Леви Морено (1889–1974).

Сети социальных взаимосвязей, симпатий и антипатий в группах относительно небольшого масштаба и были фактически первыми примерами экспериментально исследуемых сетевых структур. Информацию для построения социограмм и дальнейшего анализа структуры взаимосвязей психологи и социологи собирали вручную, проводя многочисленные опросы участников обследуемого коллектива, выясняя их предпочтения, взаимоотношения, сложившиеся привычки и стереотипы в коммуникациях. Процесс ручного сбора информации является длительным, довольно дорогостоящим, может быть осложнен многочисленными субъективными факторами.

Не всегда понятно также, насколько честными и откровенными являются полученные ответы, не выдают ли опрашиваемые желаемое за действительное.

Технологии визуализации

Развитие электронных коммуникаций и компьютерной графики позволило автоматизировать работу по составлению и визуализации сложных сетей (социограмм, семантических сетей и т.д.) – появились специальные программные продукты, с помощью которых можно было рисовать графы нужного размера и формы по заранее собранным данным. Программные технологии визуализации, позволяющие наглядно отображать сложные сети и осуществлять навигацию по ним, стали еще одной важной технологией анализа неструктурированной информации.

В качестве узлов в таких сетях могут выступать, например, термины или люди, а в качестве связей – частота совместного употребления терминов или количество сообщений, которые люди отправляли друг другу.

Итак, мы рассмотрели некоторые базовые технологии, применяемые для поиска и анализа неструктурированной текстовой информации. Очевидно, рассмотрение это было весьма беглым и довольно поверхностным, а получившийся список технологий анализа неструктурированной информации, конечно же, не является исчерпывающим.

Область деятельности, связанная с анализом неструктурированной информации, очень широка и разнопланова, поэтому, к сожалению, многие интересные технологии остались за рамками данной статьи.

Мы не затронули, например, вопросы машинного перевода, технологии генерации текстов на естественном языке, кросс-языкового поиска, способы и алгоритмы фильтрации спама, технологии определения авторства и множество других интересных вопросов.

И, безусловно, рассматриваемые технологии продолжают активно развиваться, в том числе и исходя из практики конкретных программных продуктов, рассказ о которых читайте в следующей части статьи.

Д.А. Романов, канд.физ.-матем.наук, Национальный исследовательский университет «Высшая школа экономики»



Подписка на статьи

Чтобы не пропустить ни одной важной или интересной статьи, подпишитесь на рассылку. Это бесплатно.

Мероприятия

Мероприятия

Проверь свои знания и приобрети новые

Посмотреть

Самое выгодное предложение

Самое выгодное предложение

Воспользуйтесь самым выгодным предложением на подписку и станьте читателем уже сейчас

Живое общение с редакцией

Вебинар «Секретарь в соцсетях. Правила поведения»
Журнал «Справочник секретаря и офис-менеджера»

Рассылка




Вопрос - ответ

Отвечаем на Ваши вопросы

Какие реквизиты используются при оформлении приказов по основной деятельности?
Проекты приказов по основной деятельности готовятся по поручению руководителя организации в структурных подразделениях организации, оформляются на специальном бланке и содержат следующие реквизиты
Недавно устроилась секретарем в компанию, где передо мной встала задача наладить документооборот
Подскажите, как правильно начать формировать локальную нормативную базу и какие нормативные документы мне в этом помогут? Читайте ответ на вопрос
Задайте свой вопрос здесь>>> www.sekretariat.ru/pk

PRO Делопроизводство
Портал для руководителей служб ДОУ и секретарей всех уровней

Все права защищены. Полное или частичное копирование любых материалов сайта возможно только с письменного разрешения редакции сайта. Нарушение авторских прав влечет за собой ответственность в соответствии с законодательством РФ.

E-mail: document@sekretariat.ru


  • Мы в соцсетях
Вы - делопроизводитель? Зарегистрируйтесь!

Регистрация бесплатная и займет всего 1 минуту!
После регистрации вы сможете:

  • читать любые статьи по делопроизводству на нашем сайте!
  • бесплатно подписаться на ежедневные новости по делопроизводству
  • участвовать в вебинарах
  • задавать вопросы экспертам

Оставайтесь с нами!
с заботой о Вас, портал PRO - делопроизводство

У меня есть пароль
напомнить
Пароль отправлен на почту
Ввести
Я тут впервые
И получить доступ на сайт
Займет минуту!
Введите эл. почту или логин
Неверный логин или пароль
Неверный пароль
Введите пароль
Всего один шаг - и документ Ваш!

Только зарегистрированные пользователи могут скачивать материалы с сайта. Регистрация бесплатна и займет менее минуты. После нее Вы сможете загрузить документ, а также получите доступ к материалам и сервисам сайта.

У меня есть пароль
напомнить
Пароль отправлен на почту
Ввести
Я тут впервые
И получить доступ на сайт
Займет минуту!
Введите эл. почту или логин
Неверный логин или пароль
Неверный пароль
Введите пароль