Анализ неструктурированной информации

324
Анализ неструктурированной информации подразумевает разложение целого на составные части. В качестве неструктурированной информации в данном случае рассматриваются любые текстовые данные – письма с электронной почты, публикации в соцсетях и блогах, текстовые документы и др. Для разделения текста на составные части (слова, фразы) применяется технология, которая позволяет извлекать нужные части текста из массы различных источников неструктурированной информации и распознавать самые разные файловые форматы.

Источники и файловые форматы неструктурированной информации

В средних и крупных компаниях используется несколько десятков текстовых форматов файлов и не меньшее количество источников хранения информации (файловые папки, реляционные базы данных, CAD-системы, хранилища на серверах MS Exchange и SharePoint). CAD-системы (сomputer-aided design) реализуют программное решение конструкторских задач и оформление конструкторской документации (САПР).

Большинство средств для извлечения текста из корпоративных источников выполнены в виде отдельных модулей – программных адаптеров. Эти модули настраиваются на используемые в компании информационные системы, извлекают из них текст и выполняют его морфологический анализ. При этом используются следующие базовые инструменты:

  • морфологический и синтаксический разбор для поиска и анализа неструктурированной текстовой информации;
  • технология нахождения в тексте всех упоминаний информационных объектов;
  • определение степени схожести текстов;
  • технология обработки фактографических данных;
  • классификация текстовых документов;
  • анализ эмоциональной окраски текста и др.

Развиваем логическое мышление (Эффективная работа с информацией)


Программные продукты для поиска и анализа неструктурированной информации успешно используют технологии текстовой аналитики для решения сложных задач. Помимо всем известного интернет-поиска, созданные средства применяются и для более широких задач, от грамотной контекстной рекламы до анализирующих профили пользователей соцсетей рекомендательных систем. Рассмотрим возможные варианты реализации данных технологий в рамках корпоративного использования.

Корпоративная поисковая система

Один из самых известных вариантов применения рассматриваемых технологий – реализация ограничений прав доступа к документам как в прямом просмотре, так и в  полнотекстовом поиске в рамках корпоративной информационной системы. В простейшем варианте корпоративный поиск представляет собой систему, формирующую индексный массив из всех возможных ключевых слов к тексту. По заданным ключевым словам система выполняет поиск в массиве, где записано, на каких позициях и в каких файлах находятся данные ключи. При успешном поиске пользователю предоставляется нужный файл с искомым тексом.

Реальные поисковые системы имеют намного больше возможностей. В частности, в корпоративных поисковиках реализован учет прав доступа пользователей к файлам при полнотекстовом поиске, а также поддержка технологии классификации информации. Корпоративные поисковые системы предоставляют результаты поиска в удобной пользователям форме, поддерживают поиск не только по содержанию документов, но и по их атрибутам, могут интегрироваться с системами электронного документооборота, архивами и другими типами информационных систем.

Система поиска экспертов

Система поиска экспертов позволяет в кратчайшие сроки в рамках большой и сложной организации найти сотрудника с нужными компетенциями для участия в сложном проекте. Система проводит автоматический анализ контента, с которым работает персонал организации (внутренняя электронная почта, научные публикации и др.), и выдает список подходящих сотрудников. Причем поиск может быть настроен как на внутрикорпоративную среду (если нужно найти эксперта среди сотрудников организации), так и на внешнюю – поиск проводится в открытой информации в интернете: статьи в научных журналах, сообщения в блогах, на форумах и т.д.

Мониторинг СМИ

Технологии анализа неструктурированной информации широко используются в мониторинге СМИ и анализе публикаций о компании в открытых электронных источниках (интернете). Система проводит сбор и систематизацию сведений о продуктах, проектах компании, топ-менеджерах, конкурентах. Сбор и анализ таких сведений помогает достичь ряда целей, направленных на улучшение информационного фона организации. Что покупатели думают о продуктах и услугах компании, какие инновационные продукты запускают конкуренты – все это заметно влияет на динамику курса акций организации. Поэтому для подобной бизнес-разведки требуется практически весь спектр технологий анализа неструктурированной информации.

Анализ резюме для HR 

Управление персоналом ‒ важная область применения технологий анализа неструктурированной информации. Система управления персоналом автоматически сканирует сайты с описаниями вакансий компаний и резюме соискателей, анализирует информацию, сопоставляет компетенции специалистов и требования работодателей, выбирая наилучшее соответствие.

Анализ корпоративной культуры и бизнес-процессов

В этом случае стоит задача развития организации в целом, и анализ данных направлен не на отдельного человека-кандидата, а на группу людей, их информационные потоки и способы взаимодействия. Взаимодействие между людьми является одной из составляющих корпоративной культуры.

В зависимости от типа организационных структур (авторитарных или демократичных) проводится анализ динамики, топологии, семантики информационных потоков. Это позволяет вывить в организации сотрудников, работающих над схожими задачами, но не взаимодействующих друг с другом по этому процессу. Система помогает увидеть реальную картину бизнес-процессов, обнаружить их «узкие места», решить множество важных задач организационного развития.

Правовая экспертиза

Система правовой экспертизы существенно упрощает проверку проектов нормативных правовых актов (НПА), организационных и иных документов. Благодаря работе данной системы можно быстро установить:

  • нет ли в документе ссылок на НПА, утративших силу;
  • нет ли в документе избыточного дублирования нормативной документации;
  • соответствуют ли оформление и структура документа установленным в организации правилам;
  • соответствуют ли друг другу суммы, указанные цифрами и прописью, правильно ли рассчитан НДС, нет ли других ошибок в договоре и т. п.

Как подружиться со временем и достичь жизненного баланса?


Система автоматически определит, соответствуют ли упоминания в документе контроганизаций текущему положению дел. Интеграция с системой бухгалтерского учета поможет найти несовпадения в платежных документах, с реестром доверенностей – обнаружить, не истек ли срок действия полномочий у доверенного лица. Все ссылки на внешние или внутренние документы система сама трансформирует в гипертекстовые, предоставляя пользователю быстрый доступ к конкретному разделу или статье НПА нужного документа. Помимо этого, система выполняет автоматический подбор дел с похожей правовой ситуацией и анализ арбитражной практики.

Мониторинг электронных торговых площадок

Система автоматически отслеживает многочисленные торговые площадки в интернете и информирует сотрудников о появлении потенциально интересного заказа, открытия конкурса или тендера. Для грамотной работы ей необходимо один раз задать в качестве примера несколько десятков документов (технические задания, документация на аналогичные конкурсы и др.). Далее ручная настройка не понадобится, система сама проведет анализ имеющихся данных и определит профиль потенциальных интересов организации.

Обнаружение плагиата

Технологии анализа неструктурированной текстовой информации позволили создать решения по выявлению заимствований текста, тем самым значительно снизили издержки и репутационные риски в работе заинтересованных организаций. Современные решения по обнаружению плагиата весьма сложны и эффективны. Они выявляют попытки маскировки факта плагиата: перестановку слов, добавление «воды», замену слов на синонимы, вставку похожих символов из другого алфавита и проч. Еще одна особенность системы ‒ исследование семантической схожести текстов.

Маршрутизация документов

Система электронного документооборота самостоятельно анализирует содержание поступившего в организацию входящего документа и предлагает перечень подразделений, которые обычно занимаются исполнением документов с похожей тематикой. При работе с  внутренним документом система обнаруживает упомянутые в тексте наименования структурных подразделений, освобождая специалистов от ручного анализа текста. Однако система не принимает решение за человека, а лишь собирает и предоставляет сотруднику всю возможную информацию. Это существенно облегчает работу сотрудников, позволяет избежать ошибки и делает исполнение документа более эффективным.

Анализ обращений граждан

Автоматизация работы с письмами и обращениями граждан еще одно полезное решение технологий анализа неструктурированной информации. Система работы с обращениями за считанные секунды подготавливает Анализ неструктурированной информациианалитический отчет по обнаруженным в письме, жалобе или заявлении информационным объектам (персоны, организации, адреса и т. п.). Также автоматически проводится анализ темы обращений, ее актуальности в заданный период времени, распределение заявлений на карте города.

Важной функцией системы является обеспечение непротиворечивости ответов от организации. В больших и территориально разветвленных организациях ответы на обращения граждан готовят множество разных сотрудников, поэтому есть риск, что на одинаковые обращения будут отправлены разные по смыслу официальные ответы. Для устранения этого риска система автоматически предоставляет сотруднику уже обработанные заявления по схожей тематике и выданные на них ответы.

Интеллектуальный корректор орфографии

Без средства проверки орфографии сегодня не работает ни одна система набора текста. Волнистая красная линия позволяет быстро исправлять грубые ошибки и опечатки в документах. Однако обычные встроенные средства проверки орфографии распознают лишь простые опечатки.

Поэтому часто возникает необходимость в более глубоком анализе грамотности текста, например, когда формально правильные слова составляют бессмысленную комбинацию или когда опечатка наборщика приводит к изменению смысла текста, но не является опечаткой для обычного корректора орфографии. Например, опечатка в слове «честный» и получение слова «частный» существенно изменит смысл текста, но никак не обнаружится средствами обычной проверки орфографии.


Правило Парето 80/20, или Как научиться понимать, что на самом деле важно в вашей работе (Школа практической психологии)


Интеллектуальный корректор орфографии реализован с учетом подобных ошибок, технологии анализа неструктурированной информации в данном случае помогают существенно повысить грамотность текста.

Управление подписками и новостными потоками

Гигабайты новостей ежедневно выливаются на современного потребителя. Социальные сети, новостные порталы, традиционные СМИ пытаются донести свою информацию через разные каналы, часто дублируя друг друга, так что полезная и нужная информация тонет в массе этого отвлекающего внимание мусора. Системы управления подписками на основе технологий анализа неструктурированной информации выводят управление новостными потоками на новый уровень.

Автоматически анализируя предпочтения пользователя, системы исключают дублирование новостных потоков и помогают найти интересные ему информационные ресурсы. Важно заметить, что анализ информационных предпочтений потребителя осуществляется именно в интересах самого потребителя, а не внешнего рекламодателя.

Защита от утечки информации

Борьба с недобросовестными сотрудниками-инсайдерами, в корыстных целях использующими доступ  к коммерческой информации, актуальна для любой организации. Создание на основе технологий анализа неструктурированной информации DLP-систем (Data Loss Prevention) в программных продуктах позволяет успешно предотвращать утечку конфиденциальной информации.

Итак, можно сделать вывод, что разнообразие программных решений на основе технологий анализа неструктурированной информации, несмотря на разные подходы к их оценке, являются весьма эффективными и перспективными для развития любой организации.

Анонсы будущих номеров

    Подробнее о журнале


    Ваша персональная подборка

      Подписка на статьи

      Чтобы не пропустить ни одной важной или интересной статьи, подпишитесь на рассылку. Это бесплатно.

      Рекомендации по теме

      Мероприятия

      Мероприятия

      Проверь свои знания и приобрети новые

      Посмотреть

      Самое выгодное предложение

      Самое выгодное предложение

      Воспользуйтесь самым выгодным предложением на подписку и станьте читателем уже сейчас

      Живое общение с редакцией

      Вебинар «Секретарь в соцсетях. Правила поведения» Вебинар «Секретарь в соцсетях. Правила поведения»
      Журнал «Справочник секретаря и офис-менеджера»

      Рассылка




      Вопрос - ответ

      Отвечаем на Ваши вопросы

      Какие реквизиты используются при оформлении приказов по основной деятельности?
      Проекты приказов по основной деятельности готовятся по поручению руководителя организации в структурных подразделениях организации, оформляются на специальном бланке и содержат следующие реквизиты
      Недавно устроилась секретарем в компанию, где передо мной встала задача наладить документооборот
      Подскажите, как правильно начать формировать локальную нормативную базу и какие нормативные документы мне в этом помогут? Читайте ответ на вопрос
      Задайте свой вопрос здесь>>> www.sekretariat.ru/pk

      PRO Делопроизводство
      Портал для руководителей служб ДОУ и секретарей всех уровней

      Все права защищены. Полное или частичное копирование любых материалов сайта возможно только с письменного разрешения редакции сайта. Нарушение авторских прав влечет за собой ответственность в соответствии с законодательством РФ.

      E-mail: document@sekretariat.ru

      
      • Мы в соцсетях
      Вы - делопроизводитель? Зарегистрируйтесь!

      Регистрация бесплатная и займет всего 1 минуту!
      После регистрации вы сможете:

      • читать любые статьи по делопроизводству на нашем сайте!
      • бесплатно подписаться на ежедневные новости по делопроизводству
      • участвовать в вебинарах
      • задавать вопросы экспертам

      Оставайтесь с нами!
      с заботой о Вас, портал PRO - делопроизводство

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль
      Всего один шаг - и документ Ваш!

      Только зарегистрированные пользователи могут скачивать материалы с сайта. Регистрация бесплатна и займет менее минуты. После нее Вы сможете загрузить документ, а также получите доступ к материалам и сервисам сайта.

      У меня есть пароль
      напомнить
      Пароль отправлен на почту
      Ввести
      Я тут впервые
      И получить доступ на сайт Займет минуту!
      Введите эл. почту или логин
      Неверный логин или пароль
      Неверный пароль
      Введите пароль