Индексация
Индексация – первая стадия обработки новых сообщений. При
индексировании сообщения также проходят различные этапы обработки,
составляющие в целом «конвейер индексирования».
Эти этапы могут включать в себя:
- выемку вложений, которые, если это требуется, также
направляются на обработку (пример документов с вложениями – письма
электронной почты (eml), тексты в службах мгновенного обмена
сообщениями (msg), zip архивы и др.);
- преобразование документов к единому формату (html или текстовый);
- парсинг – выделение из документа только значимой информации;
- определение языка документа;
- лексический анализ;
- морфологический анализ;
- удаление стоп-слов;
- обработка идиом (типа «Российская Федерация»), которые получают более высокий ранг, чем слова, их составляющие;
- дополнительное
распознавание лексических единиц (таких, например, как числа или даты в
разных написаниях для последующего поиска вне зависимости от их
написания).
После завершения индексации новые документы становятся доступными для поиска.
Категоризация и классификация
Категоризация и классификация
Категоризация и классификация используются для предоставления пользователям информации о содержании документов. В системе категоризация и классификация реализована в виде двухступенчатого процесса, что делает ее предсказуемой и гибкой.
Категоризация – это процесс, с помощью которого определяется содержание документа на основе таксономий. (Таксономия
– это иерархия категорий, представляющих некоторую область знаний.) Во
время индексирования сервис категоризации анализирует каждый документ,
чтобы определить, как он связан с категориями в одной или нескольких
таксономиях. Чтобы определить, с какими категориями совпадает документ,
сервис категоризации сравнивает термины и выражения в документе с
терминами и выражениями из таксономии. Когда совпадение найдено,
считается, что система «распознала» понятие.
В результате категоризации каждый документ, содержащий слова и
выражения, описывающие некоторую категорию, «закрепляется» за этой
категорией.
Классификация определяется двумя связанными понятиями:
- Классификация – это процесс размещения индексированных
документов в иерархию папок, которые являются представителями
категорий, выбранных из одной или нескольких таксономий.
- Классификация
– это также сама иерархия папок, которая используется для организации
полученных на запрос документов с целью предоставления этих документов
пользователю.
Классификация является адаптивной, т. е. меняется с учетом изменившихся требований и областей интересов пользователя.
Классификация может быть статической и динамической.
Статическая классификация. Классифицируются все
документы. Это дает возможность просмотреть законченный набор
документов, организованный на основе соответствующих категорий, без
составления запроса.
Динамическая классификация. Классификация множества
документов, полученных в результате поиска. Таким образом, появляется
возможность перемещения по результатам запроса, организованным в папки
классификации. При динамической классификации ссылки, которые связывают
документы с папками в рамках классификации, существуют, пока
сохраняется отображение результатов запроса.
Поиск
ИАС позволяет производить смысловой (ассоциативный), логический и нечеткий поиск.
Режимы поиска
Смысловой, или ассоциативный поиск
Одной из главных проблем поиска информации в неструктурированных
документах является проблема сложности точной формулировки запроса. Это
может быть связано с недостаточным знанием терминологии предметной
области или наличием в языке многозначных и синонимичных слов.
Очевидно, что если пользователь не имеет представления о предметной
области, то он сформулирует поисковый запрос в самом общем виде. В
результате выполнения этого запроса он получит большое количество
документов.
С другой стороны, сформированный «в общем виде» запрос может привести к пропуску важных документов (проблема точности).
Одним из решений этой проблемы является использование тематического
тезауруса, который обеспечивает расширение поискового запроса
родственными понятиями для улучшения полноты поиска.
Смысловой, или ассоциативный поиск
Нечеткий поиск
Этот механизм позволяет находить документы, в которых искомые
термины написаны с ошибками. В результате можно найти информацию о
человеке, фамилия которого написана с орфографическими ошибками. При
выдаче поискового запроса степень «похожести» может
регулироваться пользователем, что позволяет сузить либо расширить
запрос, увеличив количество полученных документов и отобрав нужные
документы. Кроме того, механизм поиска на основе распознавания образов
позволяет находить электронные документы, которые были отсканированы с
бумажных носителей и не были выверены на ошибки распознавания.
Логический поиск
Логический поиск является буквальным и находит только точные
совпадения. В списке результатов поиска может выводиться разнообразная
информация о найденном документе: заголовок, его тип, атрибуты, первые
строки, синсет-вектор (список слов, выбранных в процессе категоризации).
Просмотр найденного документа осуществляется в окне браузера.
Система фильтрации обеспечивает просмотр документов в их исходном
формате. При отображении документа происходит подсветка слов, по
которым данный документ был отобран.
Режимы поиска
Работа с функцией поиска возможна в двух режимах:
- пассивный поиск;
- активный поиск, или мониторинг.
В первом режиме пользователями производится разовый поиск информации
в обработанных системой файлах. Во втором – система автоматически
анализирует каждый поступающий файл на наличие в нем информации,
соответствующей условиям поискового запроса. Если файл содержит искомую
информацию, система сигнализирует об этом способом, выбранным
пользователем.
|