![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Алгоритмы документального поиска. Полнотекстовое сканирование. Файлы сигнатур. Инверсия.
• Полнотекстовый поиск (англ. Full text searching, фр. Recherche en texte integral) — автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста[1]. Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.
19. Алгоритмы документального поиска. Кластеризация. Обработка естественного языка (NLP). Латентно-семантическое индексирование (LSI). • Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы[1][2][3][4]. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ выполняет следующие основные задачи: · Разработка типологии или классификации. · Исследование полезных концептуальных схем группирования объектов. · Порождение гипотез на основе исследования данных. · Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы: · Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные. · Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства. · Вычисление значений той или иной меры сходства (или различия) между объектами. · Применение метода кластерного анализа для создания групп сходных объектов. · Проверка достоверности результатов кластерного решения.
Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее. Латентно-семанти́ ческий ана́ лиз (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам. В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности выявление латентных связей изучаемых явлений или объектов. При классификации/кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов[1].
|