![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Эволюция поисковых систем и факторов ранжирования ⇐ ПредыдущаяСтр 4 из 4
Эволюция не играет дважды в одну и ту же игру.
После появления Google в 98-ом в алгоритмах появился ссылочный фактор, используемый в различных моделях информационного поиска. Теперь текстовой релевантности стало недостаточно, необходимо было получить также ссылочную релевантность и PageRank, что повлекло за собой, впоследствии, волну ссылочного спама в разных его проявлениях, который мы можем наблюдать и по сей день.
Информационный поиск в Веб. Основные задачи. Компоненты информационно-поисковой системы Веб. Сбор документов из сети. • По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующиепоисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨ ]. В архитектуру поисковой системы обычно входят: · поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов, · индексатор, обеспечивающий быстрый поиск по накопленной информации, и · поисковик — графический интерфейс для работы пользователя[⇨ ].
Информационный поиск в Веб. Индексирование документа. Преобразование полнотекстового документа в набор индексных терминов. Использование текста входящих гиперссылок. Выполнение запросов. • Поиско́ вый и́ ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́ рование [⇨ ], совершаемоепоисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете. Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках[1][⇨ ]. Мультимедийные документы, такие как видео и аудио[2] и графика[3][4], также могут участвовать в поиске. Метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса. Большие сервисы, как правило, выполняют индексацию в заданном временно́ м интервале из-за необходимого времени и затрат на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.
Синтаксический анализ (или парсинг) документа предполагает разбор документа на компоненты (слова) для вставки в прямой и инвертированный индексы. Найденные слова называют токенами (англ. token), и в контексте индексации поисковых систем и обработки естественного языка парсинг часто называют токенизацией (то есть разбиением на токены). Синтаксический анализ иногда называют частеречной разметкой, морфологическим анализом, контент-анализом, текстовым анализом, анализом текста, генерацией согласования, сегментацией речи, лексическим анализом. Термины «индексация», «парсинг» и «токенизация» взаимозаменяемы в корпоративном сленге. Обработка естественного языка постоянно исследуется и улучшается. Токенизация имеет проблемы с извлечением необходимой информации из документов для индексации, чтобы поддерживать качественный поиск. Токенизация для индексации включает в себя несколько технологий, реализация которых может бытькоммерческой тайной.
Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке. Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другоймультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.
|