![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Поисковые машины.
Задача поисковых машин – найти документы в Интернете в соответствии с запросом пользователя. Поисковая система (Search Engine) реализована в виде Web-страницы с обычным адресом, которая содержит, так называемую, строку для поиска и кнопку Поиск (Search), а также может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п. Поисковые системы состоят из трех основных частей. Робот-паук-программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины. Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит определенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию. Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках необходимой информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место документа в списке определяется тем, насколько полно тот или иной документ соответствует критериям, указанным в запросе пользователя. Принципы работы паука, организации индекса, поисковой программы в поисковой машине, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты. Программа поиска отыскивает те страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой страницы будут представлены пользователю, применяется алгоритм ранжирования. Документы, наиболее полно соответствующие запросу пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако, основные критерии определения соответствия документа запросу следующие: количество слов запроса в текстовом содержимом документа; тэги, в которых эти слова располагаются; местоположение искомых слов в документе; удельный вес искомых слов в общем количестве слов документа; время – как долго страница находится в базе поискового сервера; индекс цитируемости – как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины. Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами. топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете. В 2000 г. специалисты компаний AltaVista и др. исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств свыше 600 млн веб-страниц и 1, 5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов: - центральное ядро – это тесно связанные между собой веб-страницы, с каждой из которых можно попасть на любую другую (27%); отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%); конечные страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%); полностью изолированные от ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных страниц (22%); веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%). Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Таким образом, информационное пространство интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины доступа не имеют. Глубина индексирования веб-сайтов. Большинство поисковых машин индексирует только определенное количество документов на одном веб-сайте. «Невидимый Интернет» (скрытый). «Видимая» часть сайтов – это та часть, которая обрабатывается поисковыми машинами и индексируется. «Невидимая» часть – та, которая не предназначена для обработки поисковыми системами (число документов «невидимой» части более чем в 500 раз превышает число документов «видимой» части). К невидимому Интернету относятся в первую очередь ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы представления информации (только недавно поисковые машины начали индексировать информацию в PDF-формате). Лидирующие позиции по количеству проиндексированных страниц занимают поисковые машины Google, AltaVista. При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментов поиска становиться полнотекстовой поиск по ключевым словам. В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы реализующие логические условия AND, OR, NOT, NEAR. Символьно обозначения поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Список наиболее популярных поисковых систем
|