![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Общие понятия. Для поиска информации в Интернете используют различные
Для поиска информации в Интернете используют различные
поисковые системы, которые еще называют поисковыми машинами.
Большинство этих программно-аппаратных комплексов осуществляют поиск веб-страниц. Однако существуют поисковики, способные находить
файлы на ftp-серверах, товары в интернет-магазинах, информационные новости, и многое другое.
Программную часть поисковой машины, используя аналогию с автомобилем,
часто называют поисковым движком.
Кроме того, под поисковой машиной часто подразумевают веб-сайт, на котором
размещен пользовательский интерфейс поисковой системы.
собирают сведения о размещенных в сети веб-страницах,
роботы или сокращенно боты,
перебирают веб-страницы сайтов, анализируют их HTML код
Для минимизации времени поиска собранная ботами информация в базе данных индексируются. При этом индексироваться могут не только слова или отдельные фразы текста, но и другие объекты веб-страниц.
Для повышения качества обслуживания некоторые поисковики обеспечивают так называемое кэширование информации, т.е. хранят в своей базе данных
целые фрагменты проанализированных веб-страниц.
Для частичного управления процессом индексирования веб-страниц в Интернете на http-серверах размещают файлы robots.txt. Эти файлы содержат инструкции поисковым роботам, что, по мнению владельцев сайта, необходимо индексировать, а что нет.
установкой паролей на его страницах,
требованием заполнить регистрационную форму перед тем, как
При этом порядок следования элементов в списке результатов поиска может определяться как самой поисковой системой, так и пользователем. Основным критерием качества работы поисковой машины является
релевантность поиска, т.е.степень соответствия запроса пользователя, найденной по этому запросу информации.
Следует иметь в виду, что на оценку полезности поисковой системы помимо алгоритмов ранжирования результатов существенное влияние оказывают:
полнота информационной базы поисковика и время его отклика на запросы пользователя, а также учет в запросах морфологии языка пользователя.
Например, в русском языке слова (с учетом падежей, единственного и множественного чисел и т.д.) могут иметь разные морфологические формы. Хорошая система должна учитывать эти особенности, т.е. поисковик должен найти веб-страницу со словом, независимо от того, в какой морфологической форме оно записано в запросе. Так, если в запросе используется слово “ проходили ”, то поисковик должен найти множество страниц, в том числе и те, в которых присутствует слово “ прошли ”. Причем, учитывая все морфологические формы слов, поисковик должен различать части речи. В частности,
существительное и прилагательное не должны рассматриваться как разные морфологические формы одного слова.
В настоящее время несомненным лидером поисковых систем Интернета является поисковик корпорации Google. Отметим, что Google является
“ всеязычнной ” системой, т.е. Google собирает, индексирует и ищет веб-страницы практически на всех языках мира. В отличие от Google большинство российских поисковиков, в том числе, самый популярный отечественный поисковик Яндекс, хотя и позволяют работать с многими языками, но в основном специализируются на более глубоком индексировании веб-страниц в доменных зонах с русскоязычными сайтами.
|