Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Ранжування результату пошуку ⇐ ПредыдущаяСтр 3 из 3
При пошуку для кожного знайденого документа Яндекс обчислює величину релевантності (відповідності) змісту цього документа пошуковому запиту. Список знайдених документів перед видачею користувачеві сортується за цією величиною в порядку зменшення. Релевантність документа залежить від ряду факторів, у тому числі від частотних характеристик слів, які треба знайти, ваги слова або виразу, близькості пошукових слів у тексті документа один до одного тощо. Користувач може вплинути на порядок сортування, використовуючи оператори ваги й уточнення запиту. Завдання ваги слова або виразу застосовується для того, щоб збільшити релевантність документів, які містять " зважений" вираз. Синтаксис: слово: число або (пошуковий_вираз): число За запитом 'пошукові механізми: 5' будуть знайдені ті ж документи, що і за запитом 'пошукові механізми'. Різниця полягає в тому, що зверху знайденого списку виявляться документи, де найчастіше зустрічається саме слово 'механізми'. Запит 'пошукові (механізми | машини | апарати): 5' рівнозначний запиту 'пошукові (механізми: 5 | машини: 5 | апарати: 5) '. Завдання уточнюючого слова або виразу застосовується для того, щоб збільшити релеватність документів, які містять уточнюючий вираз. Синтаксис: < - слово або < - (уточнюючий_вираз). За запитом 'комп'ютер < - телефон' будуть знайдені всі документи, що містять слово 'комп'ютер', при цьому першими будуть видані документи, що містять слово 'телефон'. Якщо ні в одному документі зі словом 'комп'ютер' немає слова 'телефон', результат запиту буде еквівалентний запиту 'комп'ютер'.
4.3 Служба WWW Служба WWW (World Wide Web) - призначена для обміну гіпертекстової інформацією. Проект був запропонований в 1989 році. У 1993 з'явився перший браузер. WWW побудована за схемою " клієнт-сервер". Браузер (Internet Explorer, Opera...) є мультипротокольним клієнтом і інтерпретатором HTML. І як типовий інтерпретатор, клієнт у залежності від команд (тегів) виконує різні функції. До кола цих функцій входить не тільки розміщення тексту на екрані, але обмін інформацією з сервером у міру аналізу отриманого HTML-тексту, що найбільш наочно відбувається при відображенні убудованих у текст графічних образів. Сервер HTTP (Apeche, IIS...) обробляє запити клієнта на отримання файла (в найпростішому випадку). Рисунок - Взаємодія клієнта і сервера по протоколу HTTP.
Спочатку служба WWW базувалася на трьох стандартах: o HTML (HyperText Markup Lan-guage) - мова гіпертекстової розмітки документів; o URL (Universal Resource Locator) - універсальний спосіб адресації ресурсів у мережі; o HTTP (HyperText Transfer Protocol) - протокол обміну гіпертекстової інформацією. Пізніше додали: o CGI (Common Gateway Interface) - універсальний інтерфейс шлюзів. Створений для взаємодії HTTP - сервера з іншими програмами, встановленими на сервері (наприклад, СУБД).
Основу служби складає мережа WWW-серверів, на яких розміщені гіпертекстові документи, об'єднані перехресними посиланнями. WWW-браузер (WWW-клієнт) послідовно зчитує документи з різних серверів. При цьому частини одного документа можуть зберігатися на різних серверах. WWW-браузер самостійно аналізує гіпертекстовий документ і формує запити на отримання необхідного фрагмента з необхідного сервера. Таким чином, з'являється можливість організовувати величезні сховища структурованої інформації, пошук і оновлення якої здійснюється з мінімальними витратами, крім цього відсутня необхідність в дублюванні документів. Саме з початком використання служби WWW значно спростився пошук і використання інформації. Основним форматом для подання гіпертекстових документів є HTML. Опис цього формату наведено нижче. Для обміну інформацією між WWW-серверами і клієнтами використовується протокол HTTP. 4.4 Протокол HTTP Перший документ (але не стандарт) - RFC1945 (Hypertext Transfer Protocol - HTTP/1.0 T. Berners-Lee, R. Fielding, H. Frystyk May 1996) Остання версія - RFC2616 (Hypertext Transfer Protocol - HTTP/1.1 R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach, T. Berners-Lee June 1999) Hypertext Transfer Protocol - протокол передачі гіпертексту, протокол високого рівня (а саме, рівня додатків). Використовується службою WWW для передачі Web-сторінок. Протокол HTTP визначає запит-відповідь спосіб взаємодії між програмою-клієнтом і програмою-сервером в рамках технології World Wide Web. Нижче наведено приклади запиту клієнта і відповіді сервера: Лістинг запиту і відповіді HTTP Встановлення з’єднання Connecting to ipm.kstu.ru... Запит клієнта GET /internet/index.php HTTP/1.1 - (запрос файла и указание протокола HTTP/1.1) Відповідь сервера Далі йде вміст файлу (тіло запиту). Робота по протоколу HTTP відбувається наступним чином: програма-клієнт встановлює TCP-з'єднання з сервером (стандартний номер порту-80) і видає йому HTTP-запит. Сервер обробляє цей запит і видає HTTP-відповідь клієнту. HTTP-запит складається з заголовка запиту і тіла запиту, розділених символом нового рядка. Тіло запиту може бути відсутнім. Тема запиту складається з головної (першої) рядка запиту і наступних рядків, уточнюючих запит у головній рядку. Наступні рядки також можуть бути відсутні. Запит у головній рядку складається з трьох частин, розділених пробілами: 1) Метод (інакше кажучи, команда HTTP): HEAD - запит заголовка документа. Відрізняється від GET тим, що видається тільки заголовок запиту з інформацією про документ. Сам документ не видається. POST - цей метод застосовується для передачі даних CGI-скриптів. Самі дані випливають у наступних рядках запиту у вигляді параметрів. PUT - помістити документ на сервері. Запит з цим методом має тіло, в якому передається сам документ. DELETE - використовується для видалення ресурсів, ідентифікованих за допомогою URI-запиту 2) Ресурс - це шлях до певного файлу на сервері (називається URI), який клієнт хоче отримати (або розмістити - для методу PUT). Якщо ресурс - просто якийсь файл для зчитування, сервер повинен за цим запитом видати його в тілі відповіді. Якщо ж це шлях до якого-небудь CGI-скрипту, то сервер запускає скрипт і повертає результат його виконання. До речі, завдяки такій уніфікації ресурсів для клієнта практично байдуже, що він являє собою на сервері. 3) Версия протокола - версия протокола HTTP, з якою працює клієнтська програма. Рядки після головної рядка запиту мають наступний формат:
Параметр: значення. Таким чином, задаються параметри запиту. Це є необов'язковим, всі рядки після головної рядка запиту можуть бути відсутні; в цьому випадку сервер приймає їх значення за замовчуванням або за результатами попереднього запиту (при роботі в режимі Keep-Alive).
Деякі параметри HTTP-запиту: Connection (соединение) - може приймати значення Keep-Alive і close. Keep-Alive (" залишити в живих") означає, що після видачі даного документа з'єднання з сервером не розривається, і можна видавати ще запити. Більшість браузерів працюють саме в режимі Keep-Alive, так як він дозволяє за одне з'єднання з сервером " завантажити" html-сторінку і малюнки до неї. Будучи одного разу встановленим, режим Keep-Alive зберігається до першої помилки або до явного вказівки в черговому запиті Connection: close. close (" закрити") - з'єднання закривається після відповіді на цей запит. User-Agent - значенням є " кодове позначення" браузера, наприклад:
Mozilla/4.0 (compatible; MSIE 5.0; Windows 95; DigExt) Accept - список підтримуваних браузерів типів вмісту в порядку їх переваги даними браузером, наприклад:
Accept: image / gif, image / x-xbitmap, image / jpeg, image / pjpeg, application / vnd.ms-excel, application / msword, application / vnd.ms-powerpoint, * / * Це, очевидно, потрібно для випадку, коли сервер може видавати один і той же документ в різних форматах. Значення цього параметра використовується в основному CGI-скриптами для формування відповіді, адаптованого для даного браузера. Referer - URL, з якого перейшли на цей ресурс. Host - ім'я хоста, з якого запитується ресурс. Корисно, якщо на сервері є декілька віртуальних серверів під одним IP-адресою. В цьому випадку ім'я віртуального сервера визначається по цьому полю. Accept-Language - мова, яка підтримується. Має значення для сервера, який може видавати один і той же документ в різних мовних версіях. Формат HTTP-відповіді: Формат відповіді дуже схожий на формат запиту: він також має заголовок і тіло, розділене нового рядка. Заголовок також складається з основної рядки і рядків параметрів, але формат основний рядка відрізняється від такої в заголовку запиту. Основна рядок запиту складається з 3-х полів, розділених пробілами: Версія протоколу - аналогічний відповідному параметру запиту. Код повернення (помилки, стану) - кодове позначення " успішності" виконання запиту. Наприклад, код 200 означає " все нормально" (OK). Значення кодів повернення по першій цифрі: 1xx: Інформаційний - Не використовується, але зарезервований для використання в майбутньому 2хх: Успіх - Запит був цілком отриманий, зрозумілий, і прийнятий до обробки. 3xx: Перенаправлення - Клієнту варто почати подальші дії для успішного виконання запиту. Необхідна додаткова дія іноді може бути виконано клієнтом без взаємодії з користувачем, але настійно рекомендується, щоб це мало місце тільки в тих випадках, коли метод, що використовується в запиті байдужий (GET або HEAD). 4xx: Помилка клієнта - Запит, що містить неправильні синтаксичні конструкції, не може бути успішно виконаний. Клас 4xx призначений для опису тих випадків, коли помилка була допущена з боку клієнта. Якщо клієнт ще не завершив запит, коли він отримав відповідь із Статус-Кодом-4xx, він повинен негайно припинити передачу даних серверу. Даний тип Статус-Кодів застосуємо для будь-яких методів, що вживаються в запиті. 5xx: Помилка Сервера - Сервер не зміг дати відповідь на коректно поставлений запит. У цих випадках сервер або знає, що він допустив помилку, або не здатний обробити запит. За винятком відповідей на запити HEAD, сервер посилає опис помилкової ситуації і те, чи є цей стан тимчасовим або постійним, в Зміст-Відповіді.Даний тип Статус-Кодів застосуємо для будь-яких методів, що вживаються в запиті. Найбільш часто зустрічаються: " 200"; OK - документ відправлений. " 404"; Not Found - документ не знайдений (помилка URL), клієнт повинен перевірити правильність написання URL, якщо не допомагає, значить, документ вже видалений. " 500 "; Internal Server Error - внутрішня помилка сервера, клієнт виправити не може, тільки адміністратор сервера. Словесний опис помилки - " розшифровка" попереднього коду. Наприклад, для 200 це OK, для 500 - Internal Server Error. Таблиця кодів повернення
Деякі параметри http-відповіді: Connection - ця відповідь аналогічний відповідному параметру запиту. Якщо сервер не підтримує Keep-Alive (є й такі сервери), то значення Connection у відповіді завжди close. Content-Type - містить позначення типу вмісту відповіді в MIME. В залежності від значення Content-Type браузер сприймає відповідь як HTML-сторінку, картинку gif або jpeg, як файл, який треба зберегти на диску, або як-небудь ще і робить відповідні дії.
Деякі типи вмісту:
text / html - текст у форматі HTML (веб-сторінка); text / plain - простий текст (аналогічний " блокнотовскому"); image / jpeg - картинка у форматі JPEG; image / gif - те ж, у форматі GIF; Також може передавати кодування для текстових даних. Наприклад: charset=windows-1251 charset=koi8-rus Content-Length - довжина вмісту відповіді в байтах (розмір файла). Last-Modified - дата і час останньої зміни документа. Під’єднання до HTTP за допомогою Telnet Під'єднатись до командного порту HTTP (80) і запитати файл robots.txt:
|