Как работает поисковый робот

Впервые здесь? Подпишитесь и получайте обновления блога по RSS или получайте новые посты на вашу электронную почту.
Разместите ваши баннеры на моём блоге.
Спасибо за визит!

На эту тему есть подробный faq на Яндексе по адресу http://help.yandex.ru/webmaster/?id=995296
Подробный, но не достаточно информативный. Так, например, на прямой вопрос, причём, заданный самому себе: «Что такое робот поисковой системы и что он делает?» Яндекс себе и отвечает:  

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

Как видим, ответ имеется только на вторую часть вопроса. Ведь что такое робот, мы так и не узнали. Обратимся к независимым экспертам с Wikipedia.

Поисковый робот («веб-паук», паук, спайдер, краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.

Уже яснее. Робот - это программа. Программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы. Кроме того, робот подчиняется и автору или администратору веб-сайта. Для подчинения себе робота поисковика админ сайта должен грамотно исполнить танец с бубном написать инструкции в файле robots.txt, который файл является инструкцией для робота, какие страницы не заносить в свой индекс. Заметим при этом, что доступ на эти страницы, если на них есть входящие ссылки, для робота всё-таки открыт. Он только не заносит их в индекс, хотя, учитывая его подчинение определённым алгоритмам поисковой системы, очень часто меняющимся, для абсолютной уверенности в том, что ваши секретные данные не станут по ошибке достоянием народа, лучше перестраховаться и установить таки пароль на свою страницу или другие препоны для роботов, например sms-замок :) Роботы, конечно, постоянно совершенствуются интеллектуально, но что-то мне говорит, что платить по карточке или с помощью смс не научатся принципиально никогда.

А ниже мы видим ссылку на скрипт, с помощью которого сможем проверить, какие страницы на сервере защищены от роботов Яндекса соответствущими инструкциями в robots.txt: скрипт

На ту же тему:

Робоблог Поделитесь на твиттере или добавьте в закладки!
Search-Bot Log

Понравилась запись? Обязательно подпишитесь на обновление по RSS или по email!

Оставьте свой отзыв!

Я не робот.