Как работает поисковый робот
На эту тему есть подробный faq на Яндексе по адресу http://help.yandex.ru/webmaster/?id=995296
Подробный, но не достаточно информативный. Так, например, на прямой вопрос, причём, заданный самому себе: «Что такое робот поисковой системы и что он делает?» Яндекс себе и отвечает:
Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.
Как видим, ответ имеется только на вторую часть вопроса. Ведь что такое робот, мы так и не узнали. Обратимся к независимым экспертам с Wikipedia.
Поисковый робот («веб-паук», паук, спайдер, краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.
Уже яснее. Робот - это программа. Программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы. Кроме того, робот подчиняется и автору или администратору веб-сайта. Для подчинения себе робота поисковика админ сайта должен грамотно исполнить танец с бубном написать инструкции в файле robots.txt, который файл является инструкцией для робота, какие страницы не заносить в свой индекс. Заметим при этом, что доступ на эти страницы, если на них есть входящие ссылки, для робота всё-таки открыт. Он только не заносит их в индекс, хотя, учитывая его подчинение определённым алгоритмам поисковой системы, очень часто меняющимся, для абсолютной уверенности в том, что ваши секретные данные не станут по ошибке достоянием народа, лучше перестраховаться и установить таки пароль на свою страницу или другие препоны для роботов, например sms-замок :) Роботы, конечно, постоянно совершенствуются интеллектуально, но что-то мне говорит, что платить по карточке или с помощью смс не научатся принципиально никогда.
А ниже мы видим ссылку на скрипт, с помощью которого сможем проверить, какие страницы на сервере защищены от роботов Яндекса соответствущими инструкциями в robots.txt: скрипт
Похожие записи
Понравился пост? Выскажись или подпишись на RSS, порадуй робота!

Реклама, маркетинг, web-разработка. 

Комментарии
Еще никто не комментировал.
Sorry, the comment form is closed at this time.