Как работает поисковый робот How does a search robot
На эту тему есть подробный faq на Яндексе по адресу http://help.yandex.ru/webmaster/?id=995296 On this subject, there is a detailed faq on Yandex at http://help.yandex.ru/webmaster/?id=995296
Подробный, но не достаточно информативный. A detailed, but not sufficiently informative. Так, например, на прямой вопрос, причём, заданный самому себе: «Что такое робот поисковой системы и что он делает?» Яндекс себе и отвечает: For example, to a direct question, and asked himself: «What is a robot search engine and what he does?» Yandex imagine, and answers:
Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Robot (English crawler) keeps a list of URL, it may index, and regularly download the corresponding documents. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. If the analysis instrument robot detects a new link, he adds it to your list. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса. Thus, any document or site, which links can be found, a robot, and hence the search for Yandex.
Как видим, ответ имеется только на вторую часть вопроса. As we can see, the answer is only available in the second part of the question. Ведь что такое робот, мы так и не узнали. After all, what robot, we have not learned. Обратимся к независимым экспертам с Wikipedia. Turning to the independent experts from Wikipedia.
Поисковый робот («веб-паук», паук, спайдер, краулер) — программа , являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. The search robot ( «web spider», spider, spider, krauler) - program, which is an integral part of the search engine and designed to circumvent the Internet in order to record information about them (keywords) in the database search engine. In its essence, the spider most recalls ordinary browser. He scans the content of the page, zabrasyvaet it to the server search engine, which is owned and administered by the links on the following page. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. The owners of search engines typically limit the depth of penetration of the spider inside the site and the maximum size of scanned text, so too large sites may not be fully indexed search engine. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету. In addition to conventional spiders, there are the so-called «dyatly» - robots that «prostukivayut» indexed site to determine that he was connected to the Internet.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины. Order of circumventing pages, the frequency of the visits, Protection of infinite loop, as well as the selection criteria keywords to determine how search engine.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. In most cases, moving from one page to another is based on references to the first and subsequent pages.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Many search engines offer users the opportunity to add the site to turn to index. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании. Usually it is significantly accelerates indexing site, and when no external links do not lead to the site, have provided the only opportunity to declare its existence.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Restrict indexing your site using the file robots.txt, but some search engines may ignore the existence of this file. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Full protection of indexing provides a mechanism to circumvent the spiders are still unable to. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы. Usually - plant password on the page, or a requirement to fill in a registration form before gaining access to content pages.
Уже яснее. Робот - это программа . Already clearer. Robot - a program. Программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы . The program, built-in search engine as its integral part and subject to algorithms that search engine. Кроме того, робот подчиняется и автору или администратору веб-сайта. In addition, the robot is subject and the author or website administrator. Для подчинения себе робота поисковика админ сайта должен грамотно исполнить танец с бубном написать инструкции в файле robots.txt, который файл является инструкцией для робота, какие страницы не заносить в свой индекс. For the subordination of a robotic search engine site administrator to perform competently with the diamonds tanec write the instructions in your robots.txt, a file which is the instruction for the robot, which pages are not recorded in its index. Заметим при этом, что доступ на эти страницы, если на них есть входящие ссылки, для робота всё-таки открыт. Please note that access to these pages, if they have included references to the robot did open. Он только не заносит их в индекс, хотя, учитывая его подчинение определённым алгоритмам поисковой системы, очень часто меняющимся, для абсолютной уверенности в том, что ваши секретные данные не станут по ошибке достоянием народа, лучше перестраховаться и установить таки пароль на свою страницу или другие препоны для роботов, например sms-замок :) Роботы, конечно, постоянно совершенствуются интеллектуально, но что-то мне говорит, что платить по карточке или с помощью смс не научатся принципиально никогда. He not only captures their index, although, given its subordination to a certain search engine algorithms, very often changing, for absolute certainty that your sensitive information will not be mistakenly heritage people, better reinsurance and install such a password to your page, or other hurdles for robots, such as sms-lock:) Robots, of course, constantly improving intelligence, but something I said that to pay for the card, or by using SMS is not a never learn.
А ниже мы видим ссылку на скрипт, с помощью которого сможем проверить, какие страницы на сервере защищены от роботов Яндекса соответствущими инструкциями в robots.txt: скрипт A below, we see a reference to the script, through which can check which pages on a server protected from bots, Yandex sootvetstvuschimi instructions in the robots.txt: script
Оставайся на связи! Новости по RSS ! Stay in touch! News RSS!
Похожие записи Related Articles
Понравился пост? Выскажись или подпишись на RSS , порадуй робота! Like the Post? Express or subscribe to RSS, will make the robot!



Комментарии Comments
Еще никто не комментировал. Yet no one commented.
Оставьте комментарий Leave a comment
правила комментирования Rules comment