Как работает поисковый робот Wie funktioniert ein Roboter Suche
На эту тему есть подробный faq на Яндексе по адресу http://help.yandex.ru/webmaster/?id=995296 Zu diesem Thema gibt es eine ausführliche FAQ auf Yandex auf http://help.yandex.ru/webmaster/?id=995296
Подробный, но не достаточно информативный. Eine ausführliche, aber nicht ausreichend informativ. Так, например, на прямой вопрос, причём, заданный самому себе: «Что такое робот поисковой системы и что он делает?» Яндекс себе и отвечает: Zum Beispiel, auf eine direkte Frage, und fragte sich: «Was ist ein Roboter Suchmaschine und was er tut?» Yandex vorstellen, und Antworten:
Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Robot (Englisch Crawler) hält eine Liste von URL, es Mai-Index, regelmäßig und laden Sie die entsprechenden Dokumente. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Wenn die Analysen Instrument Roboter erkennt einen neuen Link, fügt er hinzu sie zu Ihrer Liste. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса. So, jedes Dokument oder Website, die Links gefunden werden kann, ein Roboter, und damit die Suche nach Yandex.
Как видим, ответ имеется только на вторую часть вопроса. Wie wir sehen können, die Antwort steht nur zur Verfügung, im zweiten Teil der Frage. Ведь что такое робот, мы так и не узнали. Nach allem, was Roboter, wir haben nicht gelernt. Обратимся к независимым экспертам с Wikipedia. Was die unabhängigen Experten aus Wikipedia.
Поисковый робот («веб-паук», паук, спайдер, краулер) — программа , являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. Die Such-Roboter ( «Web-Spider», Spinne, Spinne, krauler) - Programm, das ist ein integraler Bestandteil der Suchmaschine und zur Umgehung des Internet, um Informationen über sie (Keywords) in der Datenbank-Suchmaschine. In seiner Essenz, die Spinne am weist darauf hin, normalen Browser. Er scannt den Inhalt der Seite, zabrasyvaet es an den Server-Suchmaschine, die ist im Besitz und verwaltet durch die Links auf der folgenden Seite. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Die Besitzer von Suchmaschinen allgemein durch eine Begrenzung der Eindringtiefe der Spinne innerhalb der Website und die maximale Größe der gescannten Text, so dass auch große Websites Mai nicht vollständig indiziert Suchmaschine. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету. Zusätzlich zu konventionellen Spinnen, gibt es die so genannte «dyatly» - Roboter, die «prostukivayut» indizierten Website, um festzustellen, dass er mit dem Internet verbunden.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины. Reihenfolge der Seiten zu umgehen, die Häufigkeit der Besuche, Schutz der Endlosschleife, sowie der Auswahlkriterien Stichworte, um festzustellen, wie Suchmaschine.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. In den meisten Fällen, von einer Seite zu einer anderen ist auf der Grundlage von Hinweisen auf die erste und die folgenden Seiten.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Viele Suchmaschinen bieten Benutzern die Möglichkeit, die Website hinzufügen, um zum Index. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании. In der Regel ist es deutlich beschleunigt Indizierung Website, und wenn kein externer Links nicht dazu führen, dass die Website, haben die einzige Möglichkeit zu erklären, seine Existenz.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Beschränken Sie die Indizierung Ihrer Website mit Hilfe der Datei robots.txt, aber einige Suchmaschinen Mai ignorieren die Existenz dieser Datei. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Vollständiger Schutz der Indizierung bietet einen Mechanismus zur Umgehung der Spinnen sind noch nicht in der Lage. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы. In der Regel - Anlage Passwort auf der Seite, oder eine Verpflichtung, füllen Sie ein Anmeldeformular vor dem Zugriff auf Content-Seiten.
Уже яснее. Робот - это программа . Bereits klarer. Robot - ein Programm. Программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы . Das Programm, built-in-Suchmaschine als integraler Bestandteil und unterliegt Algorithmen, Suchmaschine. Кроме того, робот подчиняется и автору или администратору веб-сайта. Darüber hinaus ist der Roboter ist und der Autor oder Website-Administrator. Для подчинения себе робота поисковика админ сайта должен грамотно исполнить танец с бубном написать инструкции в файле robots.txt, который файл является инструкцией для робота, какие страницы не заносить в свой индекс. Für die Unterordnung der ein Robot-Suchmaschine Website-Administrator, um kompetent mit den Diamanten Tanz schreiben Sie den Anweisungen in Ihrer robots.txt, eine Datei, ist die Anweisung für den Roboter, die Seiten werden nicht erfasst, in seinem Index. Заметим при этом, что доступ на эти страницы, если на них есть входящие ссылки, для робота всё-таки открыт. Bitte beachten Sie, dass der Zugang zu diesen Seiten, wenn sie enthalten Verweise auf die Roboter haben geöffnet. Он только не заносит их в индекс, хотя, учитывая его подчинение определённым алгоритмам поисковой системы, очень часто меняющимся, для абсолютной уверенности в том, что ваши секретные данные не станут по ошибке достоянием народа, лучше перестраховаться и установить таки пароль на свою страницу или другие препоны для роботов, например sms-замок :) Роботы, конечно, постоянно совершенствуются интеллектуально, но что-то мне говорит, что платить по карточке или с помощью смс не научатся принципиально никогда. Er erfasst nicht nur ihren Index, obwohl, da ihre Unterordnung unter eine bestimmte Suchmaschine Algorithmen, sehr oft ändern sich, für die absolute Gewissheit, dass Ihre sensiblen Daten werden nicht fälschlicherweise Erbe Menschen, besser Rückversicherung und installieren Sie ein solches Passwort zu Ihrer Seite, oder andere Hürden für Roboter, wie zum Beispiel SMS-Sperre:) Roboter, der natürlich ständig zu verbessern, Intelligenz, sondern etwas, was ich gesagt, dass zu zahlen für die Karte, oder mithilfe von SMS ist nicht ein nie erfahren.
А ниже мы видим ссылку на скрипт, с помощью которого сможем проверить, какие страницы на сервере защищены от роботов Яндекса соответствущими инструкциями в robots.txt: скрипт Ein unten, sehen wir einen Verweis auf das Skript, mit dessen Hilfe können überprüfen, welche Seiten auf einem Server vor-Bots geschützt, Yandex sootvetstvuschimi Anweisungen in der robots.txt: Skript
Не пропусти! Главное - по RSS ! Verpassen Sie sie nicht!-Index - auf der RSS!
Похожие записи Verwandte Artikel
Понравился пост? Выскажись или подпишись на RSS , порадуй робота! Wie die Post? Express oder RSS Feed abonnieren, wird der Roboter!



Комментарии Kommentare
Еще никто не комментировал. Doch niemand kommentiert.
Оставьте комментарий Schreibe einen Kommentar
правила комментирования Regeln Kommentar