Поисковые роботы

Для сканирования сайтов поисковые системы используют роботов (пауков, краулеров) — программы для индексации страниц и занесения полученной информации в базу данных. Принцип действия паука похож на работу браузера: он оценивает содержимое страницы, сохраняет ее на сервере поисковика и переходит по гиперссылкам в другие разделы.

Разработчики поисковых систем могут ограничивать максимальный объем сканируемого текста и глубину проникновения робота внутрь ресурса. Поэтому для эффективной раскрутки сайта эти параметры корректируют в соответствии с особенностями индексации страниц различными пауками.

Частота визитов, порядок обхода сайтов и критерии определения релевантности информации запросам пользователей задаются поисковыми алгоритмами. Если на продвигаемый ресурс ведет хотя бы одна ссылка с другого сайта, роботы со временем его проиндексируют (чем больше вес линка, тем быстрее). В обратном случае для ускорения раскрутки сайта его URL добавляют в базу данных поисковых систем вручную.

Виды пауков

В зависимости от назначения различают следующие виды поисковых роботов.

  • национальные, или главные. Собирают информацию с одного национального домена, например, .ru или .su, и принятых к индексации сайтов;
  • глобальные. Осуществляют сбор данных со всех национальных сайтов;
  • индексаторы картинок, аудио и видео файлов;
  • зеркальщики. Определяют зеркала ресурсов;
  • ссылочные. Подсчитывают число ссылок на сайте;
  • подсветчики. Оформляют результаты поисковых систем, например, выделяют в тексте запрашиваемые словосочетания;
  • проверяющие. Контролируют наличие ресурса в базе данных поисковика и число проиндексированных документов;
  • стукачи (или дятлы). Периодически определяют доступность сайта, страницы или документа, на который ведет ссылка;
  • шпионы. Выполняют поиск ссылок на ресурсы, еще не проиндексированные поисковыми системами;
  • смотрители. Запускаются в ручном режиме и перепроверяют полученные результаты;
  • исследователи. Используются для отладки поисковых алгоритмов и изучения отдельных сайтов;
  • быстрые роботы. В автоматическом режиме проверяют дату последнего обновления и оперативно индексируют новую информацию.

Обозначения

При поисковой оптимизации сайта часть контента закрывают от индексации роботами (личную переписку посетителей, корзины заказов, страницы с профилями зарегистрированных пользователей и т.д.). Для этого в файле robots.txt в поле User-agent прописывают имена роботов: для поисковой системы Яндекс — Yandex, для Google — Googlebot, для Rambler — StackRambler, для Yahoo — Yahoo! Slurp или Slurp, для MSN — MSNBot, для Alexa — ia_archiver и т.д.

Все термины SEO-Википедии
Теги термина

Какие услуги тебе подходят

(Рейтинг: 5, Голосов: 5)