Для закрытия от индексации всего ресурса достаточно просто создать в корневой папке файл robots.txt с таким текстом:
Usеr-аgеnt: Yаndех
Dіsаllоw: /
Это позволит закрыть сайт от робота Яндекса. А сделать так, чтобы он не индексировался ни одним поисковиком, можно при помощи такой команды:
Usеr-аgеnt: *
Dіsаllоw: /
Ввод такого текста в «роботс» позволяет скрыть ресурс не только от Яндекса, но и от всех остальных поисковых систем. Можно также использовать файл .htассеss, но при этом устанавливается пароль, что приводит к некоторым сложностям в работе с сайтом.
Как запретить индексацию папки?
Можно отключить робота как полностью, так и частично. Чтобы поисковая система не видела определенную папку, указываем в robots.txt ее название. В результате будет установлен запрет на индексирование всех находящихся в ней объектов.
Шаблон:
Usеr-аgеnt: *
Dіsаllоw: /fоldеr/ (название папки)
Есть также возможность открыть отдельный файл. При такой необходимости дополнительно используется команда Allow. Прописываем разрешение на индексацию нужного объекта и запрет на доступ к папке:
Usеr-аgеnt: *
Аllоw: /fоldеr/fіlе.рhр (местонахождение объекта – его название и папка)
Dіsаllоw: /fоldеr/
Как запретить Яндексу доступ к определенному файлу?
Тут нужно действовать по аналогии с предыдущим примером. Команда та же, но указывается адрес местонахождения файла и название поисковика.
Шаблон команд, блокирующих индексацию:
User-agent: Yandex
Disallow: /folder/file.php
Как определить, документ открыт для индексации или нет?
С этой целью можно использовать специализированные сервисы, в том числе бесплатные. Работают они довольно просто, например по такой схеме: вы вводите перечень адресов, которые нужно проверить, и запрашиваете информацию об их возрасте в поисковике. Для документа, который индексируется, будет указана дата его попадания в индекс, а если он недоступен для поисковых роботов, отобразится соответствующая надпись.
Как блокируется индексирование изображений?
Можно запретить поисковикам индексировать картинки таких распространенных форматов как gif, png и jpg. Для этого в robots.txt указывается расширение файлов.
В зависимости от того, какие изображения блокируются, команды имеют такой вид:
User-Agent: *
Disallow: *.gif (*.png или *.jpg)
Как закрывается доступ к поддомену?
Алгоритм действий в этом случае такой же, как при запрете индексации основного сайта. У каждого поддомена есть собственный robots.txt, чаще всего расположенный в его корневой папке. Если не удалось его обнаружить, нужно создать такой файл. Содержащиеся в нем данные корректируются с использованием команды Disallow путем упоминания разделов, которые закрываются.
Как запретить индексацию поддомена с CDN?
При использовании этой версии наличие дубля может превратиться в серьезную помеху для SEO-продвижения. Есть два способа этого избежать. Первый – провести предварительную настройку на домене тега < link> атрибута rel="canonical", а второй – создать собственный robots.txt на поддомене. Лучше остановиться на первом варианте, поскольку так данные о поведенческих факторах удастся сохранить в полном объеме по каждому из адресов.
Как называть роботов разных поисковых систем?
В robots.txt содержатся обращения к индексаторам, и необходимо правильно указать их названия. У каждого поисковика собственный набор роботов.
- У Google главный индексатор – это Googlebot.
- У Яндекса – Yandex.
- У отечественной поисковой системы «Спутник» от компании «Ростелеком» – SputnikBot.
- У поисковика Bing от корпорации «Майкрософт» – робот-индекстор от MSN под названием MSNBot.
- Yahoo! – Slurp.
Как дополнительные команды можно прописать в robots.txt?
Яндексом, кроме рассмотренных выше директив, поддерживаются и такие.
- Sitemap: – показывает путь к карте сайта. Кроме Яндекса, на него реагирует Google и многие другие поисковые системы.
- Clean-param: – демонстрирует параметры GET, не влияющие на то, как на сайте отображается контент, например ref-ссылки или метки UTM.
- Crawl-delay: – устанавливает минимальный временной интервал для поочередного скачивания файлов. Работает в большинстве поисковиков.
Как использовать для блокировки индексации метатег?
Чтобы роботы не индексировали сайт или определенную страницу, можно воспользоваться командой name="robots" #. Установка запрета на поиск при помощи этого метатега является удачным способом закрытия ресурса, поисковые роботы с большой вероятностью будут выполнять вашу команду. Допускается использование одного из двух равносильных вариантов кода:
1) < meta name="robots" соntent="none"/>,
2) < meta name="robots" content="nоіndex, nofollow"/>.
Метатег прописывается в зоне < head> < /head>. Так блокируется доступ для всех роботов, но при желании можно обратиться к какому-то конкретному, заменив в коде «robots» на его название. Например, для Яндекса команда выглядит так:
< meta name="yandex" content="nоіndex, nofollow"/>