Как закрыть сайт от индексации: краткое руководство

прочитали: 1748

На сайт, который разрабатывается или проходит редизайн, как и на его копию, иногда не стоит пускать роботов поисковых систем.

Для закрытия от индексации всего ресурса достаточно просто создать в корневой папке файл robots.txt с таким текстом:

Usеr-аgеnt: Yаndех
Dіsаllоw: /

Это позволит закрыть сайт от робота Яндекса. А сделать так, чтобы он не индексировался ни одним поисковиком, можно при помощи такой команды:

Usеr-аgеnt: *
Dіsаllоw: /

Ввод такого текста в «роботс» позволяет скрыть ресурс не только от Яндекса, но и от всех остальных поисковых систем. Можно также использовать файл .htассеss, но при этом устанавливается пароль, что приводит к некоторым сложностям в работе с сайтом.

Как запретить индексацию папки?

Можно отключить робота как полностью, так и частично. Чтобы поисковая система не видела определенную папку, указываем в robots.txt ее название. В результате будет установлен запрет на индексирование всех находящихся в ней объектов.

Шаблон:

Usеr-аgеnt: *
Dіsаllоw: /fоldеr/ (название папки)

Есть также возможность открыть отдельный файл. При такой необходимости дополнительно используется команда Allow. Прописываем разрешение на индексацию нужного объекта и запрет на доступ к папке:

Usеr-аgеnt: *
Аllоw: /fоldеr/fіlе.рhр (местонахождение объекта – его название и папка)
Dіsаllоw: /fоldеr/

Как запретить Яндексу доступ к определенному файлу?

Тут нужно действовать по аналогии с предыдущим примером. Команда та же, но указывается адрес местонахождения файла и название поисковика.

Шаблон команд, блокирующих индексацию:

User-agent: Yandex
Disallow: /folder/file.php

Как определить, документ открыт для индексации или нет?

С этой целью можно использовать специализированные сервисы, в том числе бесплатные. Работают они довольно просто, например по такой схеме: вы вводите перечень адресов, которые нужно проверить, и запрашиваете информацию об их возрасте в поисковике. Для документа, который индексируется, будет указана дата его попадания в индекс, а если он недоступен для поисковых роботов, отобразится соответствующая надпись.

Как блокируется индексирование изображений?

Можно запретить поисковикам индексировать картинки таких распространенных форматов как gif, png и jpg. Для этого в robots.txt указывается расширение файлов.

В зависимости от того, какие изображения блокируются, команды имеют такой вид:

User-Agent: *
Disallow: *.gif (*.png или *.jpg)

Как закрывается доступ к поддомену?

Алгоритм действий в этом случае такой же, как при запрете индексации основного сайта. У каждого поддомена есть собственный robots.txt, чаще всего расположенный в его корневой папке. Если не удалось его обнаружить, нужно создать такой файл. Содержащиеся в нем данные корректируются с использованием команды Disallow путем упоминания разделов, которые закрываются.

Как запретить индексацию поддомена с CDN?

При использовании этой версии наличие дубля может превратиться в серьезную помеху для SEO-продвижения. Есть два способа этого избежать. Первый – провести предварительную настройку на домене тега <link> атрибута rel="canonical", а второй – создать собственный robots.txt на поддомене. Лучше остановиться на первом варианте, поскольку так данные о поведенческих факторах удастся сохранить в полном объеме по каждому из адресов.

Как называть роботов разных поисковых систем?

В robots.txt содержатся обращения к индексаторам, и необходимо правильно указать их названия. У каждого поисковика собственный набор роботов.

У Google главный индексатор – это Googlebot.
У Яндекса – Yandex.
У отечественной поисковой системы «Спутник» от компании «Ростелеком» – SputnikBot.
У поисковика Bing от корпорации «Майкрософт» – робот-индекстор от MSN под названием MSNBot.
Yahoo! – Slurp.

Как дополнительные команды можно прописать в robots.txt?

Яндексом, кроме рассмотренных выше директив, поддерживаются и такие.

Sitemap: – показывает путь к карте сайта. Кроме Яндекса, на него реагирует Google и многие другие поисковые системы.
Clean-param: – демонстрирует параметры GET, не влияющие на то, как на сайте отображается контент, например ref-ссылки или метки UTM.
Crawl-delay: – устанавливает минимальный временной интервал для поочередного скачивания файлов. Работает в большинстве поисковиков.

Как использовать для блокировки индексации метатег?

Чтобы роботы не индексировали сайт или определенную страницу, можно воспользоваться командой name="robots" #. Установка запрета на поиск при помощи этого метатега является удачным способом закрытия ресурса, поисковые роботы с большой вероятностью будут выполнять вашу команду. Допускается использование одного из двух равносильных вариантов кода:

1) <meta name="robots" соntent="none"/>,

2) <meta name="robots" content="nоіndex, nofollow"/>.

Метатег прописывается в зоне <head> </head>. Так блокируется доступ для всех роботов, но при желании можно обратиться к какому-то конкретному, заменив в коде «robots» на его название. Например, для Яндекса команда выглядит так:

<meta name="yandex" content="nоіndex, nofollow"/>

ЧИТАЙ ТАКЖЕ

Адаптивный дизайн сайта: что это и как работает

Как найти целевую аудиторию в Instagram

Как создавать рекламные креативы для социальных сетей

Оглавление

Как запретить индексацию папки?
Как запретить Яндексу доступ к определенному файлу?
Как определить, документ открыт для индексации или нет?
Как блокируется индексирование изображений?
Как закрывается доступ к поддомену?
Как запретить индексацию поддомена с CDN?
Как называть роботов разных поисковых систем?
Как дополнительные команды можно прописать в robots.txt?
Как использовать для блокировки индексации метатег?

Актуальные афиши вебинаров, презентации от спикеров и записи прошедших мероприятий вы можете найти в нашем Telegram-канале InMarketing

Здесь же публикуем кейсы, статьи с экспертизой по разным направлениям digital, в которых рассказываем с помощью каких инструментов решать разные маркетинговые задачи.

Перейти

(Рейтинг: 5, Голосов: 8.0000)

Находи клиентов. Быстрее!