5 способов закрытия сайта от индексации поисковиков

прочитали: 546
5 способов закрытия сайта от индексации поисковиков
Редакция блога Ingate
24 декабря 2020
Довольно часто возникает необходимость в запрете на включение ресурса в индекс поисковиков, например, когда он разрабатывается и есть риск индексирования информации, которую не хотелось бы разглашать, а также во многих других случаях. Рассмотрим, как закрыть свой сайт от индексации всеми доступными способами.
Закрытие сайта от индексации
Как закрыть сайт от индексацииКак закрыть сайт от индексации

Причины для запрета индексирования

Интернет-ресурсы скрывают от поисковых роботов в разных ситуациях, но чаще всего эта процедура проводится по одной из таких причин.

  • При создании сайта. Допустим, вы на начальном этапе разработки и наполнения своей площадки контентом, меняете навигацию, интерфейс и других параметры. Как только начинается работа над сайтом, он и его наполнение еще не соответствуют всем вашим ожиданиям. Поэтому до окончательной доработки стоит скрыть свой ресурс от просмотра Google и «Яндексом», чтобы не индексировать неполноценные страницы. Не стоит рассчитывать на то, что ваш новый сайт, по которому еще не отправлены ссылки для индексирования, не обнаружат поисковики. Их роботы не только учитывают ссылки, но и смотрят на посещения сайта в браузере.
  • Когда веб-ресурс копируется. В некоторых случаях у разработчиков возникает необходимость в дублировании сайта, например, для тестирования на втором экземпляре доработок. И стоит сделать так, чтобы этот дубликат не индексировался. Иначе может пострадать оригинальный проект, и поисковики будут введены в заблуждение.

Способы закрытия индексации

Для решения этой задачи используются такие основные технологии:

  • изменение настроек в WordPress;
  • внесение команды в файл robots.txt;
  • использование специального мета-тега;
  • прописывание кода в настройках сервера;
  • использование HTTP заголовка X-Robots-Tag.

1-й способ – Запрет на индексирование через WordPress

Для сайтов, созданных на базе этой системы, есть такой быстрый и несложный алгоритм действий для закрытия от роботов.

  1. В «Панели управления» находим пункт меню «Настройки».
  2. Заходим в раздел «Чтение».
  3. Здесь в пункте «Видимость для поисковых систем» ставим галочку возле надписи о рекомендации роботам не проводить индексацию.
  4. Сохраняем изменения.

В ответ на эти действия происходит автоматическое изменение файла robots.txt, корректируются правила, и таким образом отключается индексирование. При этом поисковая система оставляет за собой право решить, отключить робота или нет, даже несмотря на решение разработчика сайта. Опыт показывает, что от «Яндекса» можно не ждать таких решений, а Google иногда продолжает индексацию.

2-й способ ­– Изменение файла robots.txt

Если сайт построен не на WordPress, или невозможно закрыть доступ в этой системе по другим причинам, можно провести ручное удаление из поисковых систем. Сделать это также довольно просто. Создаем стандартный текстовый документ robots с расширением txt. Дальше вставляем его в корневую папку сайта, чтобы была возможность открывать его по адресу sait.com (ru, рф и т. п.)/robots.txt, где sait.com – url вашего ресурса. Файл пока пустой, и предстоит его заполнить необходимыми командами, при помощи которых можно полностью запретить доступ к сайту или закрыть только некоторые его участки. Есть несколько вариантов этой операции, каждый из которых мы рассмотрим дальше.

Полное закрытие для всех поисковиков

С этой целью прописываем в роботс такие строки:

Usеr-аgеnt: *

Dіsаllоw: /

После сохранения файла robots.txt сайт будет полностью закрыт для индексации ботами всех поисковых систем, и они не смогут ни обрабатывать информацию, размещенную на вашем ресурсе, ни вносить ее в свою базу данных. Для проверки результата, как уже упоминалось, можно ввести в браузере такую строку: sait.com (адрес вашего сайта)/robots.txt. При правильном выполнении задачи на странице появится содержащаяся в файле информация. Если же появится ошибка 404, это в большинстве случаев говорит о том, что файл скопирован не туда.

Отключение индексации одной папки

В команде дополнительно указываем ее название:

Usеr-аgеnt: *

DіsаІІоw: /fоІdеr/

Этот способ позволяет полностью скрыть файлы, размещенные в определенной папке.

Блокировка индексирования «Яндексом»

В первой строке меняем «*» на название бота поисковика:

Usеr-аgеnt: Yаndех

DіsаІІоw: /

Убедиться в том, что сайт удален из индекса «Яндекса», можно путем его добавления в «Вебмастер». После этого нужно перейти в раздел «роботс» по адресу https://webmaster-yandex.ru/tools/robotstxt/. Ссылки на несколько документов сайта вставляем в поле для url и кликаем «Проверить». Подтверждением успешного запрета индексации является появление надписи «Запрещено правилом /*?*».

Закрытие сайта от бота Google

Принцип построения команды тот же. Только меняется название бота:

Usеr-аgеnt: GооgІеbоt

DіsаІІоw: /

При проверке используется тот же прием, что и для «Яндекса». На панели инструментов Google Search Console должны появиться надпись «Заблокировано по строке» напротив соответствующей ссылки и команда, запрещающая ботам индексацию сайта. Но велика вероятность получить ответ «Разрешено», который говорит о вашей ошибке или о том, что поисковик разрешил индексацию страниц, для которых в robots прописан запрет. Как уже упоминалось выше, поисковые роботы воспринимают содержимое этого файла не как руководство к действию, а как набор рекомендаций, поэтому они оставляют за собой право решать, индексировать сайт или нет.

Запрет индексации другими поисковыми системами

У каждого поисковика свои боты с оригинальными именами, что позволяет веб-мастерам прописывать для них персональные команды в robots.txt. О «Яндексе» и Google мы уже писали. Вот еще три робота популярных поисковиков:

  • МSNВоt – бот поисковой системы Віng;
  • SputnіkВоt – «Спутника»;
  • Slurр – Yаhоо.

Блокировка картинок

Для запрета индексации изображений в зависимости от их формата прописываются такие команды:

Usеr-Аgеnt: *

DіsаІІоw: *.jрg (*.gіf или *.рng)

Закрытие поддомена

В этом случае нужно учитывать один важный нюанс. У каждого поддомена свой файл robots.txt, находящийся, как правило, в его корневой папке. В нем нужно прописать стандартную команду блокировки:

Usеr-аgеnt: *

Dіsаllоw: /

При отсутствии такого документа его необходимо создать.

3-й способ – Использование специального мета-тега name=”robots”

Этот способ закрытия сайта или его отдельных элементов от поисковых роботов считается одним из лучших. Он заключается в прописывании с тегами <head> и </head> такого кода:

<mеtа nаmе=”rоbоts” соntеnt=”nоnе”/>

или такого:

<mеtа nаmе=”rоbоts” соntеnt=”nоіndех, nоfоІІоw”/>

Место размещения кода значения не имеет.

4-й способ – Прописывание кода в настройках сервера

Веб-мастера выбирают этот вариант запрета индексации, когда боты не реагируют на другие действия. Если такое происходит, для решения проблемы можно прописать в файле .htaccess на сервере такую команду:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot

Она заблокирует доступ для бота Google. Дальше нужно повторить операцию и прописать такие же строки для других поисковиков, но с названиями их ботов: Yаndех, msnbоt, MаіІ, Yаhоо, Rоbоt, Snарbоt, Раrsеr, WоrdРrеss, рhр, ВІоgPuІsеLіvе, bоt, Ароrt, іgdеSрydеr и sріdеr. Всего должно получиться 15 команд.

5-й способ – Использование X-Robots-Tag

В этом случае также настраивается блокировка через .htaccess, но при этом меняется заголовок НТТР X-Robots-Tag, который дает поисковикам указания, для понимания которых не нужно загружать сам документ. Такие инструкции авторитетнее, так как не нужно тратить ресурсы на изучение содержимого. Кроме того, этот метод подходит для любых видов контента.

Он используется с такими же директивами, как и Meta Robots: nоnе, nоіndех, nоаrсhіvе, nоfоІІоw и т. д. Есть два способа применения X-Robots-Tag. Первый – при помощи РНР, а второй – через настройку файла .htaccess.

Проверка индексирования сайта и отдельных страниц

Чтобы определить, индексируется сайт (страница, отдельный материал) в поисковике или нет, можно использовать один из таких четырех способов.

  1. Через панель инструментов «Вебмастера». Это самый популярный вариант. Находим в меню раздел индексирования сайта и проверяем, какие страницы попали в поиск.
  2. С использованием операторов поисковиков. Если указать команду «site: url сайта» в строке поиска Google или «Яндекса», можно определить, какое примерное количество страниц попало в индекс.
  3. При помощи расширений и плагинов. Можно провести автоматическую проверку индексирования через специальные приложения. Лидер по популярности среди таких плагинов – RDS bar.
  4. Посредством специальных сторонних сервисов. Они наглядно демонстрируют, что попало в индекс, а каких страниц там нет. Есть и платные, и бесплатные варианты таких инструментов.

Подведем итоги

Независимо от причины, по которой поисковым роботам закрывается доступ к ресурсу в целом, определенным страницам или материалам, можно использовать любой из описанных выше способов блокировки. Их несложно реализовать, и для этого не требуется большое количество времени. Вам вполне под силу самостоятельно скрыть от поисковых ботов определенную информацию, но следует помнить, что не каждый из методов дает 100-процентный результат.

(Рейтинг: 5, Голосов: 6)
У тебя есть нерешенные задачи?

В этом блоге мы делимся знаниями, но если у тебя есть серьезные цели, которые требуют вмешательства настоящих профи, сообщи! Перезвоним, расскажем, решим любые задачи из области digital

Отправляя форму, ты соглашаешься с политикой конфиденциальности.

Находи клиентов. Быстрее!
наверх