Как закрыть сайт от поисковых систем: robots.txt, htaccess, метатеги

Поисковая оптимизация

Чтобы какой-либо сайт появился в выдаче поисковой системы, он должен быть предварительно проиндексирован, то есть просканирован поисковыми роботами. Следующий этап – ранжирование – определение места ресурса в выдаче. На него влияет нескольких критериев, в числе которых можно выделить релевантность – степень соответствия результатов выдачи запросу пользователя. Чтобы сайт был более релевантным, необходимо регулировать перемещения и поведение поискового робота на нем. Как правило, от поисковиков также скрывают пагинацию, фильтры, служебные и страницы, содержащие личные данные пользователей. В этой статье мы рассмотрим все известные способы, как закрыть документ от поисковых систем, и объясним, для чего может пригодиться каждый из них.

Закрытие от индексации с помощью файла Robots.txt

Самым распространенным способом указать поисковым роботам страницы, представленные или, наоборот, закрытые для посещения, является robots.txt. Это обычный текстовый файл, размещенный в корневом каталоге интернет-ресурса, в котором описаны инструкции для поисковых ботов.

Чтобы закрывать сразу весь сайт от индексации, вам понадобится прописать в файле robots.txt всего две строчки:

User-agent: *
Disallow: /

В данной инструкции вы сообщаете, что она распространяется на все поисковые системы (User-agent: *); вторая строка (Disallow: /) означает, что запрет касается всех страниц сайта.

В случае необходимости закрыть ресурс только от одной поисковой системы, в строке User-agent: указываем, для какой именно. Чаще всего прописывают поисковые системы Yandex или Google:

User-agent: Yandex
Disallow: /

User-agent: GoogleBot
Disallow: /

Строка Disallow может также содержать инструкции относительно отдельных частей, разделов или папок сайта, которые нежелательны для обхода роботов.

Для запрета индексации:

  • конкретной папки – прописываем команду Disallow: /папка/;
  • списка файлов – указываем весь список в следующем формате:

User-agent: *
Disallow: файл1.htm
Disallow: файл2.htm
Disallow: файл3.htm

Следует учитывать, что robots.txt воспринимается поисковиками по-разному, и роботы Google не всегда следуют его указаниям, воспринимая содержимое файла как рекомендацию.

Закрытие от индексации с помощью метатегов

Метатег Robots прописывается внутри тега <head> html-документа и имеет следующие значения:

  • index – индексировать;
  • noindex – не индексировать;
  • follow – разрешено следовать по ссылкам;
  • nofollow – не разрешено следовать по ссылкам.

Принцип работы с этими метатегами такой же, как и с файлом robots.txt. Единственное исключение – они используются непосредственно на тех страницах, которые необходимо закрыть. Если же речь идет обо всем ресурсе, данные теги прописывают прямо в шаблон сайта. Пример использования метатегов robots:

<meta name=»robots» content=»noindex,nofollow»>


Здесь указано,что роботам запрещено индексировать страницы и обходить ссылки.

Вот еще несколько полезных тегов:

  • meta name=»robots» content=»noimageindex» – запрещает индексировать изображения на странице, на которой он используется;
  • meta name=»robots» content=»none» – используется в значении «noindex, nofollow.»

Закрытие от индексации с помощью файла .htaccess

  • Блокируем поисковых ботов с помощью следующих команд:

SetEnvInNoCase User-Agent «Yandex» search_bot
SetEnvInNoCase User-Agent «^Yahoo» search_bot
SetEnvInNoCase User-Agent «^igdeSpyder» search_bot
SetEnvInNoCase User-Agent «^GoogleBot» search_bot
SetEnvInNoCase User-Agent «^msnBot» search_bot
SetEnvInNoCase User-Agent «^Aport» search_bot
SetEnvInNoCase User-Agent «^Mail» search_bot
SetEnvInNoCase User-Agent «^bot» search_bot
SetEnvInNoCase User-Agent «^Spider» search_bot
SetEnvInNoCase User-Agent «^php» search_bot
SetEnvInNoCase User-Agent «^Parser» search_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=search_bot
</Limit>

Для каждой поисковой системы – отдельная строка.

  • Запрещаем доступ ко всем файлам и каталогам:

<Files>
Deny from all
</Files>

  • Ограничиваем доступ к сайту или странице с помощью пароля. Для этого в файле .htaccess прописываем следующий код:

AuthType Basic
AuthUserFile /указать_путь файла_с_паролем
Require valid-user

После сохранения изменений в файле .htaccess вы уже сможете видеть форму авторизации, но для ее корректной работы не забудьте добавить пользователя и указать пароль в файле паролей.

Средства для владельцев сайтов на WordPress

Если вам посчастливилось быть обладателем ресурса на WordPress, то вы можете закрыть свой сайт от индексации с помощью самой админки, совершив лишь несколько кликов мышью:

  • в меню админки перейдите во вкладку Параметры;
  • выберите пункт Чтение;
  • установите галочку на пункте «Попросить поисковые системы не индексировать сайт»;
  • сохраните изменения.

Также существует ряд SEO-плагинов, например, «All in One SEO Pack», с помощью которых можно контролировать индексацию отдельных документов сайта.

Другие CMS также могут включать в себя подобные функции и плагины.

Какой бы вы ни выбрали способ закрытия от индексации, помните: самое надежное средство от попадания в индекс – хранить сайт на сервере, отключенном от всемирной сети.

Подпишись на рассылку дайджеста новостей от Webline Promotion

Оцените статью
Webline Blog
Добавить комментарий

  1. Злой клиент

    Ну ёмае, скриншоты.. ну нельзя ли было просто текст вставить???!

    Ответить
    1. Редактор блога

      Спасибо, исправили)

      Ответить