freshit.net
Сайт
Мы в Харькове
+38 (057) 701-43-81
карта проезда
Мы в Киеве
+38 (044) 221-43-81
Мы в Москве
+7 (495) 133-58-81


Блог digital-агентства Fresh IT  --  Интернет-маркетинг  --  Поисковые роботы и файл robots.txt. Закрыть сайт от индексации поисковых систем.

Поисковые роботы и файл robots.txt. Закрыть сайт от индексации поисковых систем.


Бендер: Вы все думаете, что роботы были созданы людьми, чтобы сделать их жизнь проще?
Фрай: А разве нет?
Бендер: Я ни разу не сделал ничью жизнь проще, и вы это знаете!
«Футурама»

Поисковые роботы, что это? Небольшие винтики огромной машины под названием поисковая система. Это «чернорабочие», просматривающие большие массивы страниц и сайтов в поисках информации, выстраивающие из этого всего структуру, которую мы видим в итоге в выдаче поисковых систем.

Что делать с роботами? Ответ прост, – дружить! Направлять их движение по нашим сайтам в нужном направлении.

Итак, давайте научимся дружить с поисковыми роботами.

Во-первых, нам следует понять кто они.

robots.txt

Роботы разнятся. У каждой из поисковых систем есть свой робот. При этом принципы работы поисковых роботов остаются одинаковыми для всех поисковых систем. Если мы хотим стать друзьями с иностранными роботами, нам следует обратить внимание на 3х роботов:

  • робота Google
  • робота Yahoo
  • и робота Bing

Если же мы нацелены на русскоговорящий сегмент, нам будет достаточно привлечь внимание двух роботов: бота Google и Яндекса. О них и поведем разговор.

По своей сути, роботов можно разделить на две группы: «пауков» и «дятлов».

Первый заходит на ваш сайт, переходит по ссылкам внутри него, собирает все данные о содержимом сайта. Второй “простукивает” страницы сайта, проверяя, работают или нет те или иные страницы сайта, доступны ли они для пользователей.

Когда на ваш сайт зашел поисковый робот-паук, он идет по ссылкам, проходя всё глубже по структуре сайта, руководствуясь правилами и запретами, прописанными для него в файле robots.txt.

Создание или корректировка этого файла – одна из первоочередных задач вебмастера.

Robots.txt представляет собой текстовый файл, который содержит в рекомендации для паука, заходить или нет на страницы и разделы сайта. Если файл отсутствует, паук решает, что все страницы сайта разрешены к индексации.

Как же верно направить робота, чтобы он «съел» полезные страницы сайта и не трогал служебные страницы, скрытые или клиентские директории?

Файлы составляются согласно «Стандарту исключений для роботов», который был принят в 1994 году. Принятый стандарт работает, с небольшими корректировками, по сей день.

Итак, основные положения стандарта.

  1. Файл с инструкциями роботам должен располагаться в корневом каталоге сайта, и быть доступен по адресу: https://www.site.com/robots.txt
  2. Файл, размещенный в других директориях, например, https://www.site.com/category/robots.txt, работать не будет.
  3. Файл должен быть один. Не нужно размещать файлы в различные разделы – робот всё равно искать их там не будет.
  4. Название файла должно быть составлено из строчных букв, то есть нельзя называть файл Robots.txt или ROBOTS.TXT
  5. Каждая строка инструкций формируется согласно формату:
  6. Поле: значение
    В котором «Поле» может быть User-agent, Allow, Disallow и пр.

Перейдем от теории к практике.

Для начала следует определиться, для какого робота мы будем писать правила. Для задания этого параметра в файле прописывается первое правило «User-agent». Если нам не важно, робот какой поисковой системы будет индексировать сайт, пишем:

User-agent: *

Если мы собираемся прописывать отдельно правила для разных роботов, мы должны написать, по отношению к какому из них будут применяться перечисляемые ниже рекомендации. Для поисковой системы Яндекс пишется строка:

User-agent: Yandex

Для Google:

User-agent: Googlebot

Также, существуют роботы, которые специализируются на индексировании картинок (например, Googlebot-Image и YandexImages), робот для мобильных телефонов (например, Googlebot-Mobile) и пр. Если вы хотите запретить индексировать те или иные картинки, или закрыть сайт и его разделы для мобильных устройств, вам нужно будет прописывать правила и для них.

Следующей строкой идет директива «Disallow», закрывающая от индексации страницы, разделы или файлы сайта. Значением в данном случае должна выступать часть адреса страницы или раздела.

Даже, если вы не хотите ничего закрывать на своем проекте, необходимо написать второй строкой эту инструкцию, оставив «значение» пустым:

Disallow:

В случае если вам необходимо закрыть от индексации весь сайт, вам следует написать:

Disallow: /

В случае если вы хотите, чтобы проект индексировался полностью, но сайт в поиске Google по картинкам не участвовал, вы составляете файл со следующим содержанием:

User-agent: *
Disallow:

User-agent: Googlebot-image
Disallow: /img/

То есть, первой частью инструкций, вы открываете к индексации весь сайт, а второй частью – закрываете от индексации роботом «Googlebot-image» раздел, где хранятся все изображения (например, это раздел /img/ на вашем сайте).

Каждое новое правило должно начинаться с новой строки.

Нельзя писать:

User-agent: *

Disallow: /admin/ /directory/ /doc/

В данном случае, инструкции должны быть следующими:

User-agent: *

Disallow: /admin/
Disallow: /directory/
Disallow: /doc/

Для большей наглядности приведем инфографику работы паука поисковой системы, когда он заходит на сайт без файла robots.txt и когда он попадает на сайт с правильно составленными рекомендациями.

robots.txt наглядная визуализация

Директива Host.

Поисковым роботом Яндекса учитывается строка Host:, которая прописывается после последней строки с запретом для индексации (Disallow). Данная строка необходима для определения роботом основного домена (зеркала) сайта. Например, если вы хотите, чтобы Яндекс индексировал ваш сайт как https://www.site.com/ и не индексировал сайт без www – https://site.com/ в строке Host необходимо прописать:

Host: www.site.com

И напоследок. Не забывайте при составлении файла, руководствоваться инструкциями Google и Яндекс.
Если вы не уверены в правильности составления файла или хотите посмотреть его работоспособность, проверяйте их в онлайн сервисах для вебмастеров от Яндекс и Google ( вкладка «Доступ для сканера»).

Паблик дисклеймер.
Изображения используются в некоммерческих целях. Права на пауков принадлежат Marvel Comics©, Marvel Entertainment LLC © , The Walt Disney Company © и господину Сергею Троицкому.  Роботы принадлежат поисковым системам. Изображение Бендера Сгибальщика Родригеса, серийный номер 2716057, принадлежит компании 20th Century Fox©. Визуализация robots.txt принадлежит Elliance Inc, переведенная версия от robotstxt.org.ru.

Заказать качественное продвижение сайтов от Fresh IT!

Присоединяйтесь к эффективным руководителям,
которые получают максимум от своего интернет-маркетинга.

Подпишитесь на советы об эффективном
интернет-маркетинге


X
Бесплатный аудит
[contact-form-7 404 "Not Found"]