Бендер: Вы все думаете, что роботы были созданы людьми, чтобы сделать их жизнь проще?
Фрай: А разве нет?
Бендер: Я ни разу не сделал ничью жизнь проще, и вы это знаете!
«Футурама»
Поисковые роботы, что это? Небольшие винтики огромной машины под названием поисковая система. Это «чернорабочие», просматривающие большие массивы страниц и сайтов в поисках информации, выстраивающие из этого всего структуру, которую мы видим в итоге в выдаче поисковых систем.
Что делать с роботами? Ответ прост, – дружить! Направлять их движение по нашим сайтам в нужном направлении.
Итак, давайте научимся дружить с поисковыми роботами.
Во-первых, нам следует понять кто они.
Роботы разнятся. У каждой из поисковых систем есть свой робот. При этом принципы работы поисковых роботов остаются одинаковыми для всех поисковых систем. Если мы хотим стать друзьями с иностранными роботами, нам следует обратить внимание на 3х роботов:
- робота Google
- робота Yahoo
- и робота Bing
Если же мы нацелены на русскоговорящий сегмент, нам будет достаточно привлечь внимание двух роботов: бота Google и Яндекса. О них и поведем разговор.
По своей сути, роботов можно разделить на две группы: «пауков» и «дятлов».
Первый заходит на ваш сайт, переходит по ссылкам внутри него, собирает все данные о содержимом сайта. Второй “простукивает” страницы сайта, проверяя, работают или нет те или иные страницы сайта, доступны ли они для пользователей.
Когда на ваш сайт зашел поисковый робот-паук, он идет по ссылкам, проходя всё глубже по структуре сайта, руководствуясь правилами и запретами, прописанными для него в файле robots.txt.
Создание или корректировка этого файла – одна из первоочередных задач вебмастера.
Robots.txt представляет собой текстовый файл, который содержит в рекомендации для паука, заходить или нет на страницы и разделы сайта. Если файл отсутствует, паук решает, что все страницы сайта разрешены к индексации.
Как же верно направить робота, чтобы он «съел» полезные страницы сайта и не трогал служебные страницы, скрытые или клиентские директории?
Файлы составляются согласно «Стандарту исключений для роботов», который был принят в 1994 году. Принятый стандарт работает, с небольшими корректировками, по сей день.
Итак, основные положения стандарта.
- Файл с инструкциями роботам должен располагаться в корневом каталоге сайта, и быть доступен по адресу: http://www.site.com/robots.txt
- Файл, размещенный в других директориях, например, http://www.site.com/category/robots.txt, работать не будет.
- Файл должен быть один. Не нужно размещать файлы в различные разделы – робот всё равно искать их там не будет.
- Название файла должно быть составлено из строчных букв, то есть нельзя называть файл Robots.txt или ROBOTS.TXT
- Каждая строка инструкций формируется согласно формату:
- Поле: значение
В котором «Поле» может быть User-agent, Allow, Disallow и пр.
Перейдем от теории к практике.
Для начала следует определиться, для какого робота мы будем писать правила. Для задания этого параметра в файле прописывается первое правило «User-agent». Если нам не важно, робот какой поисковой системы будет индексировать сайт, пишем:
User-agent: *
Если мы собираемся прописывать отдельно правила для разных роботов, мы должны написать, по отношению к какому из них будут применяться перечисляемые ниже рекомендации. Для поисковой системы Яндекс пишется строка:
User-agent: Yandex
Для Google:
User-agent: Googlebot
Также, существуют роботы, которые специализируются на индексировании картинок (например, Googlebot-Image и YandexImages), робот для мобильных телефонов (например, Googlebot-Mobile) и пр. Если вы хотите запретить индексировать те или иные картинки, или закрыть сайт и его разделы для мобильных устройств, вам нужно будет прописывать правила и для них.
Следующей строкой идет директива «Disallow», закрывающая от индексации страницы, разделы или файлы сайта. Значением в данном случае должна выступать часть адреса страницы или раздела.
Даже, если вы не хотите ничего закрывать на своем проекте, необходимо написать второй строкой эту инструкцию, оставив «значение» пустым:
Disallow:
В случае если вам необходимо закрыть от индексации весь сайт, вам следует написать:
Disallow: /
В случае если вы хотите, чтобы проект индексировался полностью, но сайт в поиске Google по картинкам не участвовал, вы составляете файл со следующим содержанием:
User-agent: *
Disallow:User-agent: Googlebot-image
Disallow: /img/
То есть, первой частью инструкций, вы открываете к индексации весь сайт, а второй частью – закрываете от индексации роботом «Googlebot-image» раздел, где хранятся все изображения (например, это раздел /img/ на вашем сайте).
Каждое новое правило должно начинаться с новой строки.
Нельзя писать:
User-agent: *
Disallow: /admin/ /directory/ /doc/
В данном случае, инструкции должны быть следующими:
User-agent: *
Disallow: /admin/
Disallow: /directory/
Disallow: /doc/
Для большей наглядности приведем инфографику работы паука поисковой системы, когда он заходит на сайт без файла robots.txt и когда он попадает на сайт с правильно составленными рекомендациями.
Директива Host.
Поисковым роботом Яндекса учитывается строка Host:, которая прописывается после последней строки с запретом для индексации (Disallow). Данная строка необходима для определения роботом основного домена (зеркала) сайта. Например, если вы хотите, чтобы Яндекс индексировал ваш сайт как http://www.site.com/ и не индексировал сайт без www – http://site.com/ в строке Host необходимо прописать:
Host: www.site.com
И напоследок. Не забывайте при составлении файла, руководствоваться инструкциями Google и Яндекс.
Если вы не уверены в правильности составления файла или хотите посмотреть его работоспособность, проверяйте их в онлайн сервисах для вебмастеров от Яндекс и Google ( вкладка «Доступ для сканера»).
Паблик дисклеймер.
Изображения используются в некоммерческих целях. Права на пауков принадлежат Marvel Comics©, Marvel Entertainment LLC © , The Walt Disney Company © и господину Сергею Троицкому. Роботы принадлежат поисковым системам. Изображение Бендера Сгибальщика Родригеса, серийный номер 2716057, принадлежит компании 20th Century Fox©. Визуализация robots.txt принадлежит Elliance Inc, переведенная версия от robotstxt.org.ru.






