Новогодняя акция – 25% скидки – узнать больше

Вход / Попробовать бесплатно
Почему мы
HAPPYHOLIDAYS

Новогодняя акция – 25% скидки

узнать больше

ЮлияЮлия
· 4 мин
0

3 закона Robots.txt

Если бы Айзек Азимов, родившийся почти 100 лет назад, очутился в 2017 году, он бы вряд ли сильно удивился. Роботы, о которых он так много писал, не расхаживают по улицам городов, но их можно встретить на “улицах” веба — сканирующих сайты 24/7.

Действуют ли на них 3 закона роботехники или они живут по своим правилам — разбираемся в нашем новом блоге “SEO за чашкой кофе”. 

robot.txtПервый закон

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.

 

Поисковые роботы – довольно мирные. Но иногда и они могут “положить” ваш сайт,  “выложить” его тестовую версию на всеобщий обзор или проиндексировать данные не для чужих глаз. Этого можно и нужно избегать. Как? Начните правильно работать с файлом robots.txt.

Как просмотреть robots.txt?

Задать в адресной строке браузера имя_вашего_сайта/robots.txt

Как изменить robots.txt?

Открыть файл robots.txt в корневом каталоге сайта на сервере провайдера.

Что должно быть в robots.txt?

В самом простом файле robots.txt используются две директивы – к кому мы обращаемся (User-agent) и что запрещаем (Disallow).

К какому роботу вы обращаетесь?

User-agent – это робот поисковой системы, которому предназначена указанная вами инструкция. Если стоит *, то инструкция предназначена для всех роботов. Если указан конкретный бот, например Googlebot, значит, инструкция только для него.

Как сказать роботу, что именно ему не не нужно сканировать?

Используйте команду Disallow. Она сообщит роботу user-agent о том, какие папки и страницы не нужно сканировать.

Как сказать роботу, что именно ему нужно сканировать?

Используйте команду Allow. Она укажет роботу, что нужно проиндексировать в первую очередь или то, что обычно плохо индексируется, например, файлы в js и изображения. 

Как робот увидит все страницы сайта?

Включите в robots.txt директиву Sitemap. Она укажет роботам поисковых систем то место, где на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Так робот увидит все страницы вашего сайта, индексация которых не запрещена.

Как указать роботу основное избежать дублей страниц?

Используйте директиву Host. Она укажет роботу основное зеркало сайта.

Второй закон

Робот должен повиноваться всем приказам, которые даёт человек, если эти приказы не противоречат первому закону.

 

Чтобы роботы повиновались вашим приказам, нужно уметь “говорить” на понятном им  языке. Файл robots.txt – это своеобразная рекомендация для роботов, которую вы им прописываете. Поэтому ваша задача – научиться правильно ставить задачи и уметь их корректировать при необходимости.

Как проверить robots.txt для Яндекса?

Проверить корректность настройки robots.txt для Яндекса можно при помощи сервиса  Яндекс.Вебмастер.

Как проверить robots.txt для Google?

Корректность настройки директив для Google вы можете проверить инструментом проверки файла robots.txt, который находится в Google Search Console.

Что стоит закрыть в robots.txt?

Вы можете закрыть роботам доступ к индексированию как отдельных страниц, так и целых разделов. Мы рекомендуем следующих кандидатов для Disallow:

  • корзина и страница оформления/подтверждения заказа (интернет-магазины)
  • фильтры и сравнение товаров (интернет-магазины, сайты-каталоги)
  • страницы регистрации и авторизации
  • системные каталоги и файлы

robot txt how to useТретий закон

Робот должен заботиться о своей безопасности в той мере, в какой это не противоречит первому или второму законам.

 

Именно поэтому инструкции robots.txt носят рекомендательный характер и являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

#ЧТОТОККОФЕ

Если вы дочитали этот текст до конца — держите в награду “вкусный” факт к вашему “SEO за чашкой кофе”. 

Не robots.txt единым в мире SEO. Сейчас вы можете встретить и другой файл — humans.txt.

robot txtЧто такое humans.txt?

Это всемирная инициатива, стартовавшая в Испании, которую, к слову, поддержал сам  Google. Ее целью является знакомство с людьми по ту сторону сайта. По сути, это текстовый файл, названный humans.txt, который содержит информацию о людях, участвовавших в создании сайта. Размещают его в корне сайта рядом с файлом robots.txt, поэтому вы можете его увидеть по аналогии с robots.txt. Выглядит он примерно так.  

И если robots.txt создается для поисковых роботов людьми, то humans.txt напоминает о том, что за каждым сайтом, который у нас в закладках, стоят люди. Если увидите на любимом ресурсе кнопку humans.txt, смело жмите! Ведь гуру web-дизайна и SEO будет приятно услышать “спасибо”, а возможно – и познакомиться с вами лично.

ПОДЕЛИТЬСЯ

КОМЕНТАРИИ

Send this to a friend