Юлия Торчинская
Апр 12, 2017 | Время чтения: 4 мин

Если бы Айзек Азимов, родившийся почти 100 лет назад, очутился в 2017 году, он бы вряд ли сильно удивился. Роботы, о которых он так много писал, не расхаживают по улицам городов, но их можно встретить на “улицах” веба — сканирующих сайты 24/7.

Действуют ли на них 3 закона роботехники или они живут по своим правилам — разбираемся в нашей новой статье.

Первый закон

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.

robot.txt

Поисковые роботы – довольно мирные. Но иногда и они могут “положить” ваш сайт,  “выложить” его тестовую версию на всеобщий обзор или проиндексировать данные не для чужих глаз.

Этого можно и нужно избегать. Как? Начните правильно работать с файлом robots.txt.

Инструкция по работе с robots.txt

Если знать четкие правила составления этого файла, вы сможете избежать многих ошибок, связанных со сканированием вашего сайта. Итак, давайте пройдемся по самым популярным вопросам.

Как просмотреть robots.txt?

Задать в адресной строке браузера имя_вашего_сайта/robots.txt

Как изменить robots.txt?

Открыть файл robots.txt в корневом каталоге сайта на сервере провайдера.

Что должно быть в robots.txt?

В самом простом файле robots.txt используются две директивы – к кому мы обращаемся (User-agent) и что запрещаем (Disallow).

К какому роботу вы обращаетесь?

User-agent – это робот поисковой системы, которому предназначена указанная вами инструкция. Если стоит *, то инструкция предназначена для всех роботов. Если указан конкретный бот, например Googlebot, значит, инструкция только для него.

Как сказать роботу, что именно ему не не нужно сканировать?

Используйте команду Disallow. Она сообщит роботу user-agent о том, какие папки и страницы не нужно сканировать.

Как сказать роботу, что именно ему нужно сканировать?

Используйте команду Allow. Она укажет роботу, что нужно проиндексировать в первую очередь или то, что обычно плохо индексируется, например, файлы в js и изображения. 

Как робот увидит все страницы сайта?

Включите в robots.txt директиву Sitemap. Она укажет роботам поисковых систем то место, где на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Так робот увидит все страницы вашего сайта, индексация которых не запрещена.

Как указать роботу основное зеркало и избежать дублей страниц?

Используйте директиву Host. Она укажет роботу основное зеркало сайта.

Второй закон

Робот должен повиноваться всем приказам, которые даёт человек, если эти приказы не противоречат первому закону.

Чтобы роботы повиновались вашим приказам, нужно уметь “говорить” на понятном им  языке. Файл robots.txt – это своеобразная рекомендация для роботов, которую вы им прописываете. Поэтому ваша задача – научиться правильно ставить задачи и уметь их корректировать при необходимости.

Как проверить robots.txt для Яндекса?

Проверить корректность настройки robots.txt для Яндекса можно при помощи сервиса  Яндекс.Вебмастер.

Как проверить robots.txt для Google?

Корректность настройки директив для Google вы можете проверить инструментом проверки файла robots.txt, который находится в Google Search Console.

Что стоит закрыть в robots.txt?

Вы можете закрыть роботам доступ к индексированию как отдельных страниц, так и целых разделов. Мы рекомендуем следующих кандидатов для Disallow:

  • корзина и страница оформления/подтверждения заказа (интернет-магазины)
  • фильтры и сравнение товаров (интернет-магазины, сайты-каталоги)
  • страницы регистрации и авторизации
  • системные каталоги и файлы

Третий закон

Робот должен заботиться о своей безопасности в той мере, в какой это не противоречит первому или второму законам.

robot txt how to use

Именно поэтому инструкции robots.txt носят рекомендательный характер и являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

#ЧТОТОККОФЕ

Если вы дочитали этот текст до конца — держите в награду “вкусный” факт к вашему “SEO за чашкой кофе”. 

Не robots.txt единым в мире SEO. Сейчас вы можете встретить и другой файл — humans.txt.

Что такое humans.txt?

Это всемирная инициатива, стартовавшая в Испании, которую, к слову, поддержал сам  Google. Ее целью является знакомство с людьми по ту сторону сайта. По сути, это текстовый файл, названный humans.txt, который содержит информацию о людях, участвовавших в создании сайта. Размещают его в корне сайта рядом с файлом robots.txt, поэтому вы можете его увидеть по аналогии с robots.txt. Выглядит он примерно так.  

И если robots.txt создается для поисковых роботов людьми, то humans.txt напоминает о том, что за каждым сайтом, который у нас в закладках, стоят люди. Если увидите на любимом ресурсе кнопку humans.txt, смело жмите! Ведь гуру web-дизайна и SEO будет приятно услышать “спасибо”, а возможно – и познакомиться с вами лично.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

БОЛЬШЕ ИНТЕРЕСНЫХ СТАТЕЙ
Экспертиза
Быстрые ссылки: что это, в чем польза для сайта и как их настроить в Google и Яндексе
Сен 02, 2020 Время чтения: 7 мин

Быстрые ссылки делают сайт более привлекательным и информативным в поисковой выдаче. Разбираемся в разных типах быстрых ссылок и механизмах их формирования — узнайте, как повысить свои шансы на их отображение и каковы возможности их настройки.

Анастасия Осипенко
Экспертиза
Как создать и продвигать одностраничник
Авг 28, 2020 Время чтения: 15 мин

Узнайте, как своими силами создать одностраничник и обеспечить максимальную конверсию. Хоть одностраничные сайты и сложно продвигать в поисковых системах, существуют проверенные методы, которые помогут вашей оптимизации.

Светлана Щегель
Экспертиза
Как защитить свой уникальный контент
Авг 25, 2020 Время чтения: 7 мин

Картинки, тексты и видео копировали, копируют и будут копировать. Предотвратить это не удастся ни одному владельцу сайта. Но попытаться защитить авторский контент все же стоит. Рассказываем, чем грозит копирование контента владельцу сайта, как понять, что контент своровали, и что делать, чтобы защитить себя от плагиаторов.

Светлана Щегель