Юлия Торчинская
Апр 12, 2017 | Время чтения: 4 мин

Если бы Айзек Азимов, родившийся почти 100 лет назад, очутился в 2017 году, он бы вряд ли сильно удивился. Роботы, о которых он так много писал, не расхаживают по улицам городов, но их можно встретить на “улицах” веба — сканирующих сайты 24/7.

Действуют ли на них 3 закона роботехники или они живут по своим правилам — разбираемся в нашей новой статье.

Первый закон

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.

robot.txt

Поисковые роботы – довольно мирные. Но иногда и они могут “положить” ваш сайт,  “выложить” его тестовую версию на всеобщий обзор или проиндексировать данные не для чужих глаз.

Этого можно и нужно избегать. Как? Начните правильно работать с файлом robots.txt.

Инструкция по работе с robots.txt

Если знать четкие правила составления этого файла, вы сможете избежать многих ошибок, связанных со сканированием вашего сайта. Итак, давайте пройдемся по самым популярным вопросам.

Как просмотреть robots.txt?

Задать в адресной строке браузера имя_вашего_сайта/robots.txt

Как изменить robots.txt?

Открыть файл robots.txt в корневом каталоге сайта на сервере провайдера.

Что должно быть в robots.txt?

В самом простом файле robots.txt используются две директивы – к кому мы обращаемся (User-agent) и что запрещаем (Disallow).

К какому роботу вы обращаетесь?

User-agent – это робот поисковой системы, которому предназначена указанная вами инструкция. Если стоит *, то инструкция предназначена для всех роботов. Если указан конкретный бот, например Googlebot, значит, инструкция только для него.

Как сказать роботу, что именно ему не не нужно сканировать?

Используйте команду Disallow. Она сообщит роботу user-agent о том, какие папки и страницы не нужно сканировать.

Как сказать роботу, что именно ему нужно сканировать?

Используйте команду Allow. Она укажет роботу, что нужно проиндексировать в первую очередь или то, что обычно плохо индексируется, например, файлы в js и изображения. 

Как робот увидит все страницы сайта?

Включите в robots.txt директиву Sitemap. Она укажет роботам поисковых систем то место, где на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Так робот увидит все страницы вашего сайта, индексация которых не запрещена.

Как указать роботу основное зеркало и избежать дублей страниц?

Используйте директиву Host. Она укажет роботу основное зеркало сайта.

Второй закон

Робот должен повиноваться всем приказам, которые даёт человек, если эти приказы не противоречат первому закону.

Чтобы роботы повиновались вашим приказам, нужно уметь “говорить” на понятном им  языке. Файл robots.txt – это своеобразная рекомендация для роботов, которую вы им прописываете. Поэтому ваша задача – научиться правильно ставить задачи и уметь их корректировать при необходимости.

Как проверить robots.txt для Яндекса?

Проверить корректность настройки robots.txt для Яндекса можно при помощи сервиса  Яндекс.Вебмастер.

Как проверить robots.txt для Google?

Корректность настройки директив для Google вы можете проверить инструментом проверки файла robots.txt, который находится в Google Search Console.

Что стоит закрыть в robots.txt?

Вы можете закрыть роботам доступ к индексированию как отдельных страниц, так и целых разделов. Мы рекомендуем следующих кандидатов для Disallow:

  • корзина и страница оформления/подтверждения заказа (интернет-магазины)
  • фильтры и сравнение товаров (интернет-магазины, сайты-каталоги)
  • страницы регистрации и авторизации
  • системные каталоги и файлы

Третий закон

Робот должен заботиться о своей безопасности в той мере, в какой это не противоречит первому или второму законам.

robot txt how to use

Именно поэтому инструкции robots.txt носят рекомендательный характер и являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

#ЧТОТОККОФЕ

Если вы дочитали этот текст до конца — держите в награду “вкусный” факт к вашему “SEO за чашкой кофе”. 

Не robots.txt единым в мире SEO. Сейчас вы можете встретить и другой файл — humans.txt.

Что такое humans.txt?

Это всемирная инициатива, стартовавшая в Испании, которую, к слову, поддержал сам  Google. Ее целью является знакомство с людьми по ту сторону сайта. По сути, это текстовый файл, названный humans.txt, который содержит информацию о людях, участвовавших в создании сайта. Размещают его в корне сайта рядом с файлом robots.txt, поэтому вы можете его увидеть по аналогии с robots.txt. Выглядит он примерно так.  

И если robots.txt создается для поисковых роботов людьми, то humans.txt напоминает о том, что за каждым сайтом, который у нас в закладках, стоят люди. Если увидите на любимом ресурсе кнопку humans.txt, смело жмите! Ведь гуру web-дизайна и SEO будет приятно услышать “спасибо”, а возможно – и познакомиться с вами лично.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

БОЛЬШЕ ИНТЕРЕСНЫХ СТАТЕЙ
Экспертиза
Что имеют в виду веб-мастера, когда говорят «закрыть тегом каноникал», или что такое Canonical Tags?
Ноя 23, 2020 Время чтения: 11 мин

Использование canonical — несложная базовая механика в работе SEO-специалиста. Однако при некорректном применении канонизация может негативно влиять на ранжирование сайта. Рассказываем, как правильно использовать тег каноникал в разных целях и как избежать возможных ошибок.

Александр Лушин
Экспертиза
Что такое long-tail запросы и как их эффективно использовать в SEO
Ноя 11, 2020 Время чтения: 16 мин

Ключи long-tail — обычно низкочастотные, содержащие 3-5 и больше слов. Разбираемся в типах запросов «с хвостом» и их важности для SEO. Узнайте, как правильно использовать long-tail ключи, чтобы увеличить конверсии и поисковую видимость сайта.

Анна Чудная
Экспертиза
11 метрик, используемых в инструментах SE Ranking
Ноя 05, 2020 Время чтения: 13 мин

SE Ranking использует самые важные метрики Google и Яндекса, а также собственные алгоритмы для расчета разных SEO-параметров. В этой статье мы рассказываем, как анализировать разные типы данных по ключевым словам, доменам, трафику и рекламным объявлениям.

Анастасия Осипенко