Юлия Торчинская
Апр 12, 2017 | Время чтения: 4 мин

Если бы Айзек Азимов, родившийся почти 100 лет назад, очутился в 2017 году, он бы вряд ли сильно удивился. Роботы, о которых он так много писал, не расхаживают по улицам городов, но их можно встретить на “улицах” веба — сканирующих сайты 24/7.

Действуют ли на них 3 закона роботехники или они живут по своим правилам — разбираемся в нашей новой статье.

Первый закон

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.

robot.txt

Поисковые роботы – довольно мирные. Но иногда и они могут “положить” ваш сайт,  “выложить” его тестовую версию на всеобщий обзор или проиндексировать данные не для чужих глаз.

Этого можно и нужно избегать. Как? Начните правильно работать с файлом robots.txt.

Инструкция по работе с robots.txt

Если знать четкие правила составления этого файла, вы сможете избежать многих ошибок, связанных со сканированием вашего сайта. Итак, давайте пройдемся по самым популярным вопросам.

Как просмотреть robots.txt?

Задать в адресной строке браузера имя_вашего_сайта/robots.txt

Как изменить robots.txt?

Открыть файл robots.txt в корневом каталоге сайта на сервере провайдера.

Что должно быть в robots.txt?

В самом простом файле robots.txt используются две директивы – к кому мы обращаемся (User-agent) и что запрещаем (Disallow).

К какому роботу вы обращаетесь?

User-agent – это робот поисковой системы, которому предназначена указанная вами инструкция. Если стоит *, то инструкция предназначена для всех роботов. Если указан конкретный бот, например Googlebot, значит, инструкция только для него.

Как сказать роботу, что именно ему не не нужно сканировать?

Используйте команду Disallow. Она сообщит роботу user-agent о том, какие папки и страницы не нужно сканировать.

Как сказать роботу, что именно ему нужно сканировать?

Используйте команду Allow. Она укажет роботу, что нужно проиндексировать в первую очередь или то, что обычно плохо индексируется, например, файлы в js и изображения. 

Как робот увидит все страницы сайта?

Включите в robots.txt директиву Sitemap. Она укажет роботам поисковых систем то место, где на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Так робот увидит все страницы вашего сайта, индексация которых не запрещена.

Как указать роботу основное зеркало и избежать дублей страниц?

Используйте директиву Host. Она укажет роботу основное зеркало сайта.

Второй закон

Робот должен повиноваться всем приказам, которые даёт человек, если эти приказы не противоречат первому закону.

Чтобы роботы повиновались вашим приказам, нужно уметь “говорить” на понятном им  языке. Файл robots.txt – это своеобразная рекомендация для роботов, которую вы им прописываете. Поэтому ваша задача – научиться правильно ставить задачи и уметь их корректировать при необходимости.

Как проверить robots.txt для Яндекса?

Проверить корректность настройки robots.txt для Яндекса можно при помощи сервиса  Яндекс.Вебмастер.

Как проверить robots.txt для Google?

Корректность настройки директив для Google вы можете проверить инструментом проверки файла robots.txt, который находится в Google Search Console.

Что стоит закрыть в robots.txt?

Вы можете закрыть роботам доступ к индексированию как отдельных страниц, так и целых разделов. Мы рекомендуем следующих кандидатов для Disallow:

  • корзина и страница оформления/подтверждения заказа (интернет-магазины)
  • фильтры и сравнение товаров (интернет-магазины, сайты-каталоги)
  • страницы регистрации и авторизации
  • системные каталоги и файлы

Третий закон

Робот должен заботиться о своей безопасности в той мере, в какой это не противоречит первому или второму законам.

robot txt how to use

Именно поэтому инструкции robots.txt носят рекомендательный характер и являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

#ЧТОТОККОФЕ

Если вы дочитали этот текст до конца — держите в награду “вкусный” факт к вашему “SEO за чашкой кофе”. 

Не robots.txt единым в мире SEO. Сейчас вы можете встретить и другой файл — humans.txt.

Что такое humans.txt?

Это всемирная инициатива, стартовавшая в Испании, которую, к слову, поддержал сам  Google. Ее целью является знакомство с людьми по ту сторону сайта. По сути, это текстовый файл, названный humans.txt, который содержит информацию о людях, участвовавших в создании сайта. Размещают его в корне сайта рядом с файлом robots.txt, поэтому вы можете его увидеть по аналогии с robots.txt. Выглядит он примерно так.  

И если robots.txt создается для поисковых роботов людьми, то humans.txt напоминает о том, что за каждым сайтом, который у нас в закладках, стоят люди. Если увидите на любимом ресурсе кнопку humans.txt, смело жмите! Ведь гуру web-дизайна и SEO будет приятно услышать “спасибо”, а возможно – и познакомиться с вами лично.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

БОЛЬШЕ ИНТЕРЕСНЫХ СТАТЕЙ
Экспертиза
Почему важно ускорить индексацию сайта и как это сделать
Мар 25, 2020 Время чтения: 10 мин

У Google на процесс индексирования уходит от пары минут до семи дней, Яндексу на это понадобится от недели до месяца. Заранее определить сроки индексации никто не может — все зависит от вашего сайта. Но есть несколько способов ускорить процесс. Что же может сделать владелец сайта, чтобы поисковики как можно быстрее проиндексировали его сайт?

Юлия Торчинская
Экспертиза
Уникальный контент: почему он важен
Мар 05, 2020 Время чтения: 7 мин

Самое главное в любом сайте — его контент. Это могут быть изображения, видео, аудио и, конечно же, текст. Все эти материалы помогают пользователям находить в сети нужную информацию и товары, а поисковикам — определять ценность ресурса и показывать его большей аудитории. В этой статье мы расскажем, насколько важны уникальные тексты для сайта и как их создавать.

Наталья Холодкова
Экспертиза
Принципы индексации сайта в поисковиках
Фев 18, 2020 Время чтения: 9 мин

Секрет молниеносной работы поисковиков — в индексе, который можно сравнить с огромным и идеально упорядоченным каталогом всех веб-страниц. Давайте разберемся, как сайты попадают в выдачу Яндекс и Google, можно ли управлять этим процессом и что нужно знать про индексирование ресурсов с различными технологиями.

Юлия Торчинская