Принципы индексации сайта. Часть 2

Kristina | Январь 19, 2016

В статье «Принципы индексирования сайта. Часть 1» мы говорили о том, как указать поисковым системам на ваш сайт, чтобы они начали его индексировать, о важности правильной настройки индексации и о некоторых инструментах для этого — файлах robots.txt и sitemap. Продолжим разговор об индексации сайта и поговорим о таком понятии, как зеркала.

Зеркала сайта

zerkala-sajta

Первоначально контент любого сайта доступен в интернете по двум адресам: http:/site.ru и http:/www.site.ru. Также часто возникает еще один адрес, связанный с переходом на защищенный протокол обмена информацией — https:/site.ru (подробнее об этом смотрите статью «О правильном переезде на HTTPS»). Для поискового робота формально это все разные сайты, а, следовательно, все они будут участвовать в поисковой выдаче. Трафик, который мог достаться одному ресурсу, будет распыляться на несколько. Сайты будут конкурировать друг с другом, ухудшая позиции в выдаче. Чтобы этого не происходило, поисковой системе необходимо указать, что http:/site.ru, http:/www. site.ru и https:/site.ru — это зеркала, и обязательно назвать главное зеркало, то есть сайт, страницы которого и будут показаны в поисковой выдаче.

Зеркала — это ресурсы с абсолютно одинаковым контентом, но необязательно одинаковым доменом. То есть если у вас был интернет-ресурс http:/лютики-цветочки.рф, а вы по каким-либо причинам решили дать ему новый домен http:/цветочки-лютики.рф, то эти сайты будут зеркалами.

Самый простой и правильный способ указать на главное зеркало — прописать его адрес в директиве Host в файле robots.txt.

Типичные ошибки с зеркалами сайта

  1. Изменение главного зеркала при помощи редиректа 301 в то время, когда сайт уже давно существует. В этом случае автоматически из индекса выпадают страницы старого главного зеркала, а страницы нового главного зеркала еще не проиндексировались и в выдаче тоже отсутствуют. Как результат — проседание трафика. Поэтому 301 редирект нужно настраивать на этапе создания сайта.
  2. Разный контент на зеркалах. Причем это касается любого контента, включая элементы дизайна. Для того, чтобы ПС «склеивала» зеркала, они  должны иметь полностью идентичное содержание.
  3. Переезд сайта в раздел другого ресурса. Допустим, у вас есть интернет-магазин, через который вы продаете игрушки, и другой интернет-магазин, через который вы продаете детскую одежду. Вы решили первый сайт сделать разделом второго. И в директиве Host первого магазина указывает адрес второго магазина. Такими действиями вы просто первый ресурс удалите из индекса и выдачи. Ведь контенты разные! В данном случае необходимо во втором интернет-магазине создать соответствующие разделы из первого магазина, а затем, когда они будут проиндексированы, с первого сайта сделать 301 редирект на второй.

После проведения работ, связанных с изменением главного зеркала, обязательно проконтролируйте трафик — он не должен резко уменьшиться. Если же наблюдается значительное проседание, вероятно, была допущена какая-то ошибка.

Особенности индексирования различных сайтов

Сайты с динамическим контентом

dynamic-content

Проектов, в которых контент показывается в зависимости от действий посетителей, становится все больше. Самый, пожалуй, распространенный пример — интернет-магазины. Большинство из них имеет блок «Недавно просмотренные» или «Вам также может понравиться» или «К этому товару отлично подойдет:». Для того, чтобы вся информация попадала в индекс, необходимо для поискового робота создать статические HTML-копии, которые будут содержать весь контент, и сообщить о них поисковой системе.

Сообщить об этом можно двумя способами:

indeksaciya-dinamicheskogo-kontenta

Версии сайта на разных языках

В этом случае необходимо в коде использовать атрибут “hreflang”. Тогда, например, на территории Англии или США в выдаче будут показываться именно англоязычные версии страниц, а в Турции — на турецком языке.

Примеры использования атрибута hreflang показаны ниже:

indeksaciya-yazykov-hreflang

Если выбор версии страницы по языку должен производиться автоматически в зависимости от  IP-адреса пользователя, то это указывается поисковому роботу таким образом:

yazyk-po-ip-indeksaciya

Как улучшить индексацию сайта

Укажем на некоторые типичные ошибки на сайте, которые тормозят его индексацию.

uluchshaem-indeksaciyu-sajta

Дубли страниц

Под дублями понимаются страницы с абсолютно одинаковым контентом, но имеющие разные url. Пример возникновения таких страниц — размещение одной и той же карточки товара в разных разделах. Например, определенная модель женской сумочки может быть в разделе товаров определенного бренда и в разделе кожгалантереи. Наличие дублей приводит к возникновению ряда проблем:

  • Роботу необходимо больше времени для индексации сайта, то есть возрастает вероятность, что часть нужных страниц не попадет в индекс.
  • Есть вероятность, что в результаты поиска включается только одна страница и по закону бутерброда не та, которая важнее.

В крупных интернет-магазинах с большим количеством товаров, проблема дублей страниц (которых бывают сотни) может быть очень актуальна.

Как исправить дублирование страниц

  1. Указать на каноническую страницу, которая должна включаться в индекс при помощи атрибута “canonical”: canonical
  2. При помощи 301 редиректа.

Удаленные страницы

Часто страница теряет свою актуальность (например, товар распродан и нового поступления уже не будет) и ее удаляют. Но робот-то об этом не знает и при очередной индексации пытается на нее зайти. Чтобы этого избежать, можно поступить двумя способами:

  • в файле robots.txt поставить запрет на индексацию удаленных страниц;
  • поставить код HTTP-ответа, равный 404.

Проверка и актуализация robots.txt

aktualnyj-robotstxt

Периодически необходимо проверять логи сервера, чтобы понять, к каким страницам сайта обращается поисковый робот. Такую информацию можно получить у хостера. Часто из-за различного рода причин робот начинает обращаться к служебным страницам, которые абсолютно не нужно индексировать. Если это произошло, то необходимо запретить индексацию таких страниц.

Анализируем актуальность директивы Crawl delay. С помощью этого параметра регламентируется нагрузка на сервер. Физически он показывает время, которое отводится поисковому роботу для индексации страниц ресурса. Такая директива актуальна, если сайт располагается на маломощном сервере и, чтобы не происходило частого подвисания, используется  Crawl delay. Но если ваш ресурс перебрался на мощный сервер, необходимость в Crawl delay отпадает. Ведь временные ограничения нахождения поискового робота на сайте ведет к замедлению индексации страниц. Поэтому, если ограничивать нагрузку на сервер нет необходимости, удалите из  robots.txt эту директиву.

Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedInShare on VKPin on Pinterest