Принципы индексирования сайта. Часть 1

Kristina | Декабрь 21, 2015

Задача любого сайта — донести до как можно большего количества людей информацию, которую он содержит. Продвижение сайта в поисковых системах (ПС) — наиболее  эффективный способ это сделать. Один из этапов продвижения — индексация сайта, т. е. считывание всех данных с сайта,  последующая их обработка алгоритмами поисковых систем и занесение результатов в базу данных.

Не зная кухни этого процесса, эффективно продвигать сайт невозможно. В этой статье мы расскажем, что происходит с информацией, собранной с ресурса в недрах ПС и как ее упаковать для лучшего усвоения. То есть расскажем о процессе индексирования и его улучшении.

indeksaciya-sajtov

Индексация сайта — что находится в начале

Если театр начинается с вешалки, то индексирование с того, что роботу поисковой системы необходимо сообщить, что в интернете появился новый ресурс. Сделать это можно двумя способами:

  1. Зарегистрировать сайт в поисковой системе вручную Яндексу (webmaster.yandex.ru/addurl.xml), Google (www.google.com/webmasters/tools/submit-url?hl=ru) и других поисковых системах, если они вас интересуют.
  1. Дать ссылку на сайт со стороннего интернет-ресурса (разумеется, тот уже должен быть зарегистрирован).

Первый способ предпочтительнее, так как в этом случае первая индексация с большой вероятностью произойдет раньше.

Отчего зависит частота индексирования и как ее ускорить

businessman hand touch virtual graph,chart, diagram

Сейчас в базе данных Яндекса больше триллиона (!) веб-адресов (каждая страница любого сайта имеет свой адрес). Разумеется, проиндексировать всю эту махину за один день — задача нереальная. Поэтому следует понимать, что индексация сайта происходит не каждый день, а с определенной периодичностью. Причем эта периодичность — величина непостоянная и зависящая от ряда факторов. И на практике получается, что одни ресурсы ПС индексируют чуть ли не ежедневно, а для других — поисковый робот редкий гость. Поэтому очень желательно, предпринять ряд действий, чтобы интервал между индексациями уменьшить. Тогда вы эффективнее будете продвигать свой сайт, так как быстрее сможете видеть результаты своих действий на нем и, соответственно, быстрее вносить коррективы.

Что влияет на эту оперативность?

  1. Загруженность сервера, где расположен сайт. Если он загружен множеством сайтов, а его технические характеристики не позволяют оперативно передавать информацию поисковому роботу, то последний будет его посещать реже. Отсюда рекомендация — хотите быстрой индексации, разместите свой интернет-ресурс на качественном хостинге.
  2. Частота обновления веб-страниц и всего сайта в целом. Чем чаще происходят обновления, тем чаще робот будет приходить на такой ресурс. Все вполне логично. Смысл часто приходить туда, где ничего не происходит? Только следует знать один нюанс. Робот будет приходить именно на те страницы, которые часто и обновляются. То есть, если хотите, чтобы оперативно оценивалась информация на главной странице вашего сайта ее и регулярно обновляйте. Самый простой способ — разместить на ней блок новостей.
  3. Посещаемость сайта и поведенческие факторы его посетителей. То есть, если посещаемость высокая и люди на ресурсе задерживаются долго, совершают внутренние переходы, то интервал между индексациями, безусловно, уменьшится.

Как видите, на все эти три фактора можно влиять в благоприятную для владельца  сайта сторону.

Как узнать, что страница в индексе

uznat-indeksaciju

Это далеко не праздный вопрос и не из серии: «Лучше любая информация, чем неизвестность». Ведь если точно знать, что индексация прошла, а позиции вашего сайта в выдаче не изменились, значить что-то вы делаете не так.

Проверить индексацию сайта можно несколькими способами:

  1. На сервисе Яндекс.Вебмастер («Проверить URL»). Здесь можно узнать:
    • когда произошла последняя индексация;
    • какой документ показывается посетителю в результате поиска;
    • рекомендации по ускорению индексации;
    • если страница отсутствует в поиске, то по каким причинам.
  2. Провести поиск при помощи следующего выражения: url:интересующий url, например, url: moi sairu/contacts
  3. Поиск при помощи оператора sait:. Например, записав в поисковую строку sait: moi sait.ru вы получите список всех страниц вашего сайта, которые были проиндексированы.
  4. Проверить индексацию списка URL в SE Ranking.

Сервис Se Ranking предлагает также инструмент отслеживания выдачи заданного URL в поиске. Так что вы всегда будете знать, не выпала ли интересующая страница из индекса, а также выдается ли нужная страница по конкретному поисковому запросу.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта по строго определенному плану. Тут нет места импровизации. А где она берет этот план? Да на самом интернет-ресурсе! То есть вы можете указать ПС, что и как скачивать или не скачивать.

Файл robots.txt

robots.txt-indeksacija

Очень важный файл, в котором можно указать, какие страницы нельзя индексировать. Это очень важно, так как ни в коем случае нельзя позволять ПС считывать личную информацию пользователей: номера телефонов, паспортные данные, если таковые имеются и т. д. В противном случае владельцу сайта могут грозить крупные неприятности. Также, если у вас социальная сеть, особенно посвященная знакомствам, необходимо запретить индексацию страниц, где могут содержаться личные данные пользователей. Например, строка Disallow:/admin запретит роботу просматривать страницы, урл которых начинается со слова admin, а Disallow:/images запретит индексировать картинки.

Обязательно в robots.txt укажите адрес карты сайта sitemap. В этом случае вы будете уверены, что робот увидит все страницы вашего сайта, индексация которых не запрещена.

Типичные ошибки в файле robots.txt

  1. Ошибочный запрет к индексации некоторых страниц сайта.
  2. Код HTTP-ответа отличный от 200. Например, если при запросе страницы с файлом robots.txt поисковый робот получит HTTP-ответ, равный 403 («запрещено»), то он полностью проигнорирует содержимое файла robots.txt, в том числе  на запрет индексации определенных страниц.
  3. Наличие кириллических символов в файле. Особенно часто такая ошибка стала появляться, когда появилась возможность записывать урл кириллическими буквами. Например, если в директиве Host (указывает на главное зеркало сайта) написать лютикицветочки.рф, то такая запись будет проигнорирована. В таких случаях необходимо такие урл передавать в юникоде.
  4. Размер файла txt превышает 32 кб.

В завершении по robots.txt заметим, что не обязательно сайт должен его иметь.  Для простых одно-двухстраничных интернет ресурсов, например, лендинг пейдж такой файл будет лишним. Если же у вас он есть, то корректность его содержимого можно проверить на странице Яндекс.Вебмастер — webmaster.yandex.ru/robots.xml.  Загружаете файл в специальную форму и видите, какие ошибки в нем есть.

Файл sitemap

sitemap-indeksacija

В этом файле указывается, какие страницы подлежат индексации. Конечно, указать на них поисковому роботу можно и другими способами. Например, навигацией меню, «хлебные крошки», внутренней перелинковкой.

Но, во-первых, если у вас есть лендинг пейдж, на которую можно попасть только по внешней ссылке, то проиндексировать ее можно только с помощью sitemap.

Во-вторых, в sitemap при помощи:

  • тега <priority> можно указать приоритет индексации;
  • тега <changefred> частоту обновления конкретной страницы.

Эта информация не директивная для  робота, но обязательно будет принята им во внимание.

Типичные ошибки в файле sitemap

  1. Размещение sitemap на другом сайте. Часто это бывает, когда используется сервис для генерации такой файла. В этом случае сервис размещает карту вашего сайта у себя.
  2. На странице, где находится карта сайта, установлен редирект.
  3. Критические ошибки внутри файла sitemap. Например, отсутствует строка с указанием кодировки.

Проверить правильность файла sitemap на странице Яндекс.Вебмастер —  webmaster.yandex.ru/ sitemaptest.xml.

Во второй части статьи: « Принципы индексирования сайта. Часть  2» мы поговорим о принципах работы с зеркалами, о дублях страниц, об ошибках при использовании HTTP-кодов. И еще раз подчеркнем, что правильная настройка индексации сайта может существенно помочь его продвижению.

Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedInShare on VKPin on Pinterest

4 thoughts on “Принципы индексирования сайта. Часть 1

  1. Nalichnuy

    Я думаю, что многие вебмастера уже познакомились с курсом Яндекс Основные принципы индексирования 8 уроков о том, как Яндекс индексирует сайты, и как вебмастера могут помочь Яндексу узнать о новых документах.

  2. vds хостинг ipipe.ru

    Большое спасибо за отличную статью про индексацию сайта, это очень полезная информация для меня.

  3. Stunt Maker

    Здравствуйте. А каким образом служба индексирования и список индексировать следующие расположения связан с галочкой в свойствах диска разрешить индексировать содержимое файлов на этом диске в дополнение к свойствам файлов .

    1. Irina Post author

      Добрый день!
      Свойства диска — это немного другое. В статье речь об индексации в интернете.

Comments are closed.