Юлия Торчинская
Фев 18, 2020 | Время чтения: 15 мин

Когда-нибудь задумывались, как сайты попадают в выдачу поисковых систем? И как поисковикам удается выдавать нам тонны информации за считанные секунды?

Секрет такой молниеносной работы — в поисковом индексе. Его можно сравнить с огромным и идеально упорядоченным каталогом-архивом всех веб-страниц. Попадание в индекс означает, что поисковик вашу страницу увидел, оценил и запомнил. А, значит, он может показывать ее в результатах поиска.

Предлагаю разобраться в процессе индексации с нуля, чтобы понимать, как сайты попадают в выдачу Яндекс и Google, можно ли управлять этим процессом и что нужно знать про индексирование ресурсов с различными технологиями. 

Что такое сканирование и индексация?

Сканирование страниц сайта — это процесс, когда поисковая система отправляет свои специальные программы (мы знаем их как поисковых роботов, краулеров, спайдеров, пауков) для сбора данных с новых и измененных страниц сайтов. 

Индексация страниц сайта — это сканирование, считывание данных и добавление их в индекс (каталог) поисковыми роботами. Поисковик использует полученную информацию, чтобы узнать, о чем же ваш сайт и что находится на его страницах. После этого он может определить ключевые слова для каждой просканированной страницы и сохранить их копии в поисковом индексе. Для каждой страницы он хранит URL и информацию о контенте. 

В результате, когда пользователи вводят поисковый запрос в интернете, поисковик быстро просматривает свой список просканированных сайтов и показывает только релевантные страницы в выдаче. Как библиотекарь, который ищет нужные вам книги в каталоге — по алфавиту, тематике и точному названию.

как работает индексация

Индексация сайтов в разных поисковых системах отличается парой важных нюансов. Давайте разбираться, в чем же разница. 

Чем отличается индексация в Google и Яндекс?

Индексация сайта в Google

Когда мы гуглим что-то, поиск данных ведется не по сайтам в режиме реального времени, а по индексу Google, в котором хранятся сотни миллиардов страниц. Во время поиска учитываются разные факторы ― ваше местоположение, язык, тип устройства и т. д. 

В 2019 году Google изменил свой основной принцип индексирования сайта — вы наверняка слышали о запуске Mobile-first. Основное отличие нового способа в том, что теперь поисковик хранит в индексе мобильную версию страниц. Раньше в первую очередь учитывалась десктопная версия, а теперь первым на ваш сайт приходит робот Googlebot для смартфонов — особенно, если сайт новый. Все остальные сайты постепенно переходят на новый способ индексирования, о чем владельцы узнают в Google Search Console.

Еще несколько основных отличий индексации в Google:

  • индекс обновляется постоянно;
  • процесс индексирования сайта занимает от нескольких минут до недели;
  • некачественные страницы обычно понижаются в рейтинге, но не удаляются из индекса.

В индекс попадают все просканированные страницы, а вот в выдачу по запросу — только самые качественные. Прежде чем показать пользователю какую-то веб-страницу по запросу, поисковик проверяет ее релевантность по более чем 200 критериям (факторам ранжирования) и отбирает самые подходящие. 

Индексация сайта в Яндекс

В Яндексе процесс индексирования в целом такой же. Поисковые роботы заходят на сайт, загружают и обрабатывают данные, после чего добавляют их в индекс для дальнейшего использования в выдаче.  

Что еще важно знать про индексацию в Яндекс:

  • индекс Яндекса обновляется во время обновлений поисковой базы (примерно раз в три дня);
  • процесс индексирования сайта занимает от недели до месяца;
  • Яндекс работает медленнее, чем Гугл, но при этом удаляет некачественные страницы из индекса, отбирая только полезные материалы.

В выдачу Яндекса попадают те страницы, которые максимально отвечают на поисковый запрос, содержат понятную и полезную информацию и удобны в использовании. 

Что поисковые роботы делают на вашем сайте, мы разобрались, а вот как они попадают туда? Существует несколько вариантов.

Как поисковые роботы узнают о вашем сайте

Если это новый ресурс, который до этого не индексировался, нужно «представить» его поисковикам. Получив приглашение от вашего ресурса, поисковые системы отправят на сайт своих краулеров для сбора данных.

Вы можете пригласить поисковых ботов на сайт, если разместите на него ссылку на стороннем интернет-ресурсе. Но учтите: чтобы поисковики обнаружили ваш сайт, они должны просканировать страницу, на которой размещена эта ссылка. Этот способ работает для обоих поисковиков.

Также можно воспользоваться одним из перечисленных ниже вариантов отдельно для каждой поисковой системы:

Для Яндекс 

Для Google

Каждый сеошник мечтает, чтобы его сайт быстрее проиндексировали, охватив как можно больше страниц. Но повлиять на это не в силах никто, даже лучший друг, который работает в Google. 

Скорость сканирования и индексации зависит от многих факторов, включая количество страниц на сайте, скорость работы самого сайта, настройки в веб-мастере и краулинговый бюджет. Если кратко, краулинговый бюджет — это количество URL вашего сайта, которые поисковый робот хочет и может просканировать.

На что же мы все-таки можем повлиять в процессе индексации? На план обхода поисковыми роботами нашего сайта. 

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта, учитывая robots.txt и sitemap. И именно там вы можете порекомендовать поисковику, что и как скачивать или не скачивать на вашем сайте.

Файл robots.txt

Это обычный текстовый файл, в котором указаны основные сведения — например, к каким поисковым роботам мы обращаемся (User-agent) и что запрещаем сканировать (Disallow).

Указания в robots.txt помогают поисковым роботам сориентироваться и не тратить свои ресурсы на сканирование маловажных страниц (например, системных файлов, страниц авторизации, содержимого корзины и т. д.). Например, строка Disallow:/admin запретит поисковым роботам просматривать страницы, URL которых начинается со слова admin, а Disallow:/*.pdf$ закроет им доступ к PDF-файлам на сайте.

Также в robots.txt стоит обязательно указать адрес карты сайта, чтобы указать поисковым роботам ее местоположение.

карта сайта в robots.txt

Чтобы проверить корректность robots.txt, загрузите его в специальную форму на странице Яндекс.Вебмастер или воспользуйтесь отдельным инструментом в Google Search Console.

Файл Sitemap

Еще один файл, который поможет вам оптимизировать процесс сканирования сайта поисковыми роботами ― это карта сайта (Sitemap). В ней указывают, как организован контент на сайте, какие страницы подлежат индексации и как часто информация на них обновляется. 

Если на вашем сайте несколько страниц, поисковик наверняка обнаружит их сам. Но когда у сайта миллионы страниц, ему приходится выбирать, какие из них сканировать и как часто. И тогда карта сайта помогает в их приоритезации среди прочих других факторов. 

Также сайты, для которых очень важен мультимедийный или новостной контент, могут улучшить процесс индексации благодаря созданию отдельных карт сайта для каждого типа контента. Отдельные карты для видео также могут сообщить поисковикам о продолжительности видеоряда, типе файла и условиях лицензирования. Карты для  изображений ― что изображено, какой тип файла и т. д. Для новостей ― дату публикации. название статьи и издания. 

Чтобы ни одна важная страница вашего сайта не осталась без внимания поискового робота, в игру вступают навигация в меню, «хлебные крошки», внутренняя перелинковка. Но если у вас есть страница, на которую не ведут ни внешние, ни внутренние ссылки, то обнаружить ее поможет именно карта сайта. 

А еще в Sitemap можно указать:

  • частоту обновления конкретной страницы — тегом <changefreq>;
  • каноническую версию страницы ― атрибутом rel=canonical;
  • версии страниц на других языках ― атрибутом hreflang.

Карта сайта также здорово помогает разобраться, почему возникают сложности при индексации вашего сайта. Например, если сайт очень большой, то там создается много карт сайта с разбивкой по категориям или типам страниц. И тогда в консоли легче понять, какие именно страницы не индексируются и дальше разбираться уже с ними. 

Проверить правильность файла Sitemap можно на странице Яндекс.Вебмастер, а также в Google Search Console вашего сайта в разделе «Файлы Sitemap»

Итак, ваш сайт отправлен на индексацию, robots.txt и sitemap проверены, пора узнать, как прошло индексирование сайта и что поисковая система нашла на ресурсе. 

Как проверить индексацию сайта 

Проверка индексации сайта осуществляется несколькими способами:

1. Через оператор site: в Google и Яндекс. Этот оператор не дает исчерпывающий список страниц, но даст общее понимание о том, какие страницы в индексе. Выдает результаты по основному домену и поддоменам.

проверка индексации в поисковике

2. Через Google Search Console и Яндекс.Вебмастер. В консоли вашего сайта есть детальная информация по всем страницам ― какие из них проиндексированы, какие нет и почему. 

индексирование в google

У Яндекса в Вебмастере тоже есть информация по добавленным страницам в индекс и исключенным и по каким причинам — в разделе «Индексирование ⇒ Страницы в поиске»

страницы сайта в яндекс

3. Воспользоваться плагинами для браузера типа RDS Bar или специальными инструментами для проверки индексации. Например, узнать, какие страницы вашего сайта попали в индекс поисковика можно в инструменте «Проверка индексации» SE Ranking.

проверка индексации в se ranking

Для этого достаточно ввести нужную вам поисковую систему (Google, Яндекс, Yahoo, Bing), добавить список урлов сайта и начать проверку. Чтобы протестировать работу инструмента «Проверка индексации», зарегистрируйтесь на платформе SE Ranking и откройте тул в разделе «Инструменты».   

В этом месте вы можете поднять руку и спросить «А что, если у меня сайт на AJAX? Он попадет в индекс?». Отвечаем 🙂  

Особенности индексирования сайтов с разными технологиями

Ajax

Сегодня все чаще встречаются JS-сайты с динамическим контентом ― они быстро загружаются и удобны для пользователей. Одно из основных отличий таких сайтов на AJAX — все содержимое подгружается одним сплошным скриптом, без разделения на страницы с URL. Вместо этого ― страницы с хештегом #, которые не индексируются поисковиками. Как следствие — вместо URL типа https://mywebsite.ru/#example поисковый робот обращается к https://mywebsite.ru/. И так для каждого найденного URL с #. 

В этом и кроется сложность для поисковых роботов, потому что они просто не могут «считать» весь контент сайта. Для поисковиков хороший сайт ― это текст, который они могут просканировать, а не интерактивное веб-приложение, которое игнорирует природу привычных нам веб-страниц с URL. 

Буквально пять лет назад сеошники могли только мечтать  о том, чтобы продвинуть такой сайт в поиске. Но все меняется. Уже сейчас в справочной информации и Google, и Яндекс есть данные о том, что нужно для индексации AJAX-сайтов и как избежать ошибок в этом процессе. 

Сайты на AJAX с 2019 года рендерятся Google напрямую — это значит, что поисковые роботы сканируют и обрабатывают #! URL как есть, имитируя поведение человека. Поэтому вебмастерам больше не нужно прописывать HTML-версию страницы. 

Но здесь важно проверить, не закрыты ли скрипты со стилями в вашем robots.txt. Если они закрыты, обязательно откройте их для индексирования поисковыми роботам. Для этого в robots.txt нужно добавить такие команды:

User-agent: Googlebot
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Поисковые роботы Яндекса тоже могут индексировать сайты на AJAX, но при одном условии ― если у каждой страницы сайта есть HTML-версия. В справочнике Яндекса можно узнать подробнее, как сообщить роботу об HTML-версии страницы.  

Флеш-контент

С помощью технологии Flash, которая принадлежит компании Adobe, на страницах сайта можно создавать интерактивный контент с анимацией и звуком. За 20 лет своего развития у технологии было выявлено массу недостатков, включая большую нагрузку на процессор, ошибки в работе флеш-плеера и ошибки в индексировании контента поисковиками.

В 2019 году Google перестал индексировать флеш-контент, ознаменовав тем самым конец целой эпохи. Поисковые роботы Яндекса индексируют только тот текст во Flash-документах, который размещен в таких блоках: DefineText; DefineText2; DefineEditText; Metadata.

Поэтому не удивительно, что поисковики предлагают не использовать Flash на ваших сайтах. Если же дизайн сайта выполнен с применением этой технологии, сделайте и текстовую версию сайта. Она будет полезна как пользователям, у которых не установлена совсем или установлена устаревшая программа отображения Flash, пользователям мобильных устройств (они не отображают flash-контент), так и поисковым роботам Яндекса. 

Фреймы 

Фрейм это HTML-документ, который не содержит собственного контента, а состоит из разных областей ― каждая с отдельной веб-страницей. Также у него отсутствует элемент BODY. 

Как результат, поисковым роботам просто негде искать полезный контент для сканирования. Страницы с фреймами индексируются очень медленно и с ошибками. 

Вот что известно от самих поисковиков: Яндекс индексирует контент внутри тегов <frameset> и <frame> и не индексирует документы, подгружаемые в тег <iframe>. А вот Google может индексировать контент внутри встроенного фрейма iframe. Именно iframe поддерживается современными технологиями, так как он позволяет встраивать фреймы на страницы без применения тега <iframe>.

А вот теги <frame>, <noframes>, <frameset> устарели и уже не поддерживаются в HTML5, поэтому и не рекомендуется использовать их на сайтах. Ведь даже если страницы с фреймами будут проиндексированы, то трудностей в их продвижении вам все равно не избежать. 

Что в итоге

Поисковые системы готовы проиндексировать столько страниц вашего сайта, сколько нужно. Только подумайте, объем индекса Google значительно превышает 100 млн гигабайт ― это сотни миллиардов проиндексированных страниц, количество которых растет с каждым днем. 

Но зачастую именно от вас зависит успех этого мероприятия. Понимая принципы индексации поисковых систем, вы не навредите своему сайту неправильными настройками. Если вы все правильно указали в robots.txt и карте сайта, учли технические требования поисковиков и позаботились о наличии качественного и полезного контента, поисковики не оставят ваш сайт без внимания. 

Помните, что индексирование ― это не о том, попадет ваш сайт в выдачу или нет. Намного важнее ― сколько и каких страниц окажутся в индексе, какой контент на них будет просканирован и как он будет ранжироваться в поиске. И здесь ход за вами! 

10 комментариев
  1. Большое спасибо за отличную статью про индексацию сайта, это очень полезная информация для меня.

  2. по поводу фреймов стопудово, мы не рекомендуем нашим клиентам их использовать, всегда были проблемы с индексированием таких сайтов. хорошпая статья!

  3. Есть много неточностей.
    URLs с # Google как не обрабатывал, так и не обрабатывает. Но JS сайты индексируются, правда, это сложный многоступенчатый процесс, поэтому делать html версию лично я рекомендую или использовать различные пререндеры. Но если сайт индексируется без проблем, то можно и не тратить время/силы.

    Google также выставляет страницы из индекса. Причем пачками. Ситуацию наблюдаю последние года 3 точно. Допустим, ecommerce запускает блог в поддержку основных страниц сайта. Вроде бы все хорошо, блоги индексируются и… проходит 1-2 месяца, а страницы вне индекса. Технических проблем нет, все нормально. ответ прост, дело даже не в качестве. Просто на многие тематики уже столько страниц и контента, что добавлять очередную копию в индекс просто нет смысла. Ресурсы даже поисковых гигантов исчерпаемы.

    Сам процесс индексации достаточно сложный и «многоэтапный». Не всегда корректный и аккуратный. Поэтому для Google лучше продолжать практику использования точного вхождения кейвордз в заголовках, первых абзацах страниц.
    Также хорошо надо прорабатывать вспомогательный контент, ссылки на странице в секциях вспомогательных. Например, для тех же Интернет магазинов качество страницы определяется наличием указания на условия доставки, гарантию, методы оплаты и т.п., а также на другие товары.

    1. Добрый день! Спасибо, что поделились своим опытом и интересными дополнениями к статье 😉

      По поводу индексирования URL c # — как говорят представители Google, поисковик их сканирует и индексирует. Другое дело — какой именно контент поисковый робот там увидит и сохранит. Поэтому, конечно, если на вашем сайте нет проблем с индексацией URL c #, не нужно тратить время на какие-то дополнительные действия в этом направлении. Если же вы видите, что часть контента не индексируется, стоит подумать, что делать в каждом конкретном случае.

      Google, к сожалению, не идеален и действительно может допускать ошибки. Наша задача – сделать все возможное со своей стороны, чтобы индексация прошла гладко. И без тщательной проработки контента со стороны SEO-специалиста тут не обойтись. Он должен убедиться, что контент действительно нужен и поисковику, и посетителям, а не просто распихать ключевые слова по страницам.

    1. Спасибо за комментарий 🙂

      Поисковые роботы не должны иметь проблем с индексацией JS, если на сайте будут выполнены рекомендации самих поисковиков – для Яндекса это наличие HTML-версии страницы. Конечно, это не означает, что все URL с # отлично индексируются – у каждого отдельного сайта могут быть свои причины проблем с индексацией, в которых нужно разбираться.

      1. Речь идет о том, что нельзя утверждать: «страницы с хештегом #, которые не индексируются поисковиками».

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

БОЛЬШЕ ИНТЕРЕСНЫХ СТАТЕЙ
Экспертиза
Как правильно писать отзывы и зачем они нужны
Май 04, 2020 Время чтения: 8 мин

Оставлять отзывы – это хорошая привычка, которая улучшает потребительскую культуру. Но чтобы наши отзывы были полезны другим, нужно научиться их правильно писать. Давайте разбираться, как оставить хороший отзыв, о чем важно сказать и на какие примеры равняться.

Юлия Торчинская
Экспертиза
Переводим сайт на HTTPS за 5 шагов
Май 01, 2020 Время чтения: 11 мин

HTTPS — защищенный протокол передачи данных, который нужен каждому сайту. Узнай, почему переносить сайт на HTTPS нужно уже сейчас, зачем тебе SSL-сертификат и где его взять. Еще мы расскажем, как настроить сайт и панели вебмастеров после переезда, чтобы не потерять трафик и позиции.

Светлана Щегель
Экспертиза
Как обновить дизайн сайта и не потерять позиции
Апр 27, 2020 Время чтения: 9 мин

Сайт — ваша визитная карточка в интернете. Он должен быть удобным, понятным, и нравится пользователям. Если это не так, пора задуматься о редизайне. А чтобы после обновления дизайна вы не потеряли позиции, в этой статье мы расскажем, на что обратить внимание на каждом этапе редизайна.

Светлана Щегель