Оптимизируем карту сайта: исправляем ошибки, удаляем мусорные страницы и раскрываем инсайты

Автор статьи
Дарья Четвертак
Апр 29, 2021
16 мин - время чтения

Вы создали карту сайта, загрузили ее в Google Search Console, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковикиигнорирует ваш файл Sitemap и не собирается индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.

Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.

В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.

Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковик проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.

Исправление ошибок в отчете Sitemap

После загрузки карты сайта в Google в столбце «Статус» можно увидеть, удалось ли поисковику обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно». В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы».

Проблемы со сканированием вашего файла Sitemap

Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено». 

Статус карты сайта «Не получено»

В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.

Статус получения страницы в GSC

Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.

Ошибка «Не получено» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.

Ошибки в файле индекса Sitemap

Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.

Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console.

И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

Недопустимый размер файла Sitemap и ошибки сжатия

Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap

Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в консоли.

Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.

Проблемы со сканированием URL-адресов в карте сайта

По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

Еще одна довольно очевидная проблема, которая не позволяет Google сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Аудит сайта» от SE Ranking.

Всю необходимую информацию ищите в разделе «Код ответа сервера».

Раздел «Код ответа сервера» в SE Ranking

Google также выделяет другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

Ошибка «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

Ошибка «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Аудит сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.

Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.

Раздел «Редиректы» в SE Ranking

Ошибка «Нельзя использовать URL» означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.

Что касается разных доменов, помните, что для Google версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным. 

Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Аудит сайта» SE Ranking напомнит вам об этом.

Раздел «Безопасность сайта» в SE Ranking

Google считает, что вы указали неправильные URL

Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www.example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.

Синтаксические ошибки в карте сайта

В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок. 

  • «Недопустимое значение тега». Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0.
  • «Неверное значение атрибута». Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
<url><loc>https://example.com</loc><xhtml:link rel=”alternate” hreflang=”gb” href=”https://example.com”/><xhtml:link rel=”alternate” hreflang=”fr” href=”https://example.com/fr”/></url>

Здесь “alternate”, “gb” и “fr” являются значениями атрибутов, но “gb” используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, “en-gb”.

  • «Неправильно введена дата». Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
2005-02-21 
2005-02-21T18:00:15+00:00
  • «Недопустимый URL». Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.
  • Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.
  • «Недопустимый XML: слишком много тегов». Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.
<url>
<loc>http://www.example.com/</loc>
<lastmod>2021-01-01</lastmod>
<lastmod>2021-02-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
  • «Неправильно указано пространство имен». Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”

Файлы Sitemap для новостей — xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9″

Файлы Sitemap для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″

Файлы Sitemap для изображений — xmlns:image:=”http://www.google.com/schemas/sitemap-image/1.1″

Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.

Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8.

Ошибка «Неподдерживаемый формат файла» в GSC

Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.

После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

Такие действия заставят Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.

Загруженные vs проиндексированные URL-адреса

Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.

Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.

Отчет об индексировании в GSC

Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.

Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта. 

Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console. Но их удобнее проверять с помощью инструмента «Аудит сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».

Вкладка «Сканирование» в SE Ranking

Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.

Оптимизируйте карту сайта с подсказками от Google

Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.

  • На вкладке «Без ошибок, есть предупреждения» обратите внимание на страницы, которые были проиндексированы, несмотря на директиву noindex. Скорее всего, Google был прав, и вам нужно удалить тег noindex из этих страниц или из вашего X-Robots-Tag.
  • На вкладке «Страница без ошибок» посмотрите внимательно на проиндексированные, но не отправленные в файл Sitemap страницы — вы можете добавить их в карту сайта, так как Google считает их качественными. В то же время, если Google проиндексировал ваше «Пользовательское соглашение», которое вы не включили в карту сайта, можно ничего не делать. Также следите за дублями страниц, которые были проиндексированы, но отсутствовали в вашей карте сайта — такие случаи часто возникают из-за проблем с пагинацией и обработкой параметров URL-адресов.
  • Наконец, перейдите на вкладку «Исключено». Большинство страниц здесь исключены из индексации в соответствии с вашими собственными директивами, например старые страницы 404, страницы, заблокированные robots.txt, неиндексируемые и неканонические страницы. Обратите внимание на канонические страницы, которые Google решил не индексировать, — поисковая система считает, что на вашем сайте есть альтернативы получше. Тщательно изучите каждый случай и решите, действительно ли страница более ценна, чем ее дубли — исправьте свои теги canonical, если Google был прав. Если вы по-прежнему считаете, что страницу нужно проиндексировать, вам придется поработать над ее содержанием, профилем бэклинков и внутренней линковкой, чтобы убедить Google в обратном.

На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.

Заключение

Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.

Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.

Подпишитесь на наш блог!

Подпишитесь на нашу рассылку, чтобы быть в курсе главных новостей компании, получать эксперные статьи и полезные SEO-советы.

Спасибо!
Ура! Теперь вы подписаны на наш блог!
Пожалуйста, проверьте свой email и подтвердите подписку.