Светлана Щегель
Авг 02, 2019 | Время чтения: 8 мин

Уследить за всеми страницами сайта сложно, особенно если сайт большой. Но иногда без полного списка страниц не обойтись. Например, если вы хотите создать xml карту сайта, удалить лишние страницы или настроить внутреннюю перелинковку.

С полным списком страниц вы сможете очистить сайт от мусора, исправить технические ошибки на страницах и улучшить ранжирование. Возникает логичный вопрос: как собрать такой список максимально быстро и просто.

Легче всего выгрузить все страницы из одного инструмента, но тогда ваш список может оказаться неполным. Чтобы собрать абсолютно все страницы, в том числе закрытые от поисковых роботов и страницы с техническими ошибками, придется потрудиться.

Почему для сбора данных одного инструмента мало

Собирать данные мы будем из трех инструментов:

  1. Из модуля «Анализ сайта» в SE Ranking выгрузим все страницы, открытые для поисковых роботов;
  2. В Google Analytics найдем все страницы, у которых есть просмотры;
  3. Из Google Search Console достанем оставшиеся закрытые от поисковых роботов страницы, у которых нет просмотров.

Сравнив все данные мы получим полный список страниц вашего сайта.

Проиндексированные URL-ы мы найдем еще на первом этапе. Но нам нужны не только они. У многих сайтов найдутся страницы, на которые не ведет ни одна внутренняя ссылка. Их называют страницами-сиротами.

Почему страницы оказываются «в изоляции»? Причины могут быть разные, к примеру:

  • посадочные страницы создавались под конкретную кампанию;
  • тестовые страницы создавались для сплит-тестирования;
  • страницы убрали из системы внутренней перелинковки, но не удалили;
  • страницы потерялись во время переноса сайта;
  • была удалена страница категории товаров, а страницы товаров остались.

Такие страницы отрезаны от остального сайта, а значит поисковой робот не может их просканировать. Также кроулер не увидит страницы, закрытые от него через файл .htaccess. Ну, и наконец, часть страниц не индексируется из-за технических проблем.

С помощью разных инструментов мы найдем абсолютно все страницы. Но давайте по порядку. Для начала выгрузим список всех проиндексированных и корректно работающих страниц.

Ищем открытые для кроулеров страницы в SE Ranking

Экспортировать страницы, открытые пользователям и кроулерам, будем с помощью платформы SE Ranking. Добавьте сайт для анализа или выберите существующий проект, и перейдите в модуль «Анализ сайта».

Раздел Анализ сайта в SE Ranking

Чтобы поисковой робот просканировал все необходимые страницы, выберем нужные параметры в настройках.

Заходим в НастройкиИсточник страниц для анализа и разрешаем системе сканировать Страницы сайта, Сабдомены сайта и XML карту сайта. Так инструмент отследит все страницы сайта, включая сабдомены.

Настройка источников страниц для анализа

Дальше переходим в раздел Правила сканирования страниц и выбираем значение «Да» для строки Учитывать директивы robots.txt.

Настройка правил сканирования страниц Осталось нажать кнопку Сохранить.

Затем переходим во вкладку Отчет и запускаем анализ — нажимаем кнопку Запустить проверку заново.

Запустить анализ сайта в SE Ranking заново  Когда анализ завершится, идем во вкладку Просканированные страницы. Там будет полный список страниц, открытых для поисковых роботов.

фильтрация просканированных страниц

Так как нам нужны только страницы с кодом ответа 200, то есть корректно работающие страницы, отфильтруем результаты по этому параметру.

Применяем фильтр "Ответ сервера 200"

Теперь можно экспортировать данные.

Экспорт данных из SE Ranking

Последний этап — убрать из списка все URL, закрытые от индексации поисковыми системами. Для этого в Excel удаляем все строки, у которых в колонке Meta noindex стоит значение «Да». Удобнее всего это сделать, отсортировав значения по алфавиту.

Сортировка данных в Excel

На следующем этапе мы будем сравнивать большие массивы данных. Если вам удобно это делать в Excel — оставляйте все как есть. Если вы предпочитаете Google таблицы, скопируйте оставшиеся строки и вставьте их в новую таблицу.

Через Google Analytics ищем все страницы с просмотрами

Поисковые роботы находят страницы переходя по внутренним ссылкам сайта. Поэтому если на страницу не ведет ни одна ссылка на сайте, кроулер ее не найдет.

Обнаружить их можно с помощью данных из Google Analytics — система хранит инфу о посещениях всех страниц. Одно плохо — GA не знает о тех просмотрах, которые были до того, как вы подключили аналитику к вашему сайту.

Просмотров у таких страниц будет немного, потому что с сайта на них перейти не получится. Находим их следующим образом.

Заходим в ПоведениеКонтент сайтаВсе страницы. Если ваш сайт не молодой, стоит указать данные за какой период вы хотите получить. Это важно, так как Google Analytics применяет выборку данных — то есть анализирует не всю информацию, а только ее часть.

Календарь Google Analytics Дальше, кликаем на колонку Просмотры страниц, чтобы отсортировать список от меньшего к большему значению . В результате, вверху окажутся самые редко просматриваемые страницы — среди них-то и будут страницы-сироты.

Просмотры страниц в Google Analytics

Двигайтесь вниз по списку, пока не увидите страницы, у которых просмотров существенно больше. Это уже страницы с настроенной перелинковкой.

Собранные данные экспортируем в .csv файл.

Выделяем страницы-сироты

Наш следующий шаг — сравнить данные из SE Ranking и Google Analytics, чтобы понять, к каким страницам у поисковых роботов нет доступа.

Копируем данные из .csv файла, выгруженного из Google Analytics, и вставляем их в таблицу рядом с данными из SE Ranking.

Из Google Analytics мы выгрузили только окончания URL, а нам нужно, чтобы все данные были в одном формате. Поэтому в колонку B вставляем адрес главной страницы сайта как показано на скриншоте.

Сравнить данные из SE Ranking и Google Analytics

Далее, с помощью функции сцепить (concatenate) объединяем значения из колонок B и C в колонке D и протягиваем формулу вниз до конца списка.

Используем функцию concatenateА теперь самое интересное: будем сравнивать колонку «SE Ranking» и колонку «GA URLs», чтобы найти страницы-сироты.

На практике страниц будет намного больше, чем на скриншоте, поэтому анализировать их вручную пришлось бы бесконечно долго. К счастью, существует функция поискпоз (match), которая позволяет определить, какие значения из колонки «GA URLs» есть в колонке «SE Ranking». Вводим функцию в колонке E и протягиваем ее вниз до конца списка.

Результат должен выглядеть так:

Сопоставляем данные функцией match

В колонке E увидим, каких страниц из GA нет в колонке SE Ranking, там таблица выдаст ошибку (#N/A). В примере видно, что в ячейке E9 нет значения, потому что ячейка A11 — пустая.

Ваш список будет намного больше. Чтобы собрать все ошибки, отсортируйте данные в колонке E по алфавиту:

Отсортировать данные в Google таблицах
Теперь у вас есть полный список страниц, не связанных ссылками с сайтом. Перед тем, как двигаться дальше, изучите каждую одинокую страницу. Ваша цель — понять, что это за страница, какова ее роль, и почему на нее не ведет ни одна ссылка.

Дальше есть три варианта развития событий:

  • Поставить на страницу внутреннюю ссылку. Для этого нужно определить ее место в структуре вашего сайта.
  • Удалить страницу, настроив с нее 301 редирект, если это лишняя страница.
  • Оставить все как есть, но присвоить странице тег <noindex>, если, например, страница создавалась под рекламную кампанию.

Поработав с изолированными страницами, можно еще раз выгрузить и сравнить списки из SE Ranking и GA. Так вы убедитесь, что ничего не упустили.

Ищем оставшиеся страницы через Google Search Console

Как найти страницы, не связанные ссылками с сайтом, разобрались. Приступим к остальным страницам, о которых знает Google, — будем анализировать данные Google Search Console.

Для начала откройте свой аккаунт и зайдите в раздел Покрытие. Убедитесь, что выбран режим отображения данных «Все обработанные страницы» и откройте вкладку «Страницы без ошибок».

Вкладка "Без ошибок" в Google Search Console

Таким образом в список попадут Проиндексированные страницы, которых нет в карте сайта, а также Отправленные и проиндексированные страницы.

Сведения Google Search Console

Кликните на список, чтобы развернуть его. Внимательно изучите данные: возможно в списке есть страницы, которые вы не видели в выгрузках из SE Ranking и GA. В таком случае убедитесь, что они должным образом выполняют свою роль в рамках вашего сайта.

Теперь перейдем во вкладку Исключено, чтобы отобразились только непроиндексированные страницы.

Вкладка "Исключено" в Google Search Console Чаще всего страницы из этой вкладки были намеренно заблокированы владельцами сайта — это страницы с переадресациями, закрытые тегом «noindex», заблокированные в файле robots.txt, и так далее. Также в этой вкладке можно выявить технические ошибки, которые нужно исправить.

Ошибки в Google Search Console Если обнаружите страницы, которые вам не встречались на предыдущих этапах, добавьте их в общий список. Таким образом, вы наконец получите список всех без исключения страниц вашего сайта.

В заключение

Если у вас есть доступ к необходимым инструментам, собрать все страницы сайта не сложно. Да, сделать все в два клика не получится, но в процессе сбора данных вы найдете страницы, о существовании которых могли и не догадываться.

Страницы, которые не видят ни поисковые роботы, ни пользователи, не приносят сайту никакой пользы. Так же как и страницы, которые не индексируются из-за технических ошибок. Если таких страниц на сайте много, это может негативно сказаться на результатах SEO.

Хотя бы один раз собрать все страницы сайта нужно обязательно, чтобы адекватно его оценивать и знать, откуда ждать проблем 🙂

14 комментариев
  1. Спасибо за такую подробную инструкцию. Давно хотел поменять архитектуру сайта, но все руки не доходили. Так что беру ваш гайд на вооружение, нахожу все страницы и полный вперед)

    1. Рада, что статья оказалась вам полезной) Удачи вам в разработке новой структуры сайта!

  2. я была уверена, что у меня на сайте с перелинковкой все ок, но потеряшки таки нашлись. Растолкала их по местам – теперь буду ждать роста позиций:)

    1. Спасибо, что поделились) Рада, что у вас все получилось – теперь вы точно на шаг ближе к желаемым позициям.

    1. Спасибо, Дмитрий! Мы стараемся помогать нашим пользователям решать самые разные SEO задачи.

    1. Антон, спасибо за фидбэк) Screaming Frog – отличный тул, но и денег стоит не малых. Есть, конечно, и бесплатная версия, но ее возможности ограничены, плюс не все впишутся в лимит в 500 URL-ов. Так что, если Вы уже пользуетесь SE Ranking – можете получить тот же результат, но бесплатно 🙂

  3. Здравствуйте, Светлана!
    У меня один вопрос, на который нигде не могу найти ответ. А вопрос такой.
    Есть сайт, а на нём есть несколько десятков страниц, которые сканер должен последовательно просканировать от 1-ой страницы до последней. Можно конечно написать ссылку URL для каждой страницы отдельно. Например так:
    http://www.proxylists.net/us_0_ext.html
    http://www.proxylists.net/us_1_ext.html
    http://www.proxylists.net/us_2_ext.html
    http://www.proxylists.net/us_3_ext.html
    http://www.proxylists.net/us_4_ext.html
    http://www.proxylists.net/us_5_ext.html
    http://www.proxylists.net/us_6_ext.html
    http://www.proxylists.net/us_7_ext.html
    http://www.proxylists.net/us_8_ext.html
    http://www.proxylists.net/us_9_ext.html
    http://www.proxylists.net/us_10_ext.html
    Но это получается очень нерационально.
    Здесь цифры от 0 до 10, это номера страниц.
    А как можно написать только одну ссылку, но чтобы сканер понял, что ему нужно последовательно просканировать
    все страницы от 0 до 10 ?
    С нетерпением буду ждать Ваш ответ.

    С уважением, Олег

    1. Здравствуйте, Олег!

      Если речь идет о сканере модуля «Анализ сайта» SE Ranking, то нужно будет добавить адреса всех страниц в файл и загрузить его в разделе «Источник страниц для анализа» в настройках аудита.
      Если страницы перелинкованы между собой, то достаточно будет добавить один адрес, остальные бот найдет по ссылкам.

      1. Здравствуйте, Светлана !

        Спасибо, что ответили.
        Здесь речь идёт не о тех программах, которые Вы написали. Речь идёт о , так называемых , Грабберах Прокси. Это программы, которые скачивают (грабят) Прокси адреса с сайтов, на которых эти адреса есть.
        Если взять такой Граббер несколько летней давности, то достаточно было бы написать одну строчку, например, так:
        http://www.proxylists.net/us/{0-10}.html
        и Граббер сразу понял бы, что от него требуется. Но современные Грабберы на такую запись почему-то не реагируют. Им нужно написать как-то по другому. А как написать я не знаю.
        Только Вы не подумайте, что эти Грабберы действительно кого-то грабят. Это просто дебильный интернетовский сленг и не более того.

        С уважением, Олег

        1. С грабберами мы не работали, поэтому не знаю, как лучше задать запрос в вашем случае. Тем не менее, спасибо, что уточнили – получилось интересное дополнение!

  4. Интересная статья, спасибо. Хотел бы уточнить по поводу получения полного списка страниц. Парсер как и поисковик переходит по ссылкам, и как вы отметили в статье, они не смогут обнаружить страницы, на которые не ведет ни одна ссылка. Подключение Google Аналитики — хорошая идея, поскольку как правило код установлен на всех страницах сайта по умолчанию, а значит и статистика будет собираться со всех страниц. Но что если на страницу никто не заходит, хотя бы потому что ее нет в поиске, нет в sitemap, она ни с чем не связана. Тогда получается такая страница не попадает в список. Отсюда возникает вопрос, есть ли другой способ получить список всех страниц, например непосредственно из CMS или как-то еще?

    1. Виталий, спасибо за ваш вопрос. После поиска не связанных с сайтом страниц через Google Аналитику, в статье мы также рекомендуем выгрузить данные из Google Search Console, чтобы собрать страницы, о которых знает Google. Ваш вариант с выгрузкой списка страниц из CMS тоже возможен, но здесь все будет зависеть от особенностей устройства вашей CMS — о возможных вариантах вам лучше всех сможет рассказать ваш разработчик. Дополнительно можно проверить логи сервера и сравнить ваш список страниц сайта со списком страниц, на которые стоят внешние ссылки. Большинство страниц, которых в вашем списке нет, но на которые ведут внешние ссылки, вероятно окажутся 404, но могут обнаружиться и страницы с 200 кодом ответа.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

БОЛЬШЕ ИНТЕРЕСНЫХ СТАТЕЙ
Экспертиза
Полное руководство по редиректам: зачем они нужны и как их правильно настроить
Фев 26, 2021 Время чтения: 14 мин

Редиректы — это базовая механика, которую должен понимать каждый SEO-специалист. Они имеют колоссальное влияние на оптимизацию сайта, поэтому очень важно использовать их правильно. Разбираемся, какие бывают перенаправления, какие проблемы они помогают решить и о каких нюансах нужно помнить, настраивая редиректы.

Александр Лушин
Экспертиза
Как подготовить детальный SEO-отчет и не потратить на это вечность
Фев 23, 2021 Время чтения: 15 мин

Порой трудно решить, какую информацию включить в SEO-отчет, чтобы он был удобным и информативным. Однозначно можно утверждать только одно: вам важно знать, как именно повысить эффективность бизнеса. И сегодня вы узнаете, как подготовить идеальный SEO-отчет.

Мария Ефименко
Экспертиза
Кластеризация ключевых слов: основные принципы, подходы и роль в SEO-стратегии
Фев 16, 2021 Время чтения: 11 мин

Кластеризация поисковых запросов даст вам представление о том, каким контентом нужно наполнять веб-страницы, на какие фразы делать упор в продвижении и как оптимизировать разные сегменты сайта. С помощью SE Ranking можно группировать ключевые слова автоматически, быстро и эффективно анализируя семантику своего сайта.

Анастасия Осипенко