В новом аудиоподкасте №375 Николай Шмичков рассказал про то что такое краулинговый бюджет Google и как его увеличить.
Текстовая версия выступления:
“Всем привет!
Вы на канале SEOquick.
Меня зовут Николай Шмичков.
И сегодня я хочу в нашем подкасте рассказать, что такое краулинговый бюджет.
Краулинговый бюджет, или бюджет сканирования – это количество страниц, которое робот googlebot сканирует и индексирует на web-сайте, в течение определенного периода времени.
Почему он так важен для СЕО?
Давайте коротко.
Если Google не проиндексирует страницу, то она не получает ранжирование, что логичного.
У меня есть клиент, который занимается сайтами поиска работы и у него серьезная проблема с тем, что его сайт не сканируется должным образом.
Или сканируется не так, как хочется, и сканируется с ошибками.
Поэтому, если количество ваших страниц превышает бюджет сканирования вашего сайта – на вашем сайте будут не проиндексированные страницы.
Тем не менее, подавляющему большинству сайтов не нужно беспокоиться об этом сканировании.
Google действительно хорош в поиске и индексировании страниц.
При этом, есть несколько случаев, когда вы действительно захотите обратить внимание на этот показатель.
Случай №1.
У вас огромный сайт.
Например, сайт по электронным продажам, или тому же поиску работы.
В нем больше 10000 страниц.
И у Google будут проблемы с поиском этих страниц.
Случай №2.
Вы только что добавили несколько страниц.
На свой сайт добавили новый раздел, а в нем сотни страниц.
Вы должны убедиться, что он будет быстро проиндексирован.
Случай №3.
У вас на сайте множество редиректов.
Большое количество редиректов и цепочек редиректов, съедает ваш краулинговый бюджет.
Следует помнить, что это тоже важно.
Какие существуют способы для того, чтобы улучшить свои показатели по краулинговому бюджету?
Первый вариант – это повышение скорости загрузки страниц вашего сайта.
Приведет к тому, что googlebot будет сканировать больше ссылок вашего сайта в течении времени.
Google говорит прямым текстом: “Ускорение сайта улучшает впечатление пользователя, также увеличивает скорость сканирования”.
Другими словами – медленная загрузка страниц отнимает то самое драгоценное время googlebotа.
Медленно сканируется, значит меньше страниц будет съедено.
Но если ваша страница загружается быстро, то у робота есть время посетить и проиндексировать большее количество ваших страниц.
Второй момент – это использование внутренних ссылок.
И это тоже проблема, которая есть у моего клиента.
Робот googlebot дает приоритет страницам, на которые указывает множество внешних и внутренних ссылок.
Т.е. если страница есть только в карте сайта, но на неё нельзя физическим способом попасть ни с внешних ссылок, которые находятся уже в индексе, ни с внутренних ссылок вашего сайта – эта страница проиндексирована не будет.
Да, в идеале вы должны получать бэклинки, которые указывают на каждую страницу вашего сайта.
Но это же нереально…
Поэтому внутренние ссылки колоссально важны.
Если на вашем сайте, в котором сотни тысяч страниц, не существует способа при помощи клика по существующим страницам, которые уже проиндексированы, попасть на другие страницы (т.н. Orphan pages).
То Google не может попасть на эти страницы и не проиндексируют их.
Внутренние ссылки говорят googlebotу какие страницы нужно индексировать.
Без внутренних ссылок вам ничего не сделать.
Конечно же ссылки, которые популярны в интернете, как правило, сканируется чаще, чтобы поддерживать их актуальность в нашем индексе.
А в мире Google популярность равняется авторитету ссылки.
Поэтому все используют плоскую архитектуру, которая позволяет авторитету перетекать из одной ссылки на все остальные.
Конечно же, нужно избегать orphan pages или “сиротских страниц”.
Сиротская страница – такая страница, на которую нет внутренней или внешней ссылки, но она открыта для индексации.
Помните, что Google действительно может найти эти бесхозные страницы.
Например, из вашей карты сайта.
Но, если вы хотите получить максимальную отдачу от бюджета сканирование – убедитесь, чтобы хотя бы одна внутренняя ссылка вела на эту orphan pages, которую нужно проиндексировать.
У нас есть несколько страниц, которые являются такими классическими orphan pages.
Мы их создали специально.
Они не индексируются.
Они рассылаются только по e-mail: найти их в поиске невозможно.
Именно эти ссылки сделаны у нас в формате orphan pages и специально закрыты от индексации, именно таким образом.
Там база минус слов, минус-площадок и тому подобные.
Эти ссылочки можно получить только, если вы отправите соответствующую заявку на сайте и получите ссылочку на e-mail.
Следующий трюк, который позволяет увеличить краулинговый бюджет – ограничить дублирующийся контент.
Если у вас сайт на 100000 страниц и контент на этих страницах практически похож, на 80-90% похож, то Google эти страницы будут индексировать гораздо хуже и гораздо реже, даже если на них контент будет меняться.
Объясню почему.
Как выявить такие страницы?
Конечно же нужно сделать технический аудит и проверить уникальность контента страниц.
Есть такой функционал, называется near duplicate analysis.
Мы его проводим и суть заключается в том, что мы вылавливаем страницы, у которых есть подозрение, что они будут плохо индексироваться.
Если вы запускаете молодой сайт – вам это точно нужно заказывать, для того чтобы выловить страницы, с которыми у вас будут потенциальные проблемы.
Дублированный контент реально вредит вашему краулинговому бюджету.
Это потому, что Google не хочет тратить ресурсы на индексирование нескольких страниц с одинаковым содержанием.
Поэтому убедитесь, что 100% страниц вашего сайта в индексе состоит из уникального контента.
Это непросто для сайта с десятью тысячами страниц.
Но это обязательно если хотите действительно улучшить краулинговый бюджет своего сайта.
Уточняю: краулинговый бюджет определяется на сайт.
Если у сайта проблемы с этими показателями – он уменьшается и его индексирование замедляется.
Следует помнить, что количество сайтов практически приближается к 2 млрд, которые находятся в индексе.
И Google становиться из сканировать все тяжелее и тяжелее.
Я порекомендовал бы в первую очередь обратить внимание на увеличение краулингового бюджета для своего сайта и провести этот чек-лист по исправлению потенциальных багов.
Конечно же, оптимизируйте сканирование и индексирование.
Эту информацию можно найти в Гугле, почитать как это сделать.
Также почитать полное руководство по оптимизации краулингового бюджета.
Также следует всегда изучать в Веб Мастере отчет о статистике сканирования вашего веб-сайта в Search Console.
Это первое, на что вам нужно будет обратить внимание.
На самом деле Google опубликовала реальное руководство по управлению краулинговых бюджетов.
В справке Google если расширенное руководство по управлению лимитом на сканирование для владельцев крупных сайтов.
Оно предназначено для владельцев очень больших сайтов: более 1 000 000 уникальных страниц с достаточно часто меняющимся контентом.
Также средних и больших сайтов, более 10000 уникальных страниц с очень часто меняющимся контентом.
Лимит на сканирование по их требованию, говорит о двух основных факторах: скорости сканирования и потребности сканирования.
Увеличить лимит на сканирование говорится можно только двумя способами.
Выделив дополнительные ресурсы сервера для сканирования или повысив ценность контента, размещенного на сайте для пользователей Google поиска.
Краткий чек-лист, который сам Google вывалил.
Закрывайте от сканирования дублирующиеся url, чтобы Google не тратил на них время.
Удаляйте страницы с идентичным контентом.
Да, не жалейте их, удаляйте смело – они не нужны.
Заблокируйте сканирование страниц которые не нужно индексировать с помощью файла robots.txt или инструмента “Параметр URL”.
Да, есть такой параметр.
Не используйте тэг noindex.
Не используйте файл robots.txt чтобы временно увеличить лимит на сканирование других страниц.
Лимит сканирования не будет перераспределен в пользу других страниц, пока он не будет исчерпан.
Возвращайте код ошибки 404 и 410 для окончательно удаленных страниц – это очень важно.
Исправьте ложную ошибку 404.
По этому поводу у нас есть большое видео.
Вовремя обновляете файл sitemap.
По этому поводу мы тоже сняли большое видео и его можно найти на нашем канале.
Избегайте длинных цепочек редиректов: они реально создают проблемы при сканировании.
Оптимизируйте страницы для ускорения их загрузки.
Как я и говорил, что скорость загрузки является важным фактором.
Ну и не забывайте проверять как сканируется ваш сайт.
Владельцам миллионных сайтов рекомендуется заказывать большие технические аудиты.
Они действительно большие, потому что иногда размеры проекта в том же Screaming Frog могут весить несколько десятков гигабайт.
Да, такие вещи действительно нужно проводить и делать такие сканирования ежемесячно, а то и может быть даже чаще.
Технические Аудиты такого уровня у меня заказывают…
Да, действительно, компьютеры пыхтят, пытаются это всё просканировать.
Но в итоге получаем большие табличные данные, с которыми нужно работать.
Руководство, как говорится, очень полезное для всех…
Но в первую очередь вы должны обратить внимание на то, чтобы вовремя обновлять карту сайта и проверять свой отчет об индексировании: смотреть в его внимательно.
Владельцам больших сайтов этот отчет нужно проверять постоянно, вылавливать ошибки и вовремя реагировать на них.
Если на сайте есть контент, который не проиндексирован в течение продолжительного времени – нужно пользоваться инструментом проверки URL.
И вручную тыкать ссылки, типа отправлять запросы на индексацию, уже нельзя.
Этот инструмент заблокирован навсегда и когда он вернется – никто не знает.
Если вам понравился этот подкаст, то не забывайте задавать вопросы в комментариях.
Я всегда готов обсудить эти мелочи, так же узнать ваши ожидания.
Как изменится индексирование в будущем?
Какие трюки Google прикроет?
Какие есть обходные способы по увеличению индексации?
Хотелось бы услышать непосредственно от вас.
Как можно еще увеличить краулинговый бюджет?
Поэтому давайте делиться мнениями, задавайте вопросы мне в комментах.
Также можно обсудить наши телеграм группе.
Также приходите каждый четверг на наши вебинары.
Всех конечно же поздравляю с наступающими праздниками и до новых встреч!”