В новом аудиоподкасте №352 Николай Шмичков рассказал про дублирование страниц (Яндекс и Google).
Текстовая версия выступления:
“Всем привет!
Вы на канале SEOquick.
И сегодня в нашем словаре SEO-шника мы поговорим про тему дублирования страниц.
Мы про Canonical уже говорили, но я хочу затронуть непосредственно тему самого дублирования страниц.
Как к дублированию относятся Google и Яндекс.
По поводу дублирования в Google нет какой-то конкретной информации.
Я нашёл только новости и какую-то более внятно конкретику я расписанную не нашёл.
Самое интересное – как Google определяет дубли и выбирает канонические страницы.
С недавних пор тег Canonical стал всего лишь бы рекомендательным, а раньше он был директивой.
То есть поисковик его воспринимал как команду.
Сейчас тег Canonical фактически стал рекомендацией.
И как Google определяет дубли и выбирает канонические страницы – в новом подкасте для вебмастеров Google они рассказали, как это делают.
Поиск дублей и каноникализация – это разные вещи.
В первую очередь необходимо найти дубли, сгруппировать их, а затем выявить лидера в этой группе.
Это и будет каноникализация.
Вот, собственно, для выявления дублей Google создает контрольную сумму для каждой страницы.
Это похоже на уникальный отпечаток документа на основе слов на каждой странице.
Таким образом, если есть две страницы с одинаковой контрольной суммы – Google расценивает их как дубль.
С помощью этого подхода Google определяет не только полные дубликаты, но и частичные.
Контрольная сумма – это значения, полученные с блока цифровых данных с целью обнаружения ошибок, которые могут быть внесены во время их передачи или хранения.
Сами по себе контрольные суммы часто используются программистами для проверки целостности данных.
Новость эту я нашел на сайте SEOnews, перевели они из источника Гарри Илша.
И для выбора канонической страницы Google учитывает около 20 сигналов.
Тот же контент, внутренний вес страницы, https-протокол, переадресация.
Всё-таки проставленный тег Rel Canonical и тому подобное.
Конечно же, Google использует машинное обучение для того, чтобы присвоить вес этим сигналам.
Ну и каноникализация не имеет никакого отношения к ранжированию.
Выбранная страница будет ранжироваться, но на основании других сигналов, а не тех, что учитывались при каноникализации.
То есть если копать глубже – то получается, что Google проводит поиск дублей и выбора оптимальной каноничной страницы машинным способом.
Но иногда бывают такие ситуации, что ваши страницы, которые вы создаете, то есть внутренние страницы, могут проигрывать почему-то главной по ключевым запросам.
Об этом спросили Джона Мюллера, почему так происходит.
И на самом деле он сказал, что это признак того, что главная страница значительно сильнее других страниц на сайте.
Это значит, что, возможно, оптимизированной странице просто не хватает каких-либо сигналов, то есть внутренней перелинковки либо внешних ссылок.
На это тоже нужно обращать внимание.
С Яндексом все попроще.
Здесь всё более конкретно.
Страницы считаются дублями, если не доступны по разным адресам, но имеют одинаковое содержимое.
Здесь четко идет акцент на содержимое контента.
В этом случае индексирующий робот объединяет их в группу дублей.
В поисковую выдачу войдёт только одна из этих страниц, которую выберет робот.
И очень важное замечание: дублями признаются страницы в рамках одного сайта.
Например, страницы на региональных поддоменах с одинаковым содержимым дублями не считаются.
Поэтому если Вы создаете страницы, заточенные под конкретный город за счёт поддоменов, Яндекс это дружелюбно воспримет не как дубли.
Но требуется уделить внимание небольшой уникализации контента.
Не говорю про полное переписывание, но небольшая уникализация контента нужна.
Страницы-дубли появляются по разным причинам.
Например, естественная причина: если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта.
Ну и также могут быть дубли, связанные с особенностями работы сайта и его CMS.
Чтобы узнать, есть ли на вашем сайте дубли – перейдите в раздел вебмастер на странице в поиске, выберите там все страницы и выгрузите архив.
И в файле дублирующая страница будет иметь статус «duplicate».
И вот с этой страничкой с «duplicate» можно спокойно поработать, то есть решить, является она дублем или нет.
Страницей-дублем может быть как обычная страница, так и ее быстрая версия.
Чтобы оставить страницу в поисковой выдаче нужной, укажите роботу Яндекса на неё.
Это можно сделать несколькими способами.
Например, установите redirect с кодом http 301 с одной дублирующей страницы на другую.
В этом случае в поиске будет участвовать цель установленного редиректа.
И второй момент: укажите предпочитаемый канонический адрес страницы, которая будет участвовать в поиске.
В этом случае добавьте в робот также дерективу disalow для того чтобы закрыть дубли.
И соответственно если допустим у вас ситуация там есть и отсутствует url установите редирект с одной дублирующей страницы на другую.
В этом случае в поиске будет участвовать в цель установленного редиректа.
На самом деле детально как настраивать редиректы это тема ни одного вебинара возможно вам рекомендуется обсудить как убирать дубли с нами на очередном вебинаре мы будем проводить такого рода технический вебинар.
Так что не забывайте подписываться на нас.
Робот узнает об изменениях когда поситит ваш сайт.
После посещения страница которая не должна участвовать в поиске будет исключена из него в течение 3 недель.
Если на сайте много страниц, этот процесс может занять много времени.
Т.е. если вы внесли такие изменения, ждать результата исключения из индекса нужно сначала дождаться чтобы робот просканировал вас повторно, а затем только ждать 3 недели, чтобы они были исключены из индекса.
Для огромных сайтов в частности эта проблема больше касается интернет-магазинов это может занять несколько месяцев.
Поэтому с дублями контента однозначно нужно разбираться на старте, пока вот только дорабатываете свою ЦМС-ку.
Поэтому пока у вас молоденький сайт, чтобы не скинуть в Яндекс кучу дублей, которая замедлит индексирование вашего сайта.
А чем больше вы скормите дублей лишних, тем медленнее будет проходить сканирование всего сайта в целом.
Поэтому лучше сделать технический до того как вы будите его выгружать.
Надеюсь по дублям контента всё.
Если остались какие-то интересные вопросы задавайте его нам.
Я с удовольствием готов буду обсудить их и на вебинарах, и также в нашей Телеграм группе.
Так же давайте раскрутим вместе все дружно наш Инстаграм аккаунт.
Как только там наберётся 1.000 подписчиков я буду проводить прямые эфиры с случайно выбранными владельцами сайтов и анализировать их сайты в прямом эфире, прямо в Instagram.
Если вас это интересует, я бы хотел это обсудить.
Поэтому с удовольствием давайте разбирать это вместе, обсуждать общие темы вместе.
И всем спасибо и до новых встреч.”