Robots.txt для сомневающихся:подробная инструкция по синтаксису

Robots.txt является инструкцией, созданной веб-мастером, которая указывает поисковикам какие страницы и файлы сайта стоит сканировать, а какие нет.

Если правильно его составить, он может стать полезным инструментом для сеошника.

О том, как правильно это сделать читайте в нашей статье.

Robots.txt для сомневающихся: подробная инструкция по синтаксису
Тарас Бойчук 12.05.2018 397 просмотров 0 комментариев

Файл robot.txt – необходим для большинства сайтов.

Каждый SEO-оптимизатор должен понимать смысл этого файла, а также уметь прописывать самые востребованные директивы.

Правильно составленный robots улучшает положение сайта в поисковой выдаче и, среди прочих методов продвижения, является эффективным инструментом SEO.

Чтобы разобраться в том, что такое robot.txt и как он действует, вспомним, как работают поисковики.

Алгоритмы Google Яндекса и других систем выполняют два основных задания:

  1. обход интернета для поиска новой информации;
  2. индексирование контента, чтобы его могли находить пользователи.

Чтобы посетить все сайты, поисковые системы используют доменные имена, переходят с одного ресурса на другой, изучают миллиарды ссылок.

Такое поведение напоминает паука в паутине: он обходит территорию и смотрит, что нового попало в сеть.

После прибытия на веб-сайт, но перед его индексацией, алгоритм поисковика (робот, бот, сканнер) смотрит файл robots.txt.

Если он существует, бот сначала читает его, а потом, в соответствии с инструкциями, продолжает исследовать сайт.

Robots.txt содержит информацию о том, как поисковая система должна сканировать найденные страницы и что с ними делать.

Если файл не содержит директив, запрещающих действие агента (или его нет совсем), бот продолжит индексировать все данные на сайте.

СОДЕРЖАНИЕ

ГЛАВА 1:

ПЕРВОЕ ЗНАКОМСТВО С ROBOTS.TXT

ГЛАВА 1: ПЕРВОЕ ЗНАКОМСТВО С ROBOTS.TXT
Что такое Robots.txt и с чем его едят?

Некоторые пользовательские агенты могут игнорировать robots.txt.

В какой кодировке создают Robots.txt?

Robots.txt – это текстовый файл, созданный веб-мастером для инструктирования поисковых роботов.

В нем прописаны рекомендации касательно того, как сканировать страницы на данном сайте.

Говоря простым языком – в этом файле указано, куда не надо заходить поисковому роботу, что индексировать для поиска, а что нет.

По сути, это простой текстовый файл, который создают в корневом каталоге сайта.

Всякий раз, когда поисковые агенты приходят на сайт, они ищут робота в одном конкретном месте: основной каталог (обычно корневой домен).

Если пользовательский агент посещает www.nashsite.com/robots.txt и не находит там его, он предполагает, что на сайте этого файла нет вообще и продолжает сканирование всего, что там расположено.

Файл чувствителен к регистру, он должен иметь название «robots.txt» (а не Robots.txt, robots.TXT или иначе).

Некоторые пользовательские агенты могут игнорировать robots.txt.

Это особенно характерно для пиратских сканеров или парсеров адресов электронной почты.

Это общедоступный файл, его может увидеть любой пользователь, поэтому не используйте его, чтобы скрыть особо важную информацию.

В нижней части файла чаще всего указывают, где лежит карта сайта.

Если у Вас сайт (домен) с поддоменами, то в каждом из них в корне должны быть отдельные robots.txt.

Это означает, что и blog.nashsite.com, и nashsite.com должны иметь свои файлы: blog. nashsite.com/robots.txt и nashsite.com/robots.txt.

Памятка: если robots.txt был создан и существует по адресу: nashsite.com/index/robots.txt, www.nashsite.com/homepage/robots.txt, или в иных, не корневых папках, он не будет принят во внимание.

Robots.txt создают в стандартной кодировке UTF-8.

Это важно, потому что другие кодировки поисковые системы могут воспринимать некорректно.

Все, что записано в нем, работает для интернет-протоколов FTP, HTTP и HTTPS.

А если вдаваться в технические подробности, файл robots.txt – это документ в форме Бекса-Наура, которая востребована в различных языках программирования для описания синтаксиса.

Памятка: размер файла Robots.txt для Google ограничен 500Kb

В файле robots есть инструкции как поисковые системы должны обращаться со страницами сайта.

Зачем это нужно?

Для SEO, если на страницах есть ссылки на сторонние ресурсы, не уникальный контент или информация, которую не нужно индексировать.

Ответы на частые вопросы по ссылкам можно получить из нашего видео:

Также в robots.txt можно прописать отдельные правила для различных поисковиков, далее мы подробно рассмотрим, как это делается.

ГЛАВА 2:

ПОДРОБНЕЕ О ROBOTS.TXT

ГЛАВА 2: ПОДРОБНЕЕ О ROBOTS.TXT
Распространенные случаи, когда используют robots.

Как проверить наличие файла robots.txt?

Файлы robots.txt контролируют доступ поисковых систем к определенным областям сайта.

Это полезно для оптимизации работы веб-ресурса, но может быть опасно, если Вы случайно запретили Googlebot (поисковику гугл) обходить весь сайт.

Вот распространенные случаи, когда используют robots.

  • Чтобы в результатах выдачи не появлялось повторяющиеся или не уникальные тексты. Вообще, рекомендую использовать на сайтах только качественный контент, и ни в коем случае не копировать тексты с других сайтов, но иногда выкладывают инструкции, нормативные акты и другой материал, который нельзя уникализировать. Если система будет их индексировать, рейтинг сайта понизится. Имеет смысл закрывать такие страницы.
  • При создании зеркальных сайтов необходимо сделать так, чтобы в ранжировании участвовал только один. В противном случае поисковик не будет понижать рейтинг (пессимизировать) дублированный контент.
  • При закрытии сохраненных внутренних страниц сайта, результатов поисковой выдачи или иных материалов, используемых в процессе работы. Например, на сайте есть страничка или блок информации для сотрудников компании, совершенно не обязательно открывать ее поисковику.
  • Чтобы скрыть от индексирования карты и географические данные.
  • Изображения, файлы ПДФ и подобный графический контент.
  • Для указания задержки при обходе – чтобы предотвратить перегрузку серверов, когда сканеры читают и индексируют сразу несколько частей сайта.

Если на сайте нет областей, где Вы хотите управлять доступом, файл robots.txt может и не понадобится, но это редкий случай.

Чаще всего он необходим хотя бы для того, чтобы закрыть админку.

Вообще, robots давно стал «must have» среди прочих приемов и инструментов оптимизации сайтов.

Чтобы проверить его наличие, введите в адресную строку корневой домен, затем добавьте /robots.txt в конец URL-адреса.

Например, файл робот Moz находится по адресу: moz.com/robots.txt. Вводим, и получаем страницу:

ГЛАВА 3:

ИНСТРУКЦИИ ДЛЯ «РОБОТА»

ГЛАВА 3: ИНСТРУКЦИИ ДЛЯ «РОБОТА»
Как создать файл robots.txt?

3 типа инструкций для robots.txt.

Если обнаружили, что файл robots.txt отсутствует, создать его несложно.

Как уже было сказано в начале статьи – это обычный текстовый файл в корневом каталоге сайта.

Его можно сделать через админ-панель или файл-менеджер, с помощью которого программист работает с файлами на сайте.

В том, как и что там прописывать, мы разберемся по ходу статьи.

Поисковые системы получают из этого файла инструкции трех типов:

  • сканировать все, то есть полный доступ (Allow);
  • сканировать нельзя ничего – полный запрет (Disallow);
  • сканировать отдельные элементы нельзя (указано какие) – частичный доступ.

На практике это имеет вот такой вид:

Обратите внимание, страница все равно может попасть в выдачу, если на нее установили ссылку на этом сайте или вне его.

Чтобы лучше в этом разобраться, давайте изучим синтаксис этого файла.

ГЛАВА 4:

СИНТАКСИС ROBOTS.TXT

ГЛАВА 4: СИНТАКСИС ROBOTS.TXT
Robots.txt: как он выглядит?

Важные моменты: что нужно всегда помнить о robots.

Семь общих терминов, которые часто встречаются на сайтах.

В самой простой форме робот имеет такой вид:

User agent: [имя системы, для которой мы пишем директивы]

Disallow: [URL- который не нужно сканировать]

Sitemap: [указываем, где у нас лежит карта сайта]

# Правило 1

User agent: Googlebot

Disallow: /prim1/

Sitemap: http://www.nashsite.com/sitemap.xml

Вместе эти три строки считаются самым простым robots.txt.

Здесь мы запретили боту индексировать URL: http://www.nashsite.com/prim1/ и указали где находится карта сайта.

Обратите внимание: в файле robots набор директив для одного пользовательского агента (поисковика) отделен от набора директив для другого разрывом строки.

В файле с несколькими директивами для поисковых систем каждый запрет или разрешение применяется только к поисковику, указанному в этом конкретном блоке строк.

Это важный момент и о нем нельзя забывать.

Если файл содержит правила, применимые к нескольким пользовательским агентам, система будет отдавать приоритет директивам, которые прописаны конкретно для указанного поисковика.

Вот пример:

На иллюстрации выше – для MSNbot, discobot и Slurp прописаны индивидуальные правила, которые будут работать только для этих поисковиков.

Все остальные пользовательские агенты следуют общим директивам в группе user-agent: *.

Синтаксис robots.txt абсолютно не сложен.

Существуют семь общих терминов, которые часто встречаются на сайтах.

  • User-agent: специфический веб-поисковик (бот поисковой системы), которому Вы даете инструкции обхода. Список большинства пользовательских агентов можно найти здесь. Всего в нем 302 системы, из которых наиболее актуальны две – Гугл и Яндекс.
  • Disallow: команда запрета, указывающая агенту, что не нужно заходить на URL. Для каждого URL разрешена только одна строка «disallow».
  • Allow (применимо только для Googlebot): команда сообщает боту, что он может получить доступ к странице или подпапке, даже если ее родительская страница или подпапка были закрыты.
  • Crawl-delay (задержка сканирования): сколько миллисекунд поисковик должен ждать перед загрузкой и обходом содержимого страницы.

Обратите внимание – Googlebot не поддерживает эту команду, но скорость сканирования может быть вручную установлена ​​в Google Search Console.

  • Sitemap: Используется для вызова местоположения любых XML-карт, связанных с этим URL-адресом. Эта команда поддерживается только Google, Ask, Bing и Yahoo.
  • Host: эта директива указывает на основное зеркало сайта, которое стоит учитывать при индексации. Его можно прописать только один раз.
  • Clean-param: это команда используется для борьбы с дублированием контента при динамической адресации.
ГЛАВА 5:

РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ

ГЛАВА 5: РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ
Регулярные выражения: как они выглядят и что обозначают.

Как разрешать и запрещать сканировать в robots.txt.

На практике файлы robots.txt могут разрастаться и становиться довольно сложными и громоздкими.

Система дает возможность использовать регулярные выражения, чтобы обеспечить требуемый функционал файла, то есть гибко работать со страницами и подпапками.

  • * является подстановочным символом, обозначает что директива работает для всех поисковых ботов;
  • $ соответствует концу URL-адреса или строки;
  • # применяется для комментариев разработчиков и оптимизаторов.

Вот несколько примеров robots.txt для http://www.nashsite.com

URL-адрес файла robots.txt: www.nashsite.com /robots.txt

User-agent: * (то есть для всех поисковых систем)

Disallow: / (слеш обозначает корневой каталог сайта)

Мы только что запретили всем поисковикам сканировать и индексировать сайт целиком.

Как часто требуется такое действие?

Нечасто, но бывают случаи, когда нужно чтобы ресурс не участвовал в поисковой выдаче, а заходы производились по специальным ссылкам или через корпоративную авторизацию.

Так работают внутренние сайты некоторых фирм.

Кроме того, такая директива прописывается, если сайт находится на стадии разработки или модернизации.

Если нужно разрешить поисковику сканировать вообще все, что есть на сайте, тогда нужно написать в robots.txt такие команды:

User-agent: *

Disallow:

В запрете (disallow) нет ничего, а значит можно все.

Использование этого синтаксиса в файле robots.txt предоставляет возможность сканерам обходить все страницы на http://www.nashsite.com, включая домашнюю страницу, админку и контакты.

ГЛАВА 6:

БЛОКИРОВКА ОПРЕДЕЛЕННЫХ ПОИСКОВЫХ БОТОВ И ОТДЕЛЬНЫХ ПАПОК

ГЛАВА 6: БЛОКИРОВКА ОПРЕДЕЛЕННЫХ ПОИСКОВЫХ БОТОВ И ОТДЕЛЬНЫХ ПАПОК
Синтаксис для поисковика Google (Googlebot).

Синтаксис для остальных поисковых агентов.

User-agent: Googlebot

Disallow: / example-subfolder /

Этот синтаксис указывает только поисковику Google (Googlebot), что не нужно сканировать адрес: www.nashsite.com/example-subfolder/.

Блокировка отдельных страниц для указанных ботов:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Этот синтаксис говорит, что только Bingbot-у (имя поискового агента Bing), не следует заходить на страницу по адресу: www.nashsite.com /example-subfolder/blocked-page.

По сути это все.

Если освоите эти семь команд и три символа и разберетесь в логике применения, сможете написать правильный robots.txt.

ГЛАВА 7:

ПОЧЕМУ НЕ РАБОТАЕТ И ЧТО ДЕЛАТЬ

ГЛАВА 7: ПОЧЕМУ НЕ РАБОТАЕТ И ЧТО ДЕЛАТЬ
Алгоритм основного действия.

Другие методы.

Неправильно работающий robots.txt – это проблемы.

Ведь на то, чтобы выявить ошибку, а потом разобраться в ней, потребуется время.

Перечитайте файл, убедитесь, что Вы не заблокировали что-то лишнее.

Если через время окажется, что страница все равно висит в выдаче, посмотрите в Google Webmaster, переиндексировал ли сайт поисковик, ну и проверьте, нет ли внешних ссылок на закрытую страницу.

Потому что, если они есть – то скрыть ее из выдачи будет сложнее, потребуются другие методы.

Ну и перед использованием, проверьте этот файл бесплатным тестером от Google.

Своевременный анализ помогает избежать неприятностей и экономит время.

Пожалуйста, оцените нашу статью: 
     Ваш ответ сохраняется...
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
(8 оценок, среднее: 4,25 из 5)
Тарас Бойчук
Автор: Тарас Бойчук

наверх

256