Блог / SEO / Robots.txt у 2026: синтаксис, AI-краулери та перевірка файлу | SEOquick

SEO · 18 років практики · оновлено червень 2026

Robots.txt у 2026: синтаксис, AI-краулери та перевірка файлу | SEOquick

Один файл robots.txt керує тим, як Google та AI-краулери обходять ваш сайт. Розбираємо синтаксис, типові помилки й нові правила 2026 року.

Автор

SEOquick Team

CEO · SEO Strategy · ~8 хв читання

Факт-чекінг

Анатолій Улітовський

Founder · AI & GEO · червень 2026

Robots.txt — це текстовий файл у корені сайту, який керує скануванням: він підказує пошуковим та AI-краулерам, які розділи обходити, а які пропускати. Але запам'ятайте головне правило 2026 року: robots.txt керує скануванням, а не індексацією. Щоб прибрати сторінку з видачі, потрібен noindex, а не Disallow.

Кожен, хто займається просуванням сайту, має розуміти сенс цього файлу й уміти прописувати найбільш потрібні директиви. Правильно складений robots.txt допомагає економити краулінговий бюджет і є базовим інструментом технічного SEO. А помилка в одному рядку здатна закрити від Google увесь сайт або зламати рендеринг сторінок.

Щоб розібратися, як працює robots.txt, згадаймо логіку пошукових систем. Краулери виконують два завдання: обхід інтернету в пошуку нової інформації та індексування контенту, щоб користувачі могли його знаходити. Переходячи мільярдами посилань, бот поводиться як павук у павутині — обходить територію й дивиться, що нового потрапило в мережу.

Прибувши на сайт, але перед скануванням, бот насамперед шукає файл robots.txt. Якщо файл є — читає інструкції й діє відповідно до них. Якщо файлу немає або в ньому немає заборон — бот продовжує обходити все підряд.

Що є у конкурента, а в тебе – ще немає? Правильно – трафік. SEOquick на допомогу!

Залучимо тобі на сайт масу трафіку через SEO.

Зробимо це виключно білими методами, без фільтрів і санкцій від Google.

Проведемо глибоку оптимізацію: посилимо контент, наростимо посилання й репутацію. І все вийде!

Заброньуй дзвінок

Перше знайомство з Robots.txt

Robots.txt — це звичайний текстовий файл, створений вебмайстром для інструктування краулерів. У ньому прописані рекомендації про те, як сканувати сторінки сайту. Простими словами: у файлі вказано, куди роботу заходити не треба, що обходити для пошуку, а що — ні.

Файл створюють у кореневому каталозі сайту. Щоразу, приходячи на ресурс, краулер шукає його в одному конкретному місці — головному каталозі домену. Якщо за адресою example.com/robots.txt файлу немає, бот вважає, що інструкцій немає взагалі, і сканує все.

Важливі технічні нюанси 2026 року:

Файл чутливий до регістру в назві: він має називатися саме «robots.txt» (не Robots.txt і не robots.TXT).
Це загальнодоступний файл — його бачить будь-який користувач за адресою /robots.txt. Тому ніколи не використовуйте його, щоб сховати конфіденційні дані.
На кожному піддомені має бути свій robots.txt: і blog.example.com, і example.com обходяться за окремими файлами.
Кодування — стандартне UTF-8, інакше краулери можуть прочитати вміст некоректно.
Ліміт розміру для Google — 500 КБ; усе, що більше, ігнорується.

Пам'ятка: якщо robots.txt лежить не в корені (наприклад, example.com/index/robots.txt), він не буде взятий до уваги.

Навіщо це все потрібно? Передусім для економії краулінгового бюджету й порядку в індексі: щоб краулер не витрачав час на службові розділи, фільтри й параметри, а зосередився на важливих сторінках. Грамотний robots.txt — обов'язкова частина технічного аудиту сайту.

Що можна й чого не можна робити через robots.txt

Robots.txt контролює доступ краулерів до певних областей сайту. Це корисно, але небезпечно: одним рядком можна випадково заборонити Googlebot обходити весь ресурс. Щоб не заплутатися, тримайте в голові чітку таблицю завдань.

Завдання	Підходить robots.txt?	Коментар
Зменшити crawl waste	так	фільтри, параметри, службові папки
Закрити CSS/JS	зазвичай ні	Google має розуміти сторінку
Видалити сторінку з індексу	ні	потрібен noindex або видалення URL
Вказати sitemap	так	корисно для пошукових систем
Сховати приватні дані	ні	використовуйте авторизацію, не robots

Де robots.txt доречний:

Економія краулінгового бюджету. Закрити від обходу фільтри, параметри сортування (?sort=, ?color=), результати внутрішнього пошуку, нескінченні комбінації URL.
Службові розділи. Адмінка, кошик, особистий кабінет, технічні папки.
Вказівка Sitemap. У файлі корисно прописати шлях до XML-карти сайту.
Зниження навантаження на сервер від надто частих звернень краулерів до важких розділів.

Де robots.txt марний або шкідливий:

Видалення сторінки з індексу. Disallow не видаляє URL з видачі — потрібен noindex або інструмент видалення URL у Search Console.
Приховування приватних даних. Використовуйте авторизацію та пароль, а не robots.txt.
Блокування CSS і JS. Якщо закрити ресурси, потрібні для рендерингу, Google побачить «зламану» сторінку. За даними аудиту 2026 року, близько 63% великих сайтів випадково блокують важливі CSS/JS через неакуратні wildcard-правила.

Зверніть увагу: сторінка, закрита в robots.txt, усе одно може з'явитися в результатах пошуку, якщо на неї встановлене посилання на цьому сайті або поза ним — тільки без опису (сніпета).

Щоб перевірити наявність файлу, введіть в адресний рядок кореневий домен і додайте /robots.txt.

Синтаксис Robots.txt: основні директиви

Синтаксис robots.txt простий. Кожен рядок — це поле, двокрапка та значення. Імена полів не залежать від регістру, а от значення шляхів (після Disallow/Allow) регістрозалежні. У найпростішій формі файл має такий вигляд:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml

Розберемо ключові директиви, актуальні у 2026 році:

User-agent — ім'я краулера, якому адресовані правила. Зірочка (*) означає «для всіх ботів». Блоки правил для різних User-agent розділяються порожнім рядком.
Disallow — заборона на обхід вказаного шляху. Для кожного шляху один рядок Disallow.
Allow — дозвіл на обхід сторінки чи підпапки, навіть якщо батьківська папка закрита. Підтримується Google і Bing.
Sitemap — вказівка на розташування XML-карти. Має бути повний URL із протоколом. Можна вказати кілька карт.

Якщо файл містить правила для кількох User-agent, краулер застосовує той блок, що адресований конкретно йому. Усі інші боти слідують загальним директивам у групі User-agent: *.

Важливий нюанс: директива Crawl-delay (затримка сканування) Googlebot-ом не підтримується. Керувати швидкістю обходу для Google треба через налаштування в Search Console, а не через robots.txt.

У роботі зі сторінками й підпапками допомагають спецсимволи (регулярні вирази):

* — підстановочний символ, замінює будь-яку послідовність символів;
$ — відповідає кінцю URL-адреси;
# — коментар, усе після нього краулер ігнорує.

Кілька практичних прикладів. Закрити весь сайт від усіх краулерів (актуально для сайту на стадії розробки):

User-agent: *
Disallow: /

Відкрити весь сайт для обходу — порожній Disallow означає «можна все»:

User-agent: *
Disallow:

Закрити конкретну папку лише для Googlebot:

User-agent: Googlebot
Disallow: /example-subfolder/

AI-краулери в robots.txt: головна нова глава 2026 року

Найважливіша зміна останніх років — це AI-краулери. Сьогодні robots.txt керує не лише Google, а й ботами великих мовних моделей. Тут критично розуміти різницю між двома типами AI-ботів:

Training-краулери збирають контент для навчання моделей: GPTBot (OpenAI), Google-Extended (Gemini), ClaudeBot (Anthropic), CCBot (Common Crawl). Блокування цих ботів не дає використовувати ваш контент для тренування.
Search / RAG-краулери звертаються до сайту в момент запиту користувача й дають цитування з посиланням: OAI-SearchBot та ChatGPT-User (OpenAI), PerplexityBot, Claude-SearchBot. Блокування цих ботів позбавляє вас показів і трафіку з AI-пошуку.

Рекомендована стратегія для більшості бізнесів у 2026: блокувати training-краулери, але дозволяти search-краулери. Так ваш контент потрапляє у відповіді AI-пошуковиків з атрибуцією і приносить переходи, але не використовується для навчання чужих моделей. Приклад такого блоку:

# Блокуємо навчання моделей User-agent: GPTBot Disallow: /

User-agent: Google-Extended Disallow: /

User-agent: ClaudeBot Disallow: /

User-agent: CCBot Disallow: /

Дозволяємо AI-пошук із цитуванням

User-agent: OAI-SearchBot Allow: /

User-agent: PerplexityBot Allow: /

Важливі застереження. Старі токени Claude-Web і anthropic-ai більше не активні — сайти, що блокують лише їх, насправді не блокують актуального ClaudeBot. І пам'ятайте: агресивні парсери (наприклад, Bytespider або «приховані» краулери) можуть ігнорувати robots.txt і підробляти User-Agent. Реально захистити краулінговий бюджет від таких ботів можна лише на рівні сервера або WAF. Якщо ви впроваджуєте AI-інструменти в просування, варто заздалегідь продумати політику доступу — ми допомагаємо з цим у межах розробки AI-інструментів.

Robots.txt проти noindex: ключова відмінність

Це найчастіша й найдорожча помилка. Запам'ятайте формулу: robots.txt керує скануванням, noindex керує індексацією.

Disallow у robots.txt забороняє краулеру заходити на сторінку. Але якщо на сторінку ведуть зовнішні посилання, вона все одно може потрапити у видачу — без сніпета.
noindex (мета-тег <meta name="robots" content="noindex"> або HTTP-заголовок X-Robots-Tag) забороняє додавати сторінку в індекс.

Головна пастка: не можна одночасно ставити Disallow і noindex на одну сторінку. Якщо ви закриєте URL у robots.txt, краулер не зможе зайти на сторінку й не побачить мета-тег noindex — а отже, сторінка залишиться в індексі. Правильно так: щоб прибрати сторінку з видачі, дозвольте її обхід і додайте noindex. Щоб заощадити краулінговий бюджет на розділі, який і так не має скануватися, використовуйте Disallow.

Перевірка robots.txt і типові помилки

Неправильно працюючий robots.txt — це проблема, на виявлення якої йде час. Перш ніж викласти файл, перевірте його. Google надає звіт robots.txt прямо в Search Console (Налаштування → звіт robots.txt): він показує дату останнього завантаження, помилки й попередження.

Найчастіші помилки, які ми зустрічаємо при пошуковому просуванні сайтів:

закривають увесь сайт рядком Disallow: / і забувають прибрати після перенесення зі staging;
блокують CSS і JS, через що Google бачить зламану, «не-мобільну» сторінку;
закривають URL у robots.txt і чекають, що сторінка зникне з індексу (а потрібен noindex);
забувають вказати Sitemap;
не переперевіряють robots.txt після редизайну чи міграції;
блокують лише застарілі AI-токени, залишаючи актуальних ботів без правил.

Якщо сторінка після заборони все одно висить у видачі, перевірте в Search Console, чи переіндексував Google сайт, і чи немає зовнішніх посилань на закриту сторінку. Усі правила краще звіряти з офіційною документацією: вступ до robots.txt від Google і як Google інтерпретує robots.txt.

FAQ: часті питання про robots.txt

Чи видалить Disallow сторінку з пошуку Google?

Ні. Disallow забороняє лише сканування. Якщо на сторінку є зовнішні посилання, вона може залишитися у видачі без опису. Для видалення використовуйте noindex або інструмент видалення URL у Search Console.

Чи можна ставити noindex прямо в robots.txt?

Ні. Google офіційно не підтримує директиву noindex у robots.txt з 2019 року. Використовуйте мета-тег robots або HTTP-заголовок X-Robots-Tag на самій сторінці, не закриваючи її при цьому в robots.txt.

Чи потрібно блокувати AI-краулери?

Залежить від стратегії. Якщо не хочете, щоб ваш контент використовували для навчання моделей, блокуйте GPTBot, Google-Extended, ClaudeBot, CCBot. Але дозволяйте search-краулери (OAI-SearchBot, PerplexityBot), щоб залишатися в AI-пошуку й отримувати переходи.

Чому не можна блокувати CSS і JS?

Без цих файлів Googlebot не може коректно відрендерити сторінку й бачить її «зламаною» — це б'є по мобільній оцінці та ранжуванні. Завжди залишайте відкритими ресурси, потрібні для рендерингу.

Чи підтримує Googlebot директиву Crawl-delay?

Ні. Googlebot ігнорує Crawl-delay. Керувати швидкістю обходу для Google треба через налаштування в Search Console.

Чи потрібен robots.txt кожному піддомену окремо?

Так. Кожен піддомен обходиться за своїм файлом. У blog.example.com та example.com мають бути окремі robots.txt у корені.

15.06.2026 1 хв читання

Лінкбілдинг простими словами: де брати вічні посилання і як просувати сайт посиланнями у 2026

Лінкбілдинг простими словами від практика з 2008 року: чим вічні посилання відрізняються від орендних, чому ера чорного SEO закінчилася, білі методи з прикладами (link-worthy контент, скайскрепер, биті посилання, Digital PR, HARO/Featured), внутрішня перелінковка та лінкбілдинг за допомогою AI — з цифрами і джерелами.

Читати →

12.06.2026 15 хв читання