Robots.txt — це текстовий файл у корені сайту, який керує скануванням: він підказує пошуковим та AI-краулерам, які розділи обходити, а які пропускати. Але запам'ятайте головне правило 2026 року: robots.txt керує скануванням, а не індексацією. Щоб прибрати сторінку з видачі, потрібен noindex, а не Disallow.
Кожен, хто займається просуванням сайту, має розуміти сенс цього файлу й уміти прописувати найбільш потрібні директиви. Правильно складений robots.txt допомагає економити краулінговий бюджет і є базовим інструментом технічного SEO. А помилка в одному рядку здатна закрити від Google увесь сайт або зламати рендеринг сторінок.
Щоб розібратися, як працює robots.txt, згадаймо логіку пошукових систем. Краулери виконують два завдання: обхід інтернету в пошуку нової інформації та індексування контенту, щоб користувачі могли його знаходити. Переходячи мільярдами посилань, бот поводиться як павук у павутині — обходить територію й дивиться, що нового потрапило в мережу.
Прибувши на сайт, але перед скануванням, бот насамперед шукає файл robots.txt. Якщо файл є — читає інструкції й діє відповідно до них. Якщо файлу немає або в ньому немає заборон — бот продовжує обходити все підряд.

Що є у конкурента, а в тебе – ще немає? Правильно – трафік. SEOquick на допомогу!
Залучимо тобі на сайт масу трафіку через SEO.
Зробимо це виключно білими методами, без фільтрів і санкцій від Google.
Проведемо глибоку оптимізацію: посилимо контент, наростимо посилання й репутацію. І все вийде!
Перше знайомство з Robots.txt
Robots.txt — це звичайний текстовий файл, створений вебмайстром для інструктування краулерів. У ньому прописані рекомендації про те, як сканувати сторінки сайту. Простими словами: у файлі вказано, куди роботу заходити не треба, що обходити для пошуку, а що — ні.
Файл створюють у кореневому каталозі сайту. Щоразу, приходячи на ресурс, краулер шукає його в одному конкретному місці — головному каталозі домену. Якщо за адресою example.com/robots.txt файлу немає, бот вважає, що інструкцій немає взагалі, і сканує все.
Важливі технічні нюанси 2026 року:
- Файл чутливий до регістру в назві: він має називатися саме «robots.txt» (не Robots.txt і не robots.TXT).
- Це загальнодоступний файл — його бачить будь-який користувач за адресою /robots.txt. Тому ніколи не використовуйте його, щоб сховати конфіденційні дані.
- На кожному піддомені має бути свій robots.txt: і blog.example.com, і example.com обходяться за окремими файлами.
- Кодування — стандартне UTF-8, інакше краулери можуть прочитати вміст некоректно.
- Ліміт розміру для Google — 500 КБ; усе, що більше, ігнорується.
Пам'ятка: якщо robots.txt лежить не в корені (наприклад, example.com/index/robots.txt), він не буде взятий до уваги.
Навіщо це все потрібно? Передусім для економії краулінгового бюджету й порядку в індексі: щоб краулер не витрачав час на службові розділи, фільтри й параметри, а зосередився на важливих сторінках. Грамотний robots.txt — обов'язкова частина технічного аудиту сайту.
Що можна й чого не можна робити через robots.txt
Robots.txt контролює доступ краулерів до певних областей сайту. Це корисно, але небезпечно: одним рядком можна випадково заборонити Googlebot обходити весь ресурс. Щоб не заплутатися, тримайте в голові чітку таблицю завдань.
| Завдання | Підходить robots.txt? | Коментар |
|---|---|---|
| Зменшити crawl waste | так | фільтри, параметри, службові папки |
| Закрити CSS/JS | зазвичай ні | Google має розуміти сторінку |
| Видалити сторінку з індексу | ні | потрібен noindex або видалення URL |
| Вказати sitemap | так | корисно для пошукових систем |
| Сховати приватні дані | ні | використовуйте авторизацію, не robots |
Де robots.txt доречний:
- Економія краулінгового бюджету. Закрити від обходу фільтри, параметри сортування (?sort=, ?color=), результати внутрішнього пошуку, нескінченні комбінації URL.
- Службові розділи. Адмінка, кошик, особистий кабінет, технічні папки.
- Вказівка Sitemap. У файлі корисно прописати шлях до XML-карти сайту.
- Зниження навантаження на сервер від надто частих звернень краулерів до важких розділів.
Де robots.txt марний або шкідливий:
- Видалення сторінки з індексу. Disallow не видаляє URL з видачі — потрібен noindex або інструмент видалення URL у Search Console.
- Приховування приватних даних. Використовуйте авторизацію та пароль, а не robots.txt.
- Блокування CSS і JS. Якщо закрити ресурси, потрібні для рендерингу, Google побачить «зламану» сторінку. За даними аудиту 2026 року, близько 63% великих сайтів випадково блокують важливі CSS/JS через неакуратні wildcard-правила.
Зверніть увагу: сторінка, закрита в robots.txt, усе одно може з'явитися в результатах пошуку, якщо на неї встановлене посилання на цьому сайті або поза ним — тільки без опису (сніпета).
Щоб перевірити наявність файлу, введіть в адресний рядок кореневий домен і додайте /robots.txt.
Синтаксис Robots.txt: основні директиви
Синтаксис robots.txt простий. Кожен рядок — це поле, двокрапка та значення. Імена полів не залежать від регістру, а от значення шляхів (після Disallow/Allow) регістрозалежні. У найпростішій формі файл має такий вигляд:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://example.com/sitemap.xml
Розберемо ключові директиви, актуальні у 2026 році:
- User-agent — ім'я краулера, якому адресовані правила. Зірочка (*) означає «для всіх ботів». Блоки правил для різних User-agent розділяються порожнім рядком.
- Disallow — заборона на обхід вказаного шляху. Для кожного шляху один рядок Disallow.
- Allow — дозвіл на обхід сторінки чи підпапки, навіть якщо батьківська папка закрита. Підтримується Google і Bing.
- Sitemap — вказівка на розташування XML-карти. Має бути повний URL із протоколом. Можна вказати кілька карт.
Якщо файл містить правила для кількох User-agent, краулер застосовує той блок, що адресований конкретно йому. Усі інші боти слідують загальним директивам у групі User-agent: *.
Важливий нюанс: директива Crawl-delay (затримка сканування) Googlebot-ом не підтримується. Керувати швидкістю обходу для Google треба через налаштування в Search Console, а не через robots.txt.
У роботі зі сторінками й підпапками допомагають спецсимволи (регулярні вирази):
- * — підстановочний символ, замінює будь-яку послідовність символів;
- $ — відповідає кінцю URL-адреси;
- # — коментар, усе після нього краулер ігнорує.
Кілька практичних прикладів. Закрити весь сайт від усіх краулерів (актуально для сайту на стадії розробки):
User-agent: * Disallow: /
Відкрити весь сайт для обходу — порожній Disallow означає «можна все»:
User-agent: * Disallow:
Закрити конкретну папку лише для Googlebot:
User-agent: Googlebot Disallow: /example-subfolder/
AI-краулери в robots.txt: головна нова глава 2026 року
Найважливіша зміна останніх років — це AI-краулери. Сьогодні robots.txt керує не лише Google, а й ботами великих мовних моделей. Тут критично розуміти різницю між двома типами AI-ботів:
- Training-краулери збирають контент для навчання моделей: GPTBot (OpenAI), Google-Extended (Gemini), ClaudeBot (Anthropic), CCBot (Common Crawl). Блокування цих ботів не дає використовувати ваш контент для тренування.
- Search / RAG-краулери звертаються до сайту в момент запиту користувача й дають цитування з посиланням: OAI-SearchBot та ChatGPT-User (OpenAI), PerplexityBot, Claude-SearchBot. Блокування цих ботів позбавляє вас показів і трафіку з AI-пошуку.
Рекомендована стратегія для більшості бізнесів у 2026: блокувати training-краулери, але дозволяти search-краулери. Так ваш контент потрапляє у відповіді AI-пошуковиків з атрибуцією і приносить переходи, але не використовується для навчання чужих моделей. Приклад такого блоку:
# Блокуємо навчання моделей User-agent: GPTBot Disallow: /User-agent: Google-Extended Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: CCBot Disallow: /
Дозволяємо AI-пошук із цитуванням
User-agent: OAI-SearchBot Allow: /
User-agent: PerplexityBot Allow: /
Важливі застереження. Старі токени Claude-Web і anthropic-ai більше не активні — сайти, що блокують лише їх, насправді не блокують актуального ClaudeBot. І пам'ятайте: агресивні парсери (наприклад, Bytespider або «приховані» краулери) можуть ігнорувати robots.txt і підробляти User-Agent. Реально захистити краулінговий бюджет від таких ботів можна лише на рівні сервера або WAF. Якщо ви впроваджуєте AI-інструменти в просування, варто заздалегідь продумати політику доступу — ми допомагаємо з цим у межах розробки AI-інструментів.
Robots.txt проти noindex: ключова відмінність
Це найчастіша й найдорожча помилка. Запам'ятайте формулу: robots.txt керує скануванням, noindex керує індексацією.
- Disallow у robots.txt забороняє краулеру заходити на сторінку. Але якщо на сторінку ведуть зовнішні посилання, вона все одно може потрапити у видачу — без сніпета.
- noindex (мета-тег
<meta name="robots" content="noindex">або HTTP-заголовок X-Robots-Tag) забороняє додавати сторінку в індекс.
Головна пастка: не можна одночасно ставити Disallow і noindex на одну сторінку. Якщо ви закриєте URL у robots.txt, краулер не зможе зайти на сторінку й не побачить мета-тег noindex — а отже, сторінка залишиться в індексі. Правильно так: щоб прибрати сторінку з видачі, дозвольте її обхід і додайте noindex. Щоб заощадити краулінговий бюджет на розділі, який і так не має скануватися, використовуйте Disallow.
Перевірка robots.txt і типові помилки
Неправильно працюючий robots.txt — це проблема, на виявлення якої йде час. Перш ніж викласти файл, перевірте його. Google надає звіт robots.txt прямо в Search Console (Налаштування → звіт robots.txt): він показує дату останнього завантаження, помилки й попередження.
Найчастіші помилки, які ми зустрічаємо при пошуковому просуванні сайтів:
- закривають увесь сайт рядком
Disallow: /і забувають прибрати після перенесення зі staging; - блокують CSS і JS, через що Google бачить зламану, «не-мобільну» сторінку;
- закривають URL у robots.txt і чекають, що сторінка зникне з індексу (а потрібен noindex);
- забувають вказати Sitemap;
- не переперевіряють robots.txt після редизайну чи міграції;
- блокують лише застарілі AI-токени, залишаючи актуальних ботів без правил.
Якщо сторінка після заборони все одно висить у видачі, перевірте в Search Console, чи переіндексував Google сайт, і чи немає зовнішніх посилань на закриту сторінку. Усі правила краще звіряти з офіційною документацією: вступ до robots.txt від Google і як Google інтерпретує robots.txt.
FAQ: часті питання про robots.txt
Чи видалить Disallow сторінку з пошуку Google?
Ні. Disallow забороняє лише сканування. Якщо на сторінку є зовнішні посилання, вона може залишитися у видачі без опису. Для видалення використовуйте noindex або інструмент видалення URL у Search Console.
Чи можна ставити noindex прямо в robots.txt?
Ні. Google офіційно не підтримує директиву noindex у robots.txt з 2019 року. Використовуйте мета-тег robots або HTTP-заголовок X-Robots-Tag на самій сторінці, не закриваючи її при цьому в robots.txt.
Чи потрібно блокувати AI-краулери?
Залежить від стратегії. Якщо не хочете, щоб ваш контент використовували для навчання моделей, блокуйте GPTBot, Google-Extended, ClaudeBot, CCBot. Але дозволяйте search-краулери (OAI-SearchBot, PerplexityBot), щоб залишатися в AI-пошуку й отримувати переходи.
Чому не можна блокувати CSS і JS?
Без цих файлів Googlebot не може коректно відрендерити сторінку й бачить її «зламаною» — це б'є по мобільній оцінці та ранжуванні. Завжди залишайте відкритими ресурси, потрібні для рендерингу.
Чи підтримує Googlebot директиву Crawl-delay?
Ні. Googlebot ігнорує Crawl-delay. Керувати швидкістю обходу для Google треба через налаштування в Search Console.
Чи потрібен robots.txt кожному піддомену окремо?
Так. Кожен піддомен обходиться за своїм файлом. У blog.example.com та example.com мають бути окремі robots.txt у корені.

Лінкбілдинг простими словами: де брати вічні посилання і як просувати сайт посиланнями у 2026
Лінкбілдинг простими словами від практика з 2008 року: чим вічні посилання відрізняються від орендних, чому ера чорного SEO закінчилася, білі методи з прикладами (link-worthy контент, скайскрепер, биті посилання, Digital PR, HARO/Featured), внутрішня перелінковка та лінкбілдинг за допомогою AI — з цифрами і джерелами.
Читати →Performance Max для інтернет-магазину: кейс налаштування та оптимізації
Як налаштувати Performance Max для інтернет-магазину: кейс зі зростанням ROAS з 2,8 до 5,1, фід Merchant Center, asset-групи, бюджет та оптимізація.
Читати →Ключові слова Google Ads у 2026: підбір, типи відповідності, мінус-слова
Як працюють ключові слова Google Ads у 2026: реальна поведінка типів відповідності, підбір семантики, структура кампаній, мінус-слова та PMax.
Читати →Хочете застосувати це до свого сайту?
Розберемо поточну ситуацію, знайдемо перші точки зростання й запропонуємо формат роботи без зайвої теорії.