Якого розміру може бути sitemap і що робити, якщо URL більше?

Один sitemap може містити до 50 000 URL і не повинен перевищувати 50 МБ у розпакованому вигляді; gzip допустимий, але ліміт застосовується після розпакування. Великі сайти ділять URL на кілька sitemap і публікують sitemap-індекс, який сам може перелічувати до 50 000 дочірніх файлів. У robots.txt досить вказати лише індекс — дочірні файли краулери підхоплять звідти.

Чи мають ще значення changefreq і priority у sitemap?

Ні. Google підтвердив, що повністю ігнорує changefreq і priority. Значення має lastmod — і лише коли він стабільно відображає реальність. Якщо CMS оновлює lastmod на кожному деплої чи дрібній правці, краулери з часом перестають йому довіряти. Ставте дату останньої значущої зміни контенту — і для URL, і на рівні sitemap-індексу.

Чи можна оголосити canonical, не редагуючи HTML?

Так. Google підтримує canonical в HTTP-заголовку Link (RFC 8288) — це рекомендований шлях для не-HTML документів на кшталт PDF, у яких немає елемента head. Той самий заголовок може нести hreflang-альтернативи для локалізованих файлів. Але не оголошуйте canonical одночасно в HTML і в заголовку — Google попереджає, що поєднання двох способів схильне до помилок.

БЛОГ

Допоможіть ШІ знайти ваші сторінки: sitemap, canonical, Link-заголовки

Q: Чи потрібен окремий sitemap для ШІ-краулерів?

Ні. Стандарту sitemap «для ШІ» не існує. Посібник Google з генеративних ШІ-функцій каже, що застосовуються стандартні SEO-практики й жодні спеціальні файли не потрібні, а OpenAI, Anthropic і Perplexity документують доступ через robots.txt, user-agent і списки IP. Коректний sitemap.xml, зазначений у robots.txt і з лише канонічними URL, однаково служить і класичним пошуковикам, і ШІ-краулерам.

Окремого sitemap для ШІ-краулерів не існує. Досить sitemap.xml, self-canonical і Link-заголовків RFC 8288 — потім перевірте безкоштовним сканом 0–100.

Автор: IMozzОновлено 2026-06-12

Help AI agents find your pages — aiSiteReady

Окремого «sitemap для ШІ-краулерів» не існує — і він вам не потрібен. Майже все, що допомагає ШІ-системі знайти й правильно інтерпретувати ваші сторінки, уже живе в класичному шарі веб-виявлення: обхідні внутрішні посилання, коректний sitemap.xml, один однозначний canonical на сторінку та змістовні <title> і meta description. Там, де HTML ці сигнали передати не може, працюють Link-заголовки. Посібник Google з генеративних ШІ-функцій каже прямо: стандартні SEO-практики залишаються актуальними для ШІ-поверхонь, і жодні спеціальні «лише для ШІ» файли чи магічна розмітка не потрібні (Google).

Це добра новина, а не погана. У 2026 році видимість у ШІ зазвичай ламається не через відсутність нового «ШІ-протоколу», а через неоднозначність старих веб-сигналів. OpenAI, Anthropic і Perplexity документують доступ краулерів через robots.txt, user-agent і списки IP — а не через окремий стандарт sitemap для ШІ. Тож справжнє питання не «як догодити моделям?». Воно значно практичніше: «як прибрати неоднозначність із виявлення та каноникалізації?»

Ключові висновки
Стандарту sitemap «для ШІ» не існує. Google каже, що звичайне SEO покриває його генеративні ШІ-функції; OpenAI, Anthropic і Perplexity керують доступом через robots.txt і user-agent.
Краулери знаходять URL двома шляхами: за посиланнями та через sitemap. Важливій сторінці потрібні обидва — справжнє посилання <a href> і запис у sitemap з її канонічним URL.
Один sitemap вміщує максимум 50 000 URL / 50 МБ у розпакованому вигляді; вкажіть його в robots.txt директивою Sitemap:. Чесний lastmod допомагає; changefreq і priority ігноруються.
Кожна індексована сторінка отримує один self-canonical з абсолютним URL — і потрапляє в sitemap під цим самим URL. Конфлікт сигналів дозволить пошуковику обрати канонічний за вас.
Link-заголовки (RFC 8288) оголошують canonical і hreflang на рівні HTTP — ідеально для PDF. Коли впровадите виправлення, проскануйте домен 0–100, щоб переконатися, що краулери справді це бачать.

Як ШІ- та пошукові краулери знаходять URL?

У вебу немає центрального реєстру сторінок, тому виявлення завжди зводиться до двох шляхів. Бот або знаходить URL за посиланнями на вже відомих йому сторінках, або отримує список URL у sitemap. Google описує роботу свого пошуку рівно в цих термінах (Google), і ШІ-краулери успадковують ту саму механіку.

Перший практичний наслідок: sitemap доповнює внутрішню перелінковку, а не замінює її. Для Google «обхідне» посилання — це саме HTML-елемент <a> з href; посилання, доступні лише через script-події чи нестандартні елементи, видобуваються ненадійно, якщо видобуваються взагалі (Google).

Два шляхи виявлення ведуть до одного краулера: обхідні посилання на відомих сторінках і список URL у sitemap.xml, зазначеному в robots.txt. Важлива сторінка має бути досяжна обома шляхами

Документація самих ШІ-вендорів підтверджує маршрут. OpenAI рекомендує дозволити OAI-SearchBot у robots.txt, щоб сайт міг з'являтися в пошуку ChatGPT (OpenAI); Anthropic описує Claude-SearchBot, ClaudeBot і Claude-User, керовані звичайними robots-правилами (Anthropic). Сьогодні практичний шлях до виявлення в ШІ проходить через наявну інфраструктуру краулінгу. А яких ботів потім дозволяти чи блокувати — питання керування, про це наш гайд із robots.txt.

Як налаштувати sitemap.xml для ШІ-краулерів?

Sitemap — це дешевий маніфест обходу, і його формат повністю специфікований. За протоколом Sitemaps файл має бути в UTF-8, кореневий елемент — <urlset>, кожному URL потрібен <loc>, і всі URL мають належати одному хосту (sitemaps.org). Один файл вміщує максимум 50 000 URL і 50 МБ у розпакованому вигляді — gzip допустимий, але розмір після розпакування все одно рахується. Великі сайти використовують sitemap-індекс, який сам може перелічувати до 50 000 дочірніх sitemap (Google).

Найбільш недовикористана практика коштує одного рядка: вкажіть sitemap у robots.txt. Директива Sitemap: не залежить від жодного блоку User-agent, може стояти будь-де у файлі й повторюватися. Якщо ви публікуєте індекс, досить вказати лише його.

# robots.txt
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap_index.xml

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemaps/docs.xml.gz</loc>
    <lastmod>2026-06-10</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemaps/blog.xml.gz</loc>
    <lastmod>2026-06-11</lastmod>
  </sitemap>
</sitemapindex>

Що потрапляє всередину файлу, важливіше за синтаксис. Google каже прямо: перелічуйте URL, які ви хочете бачити у видачі, — ваші канонічні, а не кожен варіант однієї й тієї самої сторінки. Sitemap — не звалище для параметричних дублів, session ID і UTM-варіантів. Одна сутність — один бажаний URL.

Дві нотатки про свіжість. Старий HTTP-ендпоінт «ping» вимкнено 2023 року — надсилайте sitemap через robots.txt, Search Console або її API (Google). А ще Google підтвердив, що значення має саме чесний lastmod, тоді як changefreq і priority ігноруються повністю. lastmod працює й на рівні індексу: за sitemaps.org він дозволяє краулеру перечитати лише ті дочірні sitemap, що змінилися з минулого візиту. Зверніть увагу на формулювання — краулер може так зробити; ніщо в протоколі не є гарантією.

Чому canonical, title і description важливі для ШІ?

Якщо sitemap відповідає на питання «які у вас URL?», то canonical — «який URL є джерелом істини?». Google ранжує явні сигнали каноникалізації за силою, і сигнали складаються (Google):

Сигнал	Сила	Типове застосування
Постійний редирект `301`/`308`	Сильний	Назавжди виводите дубль з обігу
`rel="canonical"` (HTML або Link-заголовок)	Сильний	Дублі, що мають лишатися доступними
Присутність у sitemap	Слабший, але корисний	Підкріплює бажаний URL

На практиці це зводиться до одного правила: кожна індексована сторінка несе self-canonical з абсолютним URL і присутня в sitemap під цим самим URL. RFC 6596 явно дозволяє канонічний, що посилається сам на себе (RFC 6596). Google рекомендує його на індексованих сторінках — з абсолютними URL, щоб staging-домен чи dev-дзеркало не витекли в тег (Google).

Параметричні варіанти, session ID і дзеркала зводяться до одного канонічного URL — і запис у sitemap, тег rel canonical та Link-заголовок мають вказувати на цей самий URL

Знайте й те, чим canonical не є. Він не повинен вказувати на фрагмент URL і не повинен підміняти справжній редирект, коли ви дійсно виводите дублі з обігу. За RFC 6596 ціль має бути дублем або надмножиною контенту сторінки, що посилається. І головне — не надсилайте суперечливі сигнали: один URL у sitemap, інший у rel="canonical", третій в HTTP-заголовку. Якщо сигнали розходяться, Google може обрати інший канонічний самостійно.

Канонічним потрібен шар-компаньйон: звичайні метадані. Google збирає title-посилання результату з елемента <title>, видимих заголовків, og:title та анкорного тексту (Google). Сніпети будуються здебільшого з контенту сторінки, а meta description використовується, коли він описує сторінку краще. І посібник Google з генеративного ШІ додає головний фільтр: сторінка має бути проіндексована і придатна для сніпета, щоб узагалі претендувати на ШІ-функції. Тож title і description — не спадщина старого SEO, а найдешевше машиночитане резюме, яке ви можете віддати.

<head>
  <title>How to configure a sitemap for AI crawlers</title>
  <meta
    name="description"
    content="A practical guide to sitemap.xml, canonicals, and Link headers for AI search and classic crawlers."
  />
  <link rel="canonical" href="https://example.com/blog/ai-crawler-sitemap" />
</head>

Що таке Link-заголовки і коли їх використовувати?

HTTP-заголовок Link — найбільш недооцінений інструмент шару виявлення. RFC 8288 дає йому ту саму семантику, що й HTML-елементу <link>: сервер оголошує зв'язки між ресурсами прямо у відповіді, і клієнту не потрібно завантажувати й парсити HTML, щоб їх прочитати (RFC 8288, MDN).

Домінують два сценарії. Перший — canonical для не-HTML документів: Google підтримує rel="canonical" через Link-заголовок для файлів на кшталт PDF чи Word, у яких немає <head>. Другий — rel="alternate" з hreflang для локалізованих не-HTML файлів. Один заголовок може оголосити обидва:

Link: <https://example.com/guide>; rel="canonical",
      <https://example.com/guide.fr>; rel="alternate"; hreflang="fr"

Два попередження про синтаксис, бо саме вони ламають реальні реалізації. Параметр rel обов'язковий у кожному link-value — запис без rel не «майже нормальний», це зламаний сигнал. І якщо оголосити canonical і в HTML, і в заголовку, ризик конфлікту різко зростає: Google підтримує обидва способи, але називає їх поєднання схильним до помилок. Оберіть один дім для кожної сторінки — і там теж використовуйте абсолютні URL.

Що найчастіше ламає виявлення сторінок ШІ?

Якщо запам'ятати одну секцію — нехай буде ця: перелічені збої ламають шар виявлення значно частіше, ніж будь-який відсутній «ШІ-протокол».

Sitemap-сирота. Файл існує, але robots.txt на нього не посилається, і ніхто не надіслав його через Search Console чи API. Один із головних шляхів виявлення зник.
Небажані URL у sitemap. Параметричні варіанти, session ID і тимчасові URL замість канонічних.
lastmod, що бреше. CMS, яка оновлює його на кожному деплої, вчить краулерів його ігнорувати. Він корисний, лише коли відображає значущі зміни.
Конфліктні canonical. Один URL у sitemap, інший в HTML, третій у заголовку — або кілька тегів rel="canonical", або canonical у <body>.
Сторінки лише в sitemap. URL значаться в карті, але випали з графа посилань, бо навігація побудована на script-подіях замість посилань <a href> — та сама пастка зі статті як зробити JavaScript-сайт читабельним для ШІ.
robots.txt пропускає, мережа блокує. Найчастіший прихований блокер: правило WAF чи CDN зупиняє ботів, яких ваш robots-файл запрошує. OpenAI публікує IP-діапазони для allowlist, а Anthropic попереджає, що груба блокування за IP може завадити його ботам навіть прочитати ваш robots.txt.

Як перевірити свій шар виявлення?

Вам не потрібен новий ШІ-протокол — потрібен однозначний наявний шар виявлення. Це скінченний, перевірюваний список, і саме для цього існує сканування. Категорія виявності aiSiteReady лягає на цю статтю один в один: перевірка sitemap (існує, доступний, зазначений у robots.txt), перевірка canonical і метаданих та перевірка Link-заголовків. Поруч із ними — ще приблизно 15–20 перевірок, що об'єднуються в оцінку Agent Readiness Score від 0 до 100. Точні перевірки й ваги описано на сторінці методології; для ширшої картини подивіться, що означає готовність до ШІ-агентів.

Ця сторінка, до речі, сама дотримується власних порад: у неї self-canonical, вона лежить у нашому sitemap під тим самим URL, а її FAQ відрендерений статичним JSON-LD — відкрийте view-source і перевірте. Створюючи сканер, ми пройшли через кожну процитовану тут специфікацію; ця стаття — чек-лист, якого нам тоді бракувало.

Коли впровадите виправлення, запустіть безкоштовне сканування: воно завантажує сайт так, як це зробив би агент, і показує, які сигнали виявлення реально знайдено. Ви отримаєте перші виправлення, ранжовані за впливом, і готову задачу для розробника — англійською, українською чи російською, без реєстрації, для будь-якого публічного URL. Оцінка — це діагностика готовності, а не гарантія ранжування; Google прямо каже, що виконання всіх вимог однаково нічого не гарантує.

Найчистіше формулювання всієї теми: не змушуйте ШІ- та пошукових ботів вгадувати структуру сайту. Дайте їм явний список URL через sitemap, один URL-джерело істини на сторінку через canonical і машиночитані зв'язки через HTML- і HTTP-метадані. У 2026 році це найрозумніша відповідь на запит «допоможіть ШІ знайти мої сторінки».

У IMozz 20 років у розробці ПЗ, а останній рік він будує продукти за допомогою LLM. Він розвиває aiSiteReady, сканер лише для читання, який перевіряє, чи може ШІ-агент прочитати сайт. Сканер серверно рендерить власний контент як робочий приклад.