Какого размера может быть sitemap и что делать, если URL больше?

Один sitemap может содержать до 50 000 URL и не должен превышать 50 МБ в распакованном виде; gzip допустим, но лимит применяется после распаковки. Крупные сайты делят URL на несколько sitemap и публикуют sitemap-индекс, который сам может перечислять до 50 000 дочерних файлов. В robots.txt достаточно указать только индекс — дочерние файлы краулеры подхватят оттуда.

Имеют ли ещё значение changefreq и priority в sitemap?

Нет. Google подтвердил, что полностью игнорирует changefreq и priority. Значение имеет lastmod — и только когда он стабильно отражает реальность. Если CMS обновляет lastmod при каждом деплое или мелкой правке, краулеры со временем перестают ему доверять. Ставьте дату последнего значимого изменения контента — и для URL, и на уровне sitemap-индекса.

Можно ли объявить canonical, не редактируя HTML?

Да. Google поддерживает canonical в HTTP-заголовке Link (RFC 8288) — это рекомендуемый путь для не-HTML документов вроде PDF, у которых нет элемента head. Тот же заголовок может нести hreflang-альтернативы для локализованных файлов. Но не объявляйте canonical одновременно в HTML и в заголовке — Google предупреждает, что сочетание двух способов подвержено ошибкам.

БЛОГ

Помогите ИИ найти ваши страницы: sitemap, canonical, Link-заголовки

Q: Нужен ли отдельный sitemap для ИИ-краулеров?

Нет. Стандарта sitemap «для ИИ» не существует. Руководство Google по генеративным ИИ-функциям говорит, что применяются стандартные SEO-практики и никакие специальные файлы не нужны, а OpenAI, Anthropic и Perplexity документируют доступ через robots.txt, user-agent и списки IP. Корректный sitemap.xml, указанный в robots.txt и перечисляющий только канонические URL, одинаково служит и классическим поисковикам, и ИИ-краулерам.

Отдельного sitemap для ИИ-краулеров не существует. Хватит sitemap.xml, self-canonical и Link-заголовков RFC 8288 — затем проверьте бесплатным сканом 0–100.

Автор: IMozzОбновлено 2026-06-12

Help AI agents find your pages — aiSiteReady

Отдельного «sitemap для ИИ-краулеров» не существует — и он вам не нужен. Почти всё, что помогает ИИ-системе найти и правильно интерпретировать ваши страницы, уже живёт в классическом слое веб-обнаружения: обходимые внутренние ссылки, корректный sitemap.xml, один однозначный canonical на страницу и осмысленные <title> и meta description. Там, где HTML эти сигналы передать не может, работают Link-заголовки. Руководство Google по генеративным ИИ-функциям говорит прямо: стандартные SEO-практики остаются актуальными для ИИ-поверхностей, и никакие специальные «только для ИИ» файлы или магическая разметка не нужны (Google).

Это хорошая новость, а не плохая. В 2026 году видимость в ИИ обычно ломается не из-за отсутствия нового «ИИ-протокола», а из-за неоднозначности старых веб-сигналов. OpenAI, Anthropic и Perplexity документируют доступ краулеров через robots.txt, user-agent и списки IP — а не через отдельный стандарт sitemap для ИИ. Поэтому настоящий вопрос не «как угодить моделям?». Он куда практичнее: «как убрать неоднозначность из обнаружения и каноникализации?»

Ключевые выводы
Стандарта sitemap «для ИИ» не существует. Google говорит, что обычное SEO покрывает его генеративные ИИ-функции; OpenAI, Anthropic и Perplexity управляют доступом через robots.txt и user-agent.
Краулеры находят URL двумя путями: по ссылкам и через sitemap. Важной странице нужны оба — настоящая ссылка <a href> и запись в sitemap с её каноническим URL.
Один sitemap вмещает максимум 50 000 URL / 50 МБ в распакованном виде; укажите его в robots.txt директивой Sitemap:. Честный lastmod помогает; changefreq и priority игнорируются.
Каждая индексируемая страница получает один self-canonical с абсолютным URL — и попадает в sitemap под этим же URL. Конфликт сигналов позволит поисковику выбрать канонический за вас.
Link-заголовки (RFC 8288) объявляют canonical и hreflang на уровне HTTP — идеально для PDF. Когда внедрите исправления, просканируйте домен 0–100, чтобы убедиться, что краулеры действительно это видят.

Как ИИ- и поисковые краулеры находят URL?

У веба нет центрального реестра страниц, поэтому обнаружение всегда сводится к двум путям. Бот либо находит URL по ссылкам на уже известных ему страницах, либо получает список URL в sitemap. Google описывает работу своего поиска ровно в этих терминах (Google), и ИИ-краулеры наследуют ту же механику.

Первое практическое следствие: sitemap дополняет внутреннюю перелинковку, а не заменяет её. Для Google «обходимая» ссылка — это именно HTML-элемент <a> с href; ссылки, доступные только через script-события или нестандартные элементы, извлекаются ненадёжно, если извлекаются вообще (Google).

Два пути обнаружения ведут к одному краулеру: обходимые ссылки на известных страницах и список URL в sitemap.xml, указанном в robots.txt. Важная страница должна быть достижима обоими путями

Документация самих ИИ-вендоров подтверждает маршрут. OpenAI рекомендует разрешить OAI-SearchBot в robots.txt, чтобы сайт мог появляться в поиске ChatGPT (OpenAI); Anthropic описывает Claude-SearchBot, ClaudeBot и Claude-User, управляемые обычными robots-правилами (Anthropic). Сегодня практический путь к обнаружению в ИИ проходит через существующую инфраструктуру краулинга. А каких ботов затем разрешать или блокировать — вопрос управления, об этом наш гайд по robots.txt.

Как настроить sitemap.xml для ИИ-краулеров?

Sitemap — это дешёвый манифест обхода, и его формат полностью специфицирован. По протоколу Sitemaps файл должен быть в UTF-8, корневой элемент — <urlset>, каждому URL нужен <loc>, и все URL должны принадлежать одному хосту (sitemaps.org). Один файл вмещает максимум 50 000 URL и 50 МБ в распакованном виде — gzip допустим, но размер после распаковки всё равно считается. Крупные сайты используют sitemap-индекс, который сам может перечислять до 50 000 дочерних sitemap (Google).

Самая недоиспользуемая практика стоит одной строки: укажите sitemap в robots.txt. Директива Sitemap: не зависит ни от какого блока User-agent, может стоять в любом месте файла и повторяться. Если вы публикуете индекс, достаточно указать только его.

# robots.txt
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap_index.xml

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemaps/docs.xml.gz</loc>
    <lastmod>2026-06-10</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemaps/blog.xml.gz</loc>
    <lastmod>2026-06-11</lastmod>
  </sitemap>
</sitemapindex>

Что попадает внутрь файла, важнее синтаксиса. Google говорит прямо: перечисляйте URL, которые вы хотите видеть в выдаче, — ваши канонические, а не каждый вариант одной и той же страницы. Sitemap — не свалка для параметрических дублей, session ID и UTM-вариантов. Одна сущность — один предпочтительный URL.

Две заметки о свежести. Старый HTTP-эндпоинт «ping» отключён в 2023 году — отправляйте sitemap через robots.txt, Search Console или её API (Google). А ещё Google подтвердил, что значение имеет именно честный lastmod, тогда как changefreq и priority игнорируются полностью. lastmod работает и на уровне индекса: по sitemaps.org он позволяет краулеру перечитать только те дочерние sitemap, что изменились с прошлого визита. Обратите внимание на формулировку — краулер может так сделать; ничто в протоколе не гарантия.

Почему canonical, title и description важны для ИИ?

Если sitemap отвечает на вопрос «какие у вас URL?», то canonical — «какой URL является источником истины?». Google ранжирует явные сигналы каноникализации по силе, и сигналы складываются (Google):

Сигнал	Сила	Типичное применение
Постоянный редирект `301`/`308`	Сильный	Навсегда выводите дубль из оборота
`rel="canonical"` (HTML или Link-заголовок)	Сильный	Дубли, которые должны оставаться доступными
Присутствие в sitemap	Слабее, но полезен	Подкрепляет предпочтительный URL

На практике это сводится к одному правилу: каждая индексируемая страница несёт self-canonical с абсолютным URL и присутствует в sitemap под этим же URL. RFC 6596 явно разрешает канонический, ссылающийся на себя (RFC 6596). Google рекомендует его на индексируемых страницах — с абсолютными URL, чтобы staging-домен или dev-зеркало не утекли в тег (Google).

Параметрические варианты, session ID и зеркала сводятся к одному каноническому URL — и запись в sitemap, тег rel canonical и Link-заголовок должны указывать на этот же URL

Знайте и то, чем canonical не является. Он не должен указывать на фрагмент URL и не должен подменять настоящий редирект, когда вы действительно выводите дубли из оборота. По RFC 6596 цель должна быть дублем или надмножеством контента ссылающейся страницы. И главное — не посылайте противоречивые сигналы: один URL в sitemap, другой в rel="canonical", третий в HTTP-заголовке. Если сигналы расходятся, Google может выбрать другой канонический самостоятельно.

Каноническим нужен слой-компаньон: обычные метаданные. Google собирает title-ссылку результата из элемента <title>, видимых заголовков, og:title и анкорного текста (Google). Сниппеты строятся в основном из контента страницы, а meta description используется, когда он описывает страницу лучше. И руководство Google по генеративному ИИ добавляет главный фильтр: страница должна быть проиндексирована и пригодна для сниппета, чтобы вообще претендовать на ИИ-функции. Так что title и description — не наследие старого SEO, а самое дешёвое машиночитаемое резюме, которое вы можете отдать.

<head>
  <title>How to configure a sitemap for AI crawlers</title>
  <meta
    name="description"
    content="A practical guide to sitemap.xml, canonicals, and Link headers for AI search and classic crawlers."
  />
  <link rel="canonical" href="https://example.com/blog/ai-crawler-sitemap" />
</head>

Что такое Link-заголовки и когда их использовать?

HTTP-заголовок Link — самый недооценённый инструмент слоя обнаружения. RFC 8288 даёт ему ту же семантику, что у HTML-элемента <link>: сервер объявляет связи между ресурсами прямо в ответе, и клиенту не нужно скачивать и парсить HTML, чтобы их прочитать (RFC 8288, MDN).

Доминируют два сценария. Первый — canonical для не-HTML документов: Google поддерживает rel="canonical" через Link-заголовок для файлов вроде PDF или Word, у которых нет <head>. Второй — rel="alternate" с hreflang для локализованных не-HTML файлов. Один заголовок может объявить оба:

Link: <https://example.com/guide>; rel="canonical",
      <https://example.com/guide.fr>; rel="alternate"; hreflang="fr"

Два предупреждения о синтаксисе, потому что именно они ломают реальные реализации. Параметр rel обязателен в каждом link-value — запись без rel не «почти нормальная», это сломанный сигнал. И если объявить canonical и в HTML, и в заголовке, риск конфликта резко растёт: Google поддерживает оба способа, но называет их сочетание подверженным ошибкам. Выберите один дом для каждой страницы — и там тоже используйте абсолютные URL.

Что чаще всего ломает обнаружение страниц ИИ?

Если запомнить одну секцию — пусть будет эта: перечисленные сбои ломают слой обнаружения гораздо чаще, чем любой недостающий «ИИ-протокол».

Sitemap-сирота. Файл существует, но robots.txt на него не ссылается, и никто не отправил его через Search Console или API. Один из главных путей обнаружения исчез.
Непредпочтительные URL в sitemap. Параметрические варианты, session ID и временные URL вместо канонических.
Лгущий lastmod. CMS, обновляющая его при каждом деплое, учит краулеров его игнорировать. Он полезен, только когда отражает значимые изменения.
Конфликтующие canonical. Один URL в sitemap, другой в HTML, третий в заголовке — или несколько тегов rel="canonical", или canonical в <body>.
Страницы только в sitemap. URL числятся в карте, но выпали из графа ссылок, потому что навигация построена на script-событиях вместо ссылок <a href> — та же ловушка из статьи как сделать JavaScript-сайт читаемым для ИИ.
robots.txt пропускает, сеть блокирует. Самый частый скрытый блокер: правило WAF или CDN останавливает ботов, которых ваш robots-файл приглашает. OpenAI публикует IP-диапазоны для allowlist, а Anthropic предупреждает, что грубая блокировка по IP может помешать его ботам даже прочитать ваш robots.txt.

Как проверить свой слой обнаружения?

Вам не нужен новый ИИ-протокол — нужен однозначный существующий слой обнаружения. Это конечный, проверяемый список, и именно для этого существует сканирование. Категория обнаружимости aiSiteReady ложится на эту статью один в один: проверка sitemap (существует, доступен, указан в robots.txt), проверка canonical и метаданных и проверка Link-заголовков. Рядом с ними — ещё примерно 15–20 проверок, которые объединяются в оценку Agent Readiness Score от 0 до 100. Точные проверки и веса описаны на странице методологии; для более широкой картины посмотрите, что значит готовность к ИИ-агентам.

Эта страница, кстати, сама следует собственным советам: у неё self-canonical, она лежит в нашем sitemap под тем же URL, а её FAQ отрендерен статическим JSON-LD — откройте view-source и проверьте. Создавая сканер, мы прошли через каждую процитированную здесь спецификацию; эта статья — чек-лист, которого нам тогда не хватало.

Когда внедрите исправления, запустите бесплатное сканирование: оно загружает сайт так, как это сделал бы агент, и показывает, какие сигналы обнаружения реально найдены. Вы получите первые исправления, ранжированные по влиянию, и готовую задачу для разработчика — на английском, украинском или русском, без регистрации, для любого публичного URL. Оценка — это диагностика готовности, а не гарантия ранжирования; Google прямо говорит, что выполнение всех требований всё равно ничего не гарантирует.

Чистейшая формулировка всей темы: не заставляйте ИИ- и поисковых ботов угадывать структуру сайта. Дайте им явный список URL через sitemap, один URL-источник истины на страницу через canonical и машиночитаемые связи через HTML- и HTTP-метаданные. В 2026 году это самый здравый ответ на запрос «помогите ИИ найти мои страницы».

У IMozz 20 лет в разработке ПО, а последний год он строит продукты с помощью LLM. Он развивает aiSiteReady, сканер только для чтения, который проверяет, может ли ИИ-агент прочитать сайт. Сканер серверно рендерит собственный контент как рабочий пример.