Что такое llms.txt и как его добавить?
llms.txt — это карта ваших ключевых страниц для ИИ-моделей, но он есть лишь у ~10% из 300k доменов. Разбираем формат, куда его класть и чем он отличается от robots.txt.

llms.txt — это файл в обычном Markdown по адресу /llms.txt, который даёт ИИ-моделям и агентам короткую курируемую карту ваших самых важных страниц. Jeremy Howard предложил его 3 сентября 2024 года (llmstxt.org). Логика проста. Целый сайт редко помещается в контекстное окно модели, а сырой HTML, полный навигации и шума вёрстки, плохо читается машиной. Поэтому вместо того, чтобы заставлять ассистента обходить сайт и гадать, вы вручаете ему чистый короткий список того, что прочитать первым.
Это не официальный стандарт уровня robots.txt. Это открытая конвенция, и это различие важно для того, как им стоит пользоваться.
Ключевые выводы
- llms.txt — это предложенная конвенция, а не утверждённый стандарт. Jeremy Howard опубликовал её в сентябре 2024 года (llmstxt.org).
- Формат — Markdown: название в
H1, summary в одну строку, затем разделыH2с курируемыми ссылками. Строго обязателен толькоH1.- Его уже отдают реальные платформы, включая OpenAI, Stripe, Cloudflare и Mintlify, который автоматически генерирует
llms.txtиllms-full.txtдля документации (Mintlify).- Это не приём для ранжирования. Google говорит, что специальные ИИ-файлы вообще не нужны (Google Search Central), а исследование ~300 000 доменов не нашло явной связи с цитированием в ИИ (Search Engine Journal).
- Относитесь к нему как к недорогому слою обнаружимости, особенно для документации, API, тарифов и политик. aiSiteReady отдаёт собственный
/llms.txtи проверяет ваш в сканировании.
Какую проблему на самом деле решает llms.txt?
llms.txt отвечает на узкую проблему, которую спецификация формулирует прямо. Модели всё чаще опираются на веб-контент, но их контекстные окна ограничены, а превращение сложной HTML-страницы в чистый и надёжный текст остаётся шумным и неточным (llmstxt.org). Файл не призван зеркалить весь сайт. Он призван дать модели короткую курируемую точку входа к вашим самым ценным материалам.
Именно поэтому формат — Markdown, а не XML. Markdown читаем и людьми, и моделями, но при этом достаточно предсказуем для обычного парсинга. Другая ключевая идея — момент. llms.txt задуман для того мгновения, когда пользователь о чём-то спрашивает и ассистенту нужно решить, какие страницы взять в контекст. Это не отдельный протокол для обучения моделей.
Сценарии применения шире, чем одни лишь API-доки. Сама спецификация перечисляет документацию библиотек, сайты компаний и личные страницы, интернет-магазины с товарами и политиками, образовательные ресурсы. Полезная рамка: llms.txt — это не столько «SEO-файл для ИИ», сколько курируемая карта самых ценных знаний вашего сайта.
Как выглядит хороший llms.txt?
Корректный файл идёт в фиксированном порядке. Он открывается H1 с названием сайта или проекта, необязательным blockquote с summary, затем необязательными абзацами или списками. После этого идут разделы H2, где каждая строка — markdown-ссылка с необязательным описанием после двоеточия (llmstxt.org). Строго говоря, обязателен только H1, но полезный файл почти всегда включает summary и курируемые разделы. Особый раздел ## Optional помечает ссылки, которые агент может пропустить ради более короткого контекста.
Вот сокращённый фрагмент нашего файла — того, что aiSiteReady отдаёт по адресу /llms.txt (он на английском: таков конвенциональный формат):
# aiSiteReady
> aiSiteReady scans a public website and returns an Agent Readiness
> Score (0–100) that shows whether AI agents and AI search engines can
> discover, read, govern, and transact with the site.
## What it checks
- **Discoverability** — robots.txt, sitemap, Link headers, structured data.
- **Content accessibility** — Markdown negotiation, /llms.txt, server-rendered content.
- **Bot governance** — AI-bot access rules, content-usage directives, rate-limit hints.
## Pages
- [Home / scanner](https://example.com/): Start a free scan
- [Privacy policy](https://example.com/privacy): What we store, and for how long
## More
- [llms-full.txt](https://example.com/llms-full.txt): A fuller machine-readable summary
Прочтите его сверху вниз — и роли становятся ясны. H1 — это идентичность. Blockquote — сжатый контекст, который ассистент читает первым. Каждый ## — логический кластер знаний, а каждая строка - [Заголовок](url): описание — конкретная точка входа. Описание делает работу, объясняя модели, почему ссылку стоит открыть.
Многие команды документации теперь отдают и спутник llms-full.txt, который встраивает само содержимое страниц для агентов, желающих получить всё одним запросом. Держите описания короткими и честными. Как только файл превращается в неранжированную свалку, он перестаёт быть картой и снова становится шумом.
Куда его класть и как им пользуются ассистенты?
Безопасный ответ — /llms.txt в корне сайта. Это путь, описанный в спецификации, и тот, что ищет аудит Lighthouse в Chrome (Chrome for Developers). Рекомендации Vercel по «читаемости для агентов» также допускают /.well-known/llms.txt или /docs/llms.txt. Они советуют отдавать файл как text/plain, а перечисленные URL делать с расширением .md или .mdx, а не .html (Vercel).
Это уже не мысленный эксперимент. Stripe публикует /llms.txt, который подсказывает агентам, как получить Markdown-версию любой страницы документации (Stripe). Mintlify автоматически генерирует и llms.txt, и llms-full.txt для каждого проекта документации, который он хостит (Mintlify). OpenAI и Cloudflare отдают собственные.
Ассистенты используют файл в момент запроса. Когда пользователь спрашивает о вашем продукте, агент может взять /llms.txt, увидеть, какие страницы важны, и взять их в контекст вместо слепого обхода. Lighthouse теперь встроил это в аудит готовности к агентам, помечая ошибки сервера при чтении файла и ставя N/A, когда файла просто нет.
Чем llms.txt отличается от robots.txt и sitemap.xml?
Они живут в трёх разных слоях, поэтому ни один не заменяет другой. robots.txt — это контроль обхода: он сообщает краулерам, какие URL им можно запрашивать. Это неподходящий инструмент, чтобы скрыть страницу: Google отмечает, что robots.txt ненадёжно убирает URL из результатов. sitemap.xml — это плоский инвентарь ваших канонических страниц без описаний. llms.txt — ни то, ни другое. Это короткий семантический гид, который говорит, какие страницы важнее всего и в каком порядке их читать.
| Файл | Чем управляет | Для чего | Не для этого |
|---|---|---|---|
robots.txt | Каким краулерам можно запрашивать какие URL | Политика обхода для ботов | Скрыть страницу (нужен noindex) |
sitemap.xml | Плоский инвентарь канонических URL | Помочь поисковикам найти ваши URL | Сказать, что важнее всего |
llms.txt | Какие страницы важны и в каком порядке | ИИ-дружелюбная карта чтения | Блокировка или ранжирование |
Так что правило простое, но его стоит повторить. Для политики обхода — robots.txt. Чтобы убрать страницу из поиска — noindex. Для обнаружения URL — sitemap. Для ИИ-дружелюбной карты чтения — llms.txt. Путаница между ними — самая частая ошибка в материалах про GEO, и из-за неё от файла ждут блокировки или ранжирования, хотя он не делает ни того, ни другого.
Какие ошибки с llms.txt встречаются чаще всего?
Самая частая — называть его «robots.txt для ИИ». Удобно с точки зрения маркетинга и технически неверно: llms.txt не задаёт правил обхода и не заменяет ни noindex, ни bot-specific директивы.
Вторая — обещать, что один лишь файл повысит ваши Google AI Overviews или цитируемость в ИИ. Тут позиция Google прямая: «Вам не нужно создавать новые машиночитаемые файлы, ИИ-текстовые файлы или разметку, чтобы появляться в этих функциях» (Google Search Central). Независимые замеры подтверждают осторожность. Анализ почти 300 000 доменов нашёл llms.txt примерно у 10% из них и без явного влияния на то, как часто ИИ-системы цитируют сайт (Search Engine Journal).
Остальные ошибки — практические. Не ссылайтесь на HTML-only страницы, битые URL, приватные документы или пустые секции. Не сваливайте сотни неприоритизированных ссылок, воссоздавая sitemap без его формальной пользы. И если вы действительно хотите, чтобы ассистенты читали ваш контент, помните: опубликовать файл недостаточно. OpenAI рекомендует не блокировать его поисковый краулер в robots.txt, а ИИ-функции Google по-прежнему зависят от обычной обходимости. Файл показывает дорогу; пройти по ней разрешают уже ваши правила для ботов.
Как проверить, что ваш llms.txt работает?
Проверяйте в три слоя. Первый — сам файл: он должен открываться по своему URL и отдавать чистый ответ, в идеале 200 с text/plain или text/markdown. Второй — путь агента к вашему контенту: убедитесь, что нужные боты не заблокированы, что есть sitemap и что основной контент читается без запуска JavaScript. Третий — вся картина целиком, в виде оценки, чтобы знать, с чего начать.
Этот последний слой и делает aiSiteReady. Он проверяет ваш сайт так, как это сделал бы ассистент. llms.txt — лишь одна из примерно 15–20 проверок по обнаружимости, доступности контента, управлению ботами, протоколам и коммерции. Вы получаете оценку Agent Readiness Score от 0 до 100, блокеры, которые стоят вам больше всего баллов, и конкретные исправления. Точные проверки и веса описаны на странице методологии, а llms.txt относится к обнаружимости — рядом с robots.txt и вашим sitemap.
Запустите бесплатное сканирование, чтобы увидеть, могут ли ChatGPT, Perplexity, Claude и ИИ-поверхности Google найти ваш llms.txt, прочитать контент и соблюсти ваши правила для ботов. А затем начните с самых влиятельных пробелов.
IMozz создаёт aiSiteReady — сканер только для чтения, который проверяет, могут ли ИИ-агенты прочитать сайт. Он отдаёт собственные /llms.txt и /llms-full.txt как рабочие примеры.