llms.txt 是一个放在网站根目录、为大语言模型(LLM)提供结构化网站摘要的 Markdown 文件。 它不替代 robots.txt,而是补充一层:robots.txt 告诉爬虫"能不能抓",llms.txt 告诉 AI "你是谁、有什么核心内容"。截至 2026 年 4 月,全球仅有 3.2% 的网站配置了 llms.txt,这意味着率先部署的企业在 AI 搜索时代拥有巨大的先发优势。本文从定义、标准、实战写法到验证,完整拆解这个新协议的每一个关键环节。
llms.txt 的定义是什么?
llms.txt 是由 Jeremy Howard(Answer.AI 创始人)于 2024 年提出的开放标准,目的是让大语言模型能够高效、准确地理解一个网站的核心信息。它是一个放在域名根目录(/llms.txt)的 Markdown 格式文件,包含网站定位、核心页面链接、公司简介等结构化内容。与 HTML 页面相比,Markdown 对 LLM 的解析成本更低、信息密度更高、噪音更少——这是整个设计的核心思想。
为什么 2026 年企业必须关注 llms.txt?
因为 AI 爬虫的信息提取行为与传统搜索引擎爬虫完全不同。以下是 3 个关键数据支撑这个判断:
- LLM 平均只处理每个网页的前 8,000 tokens(约 6,000 字),llms.txt 让你决定 AI 先看到什么
- ChatGPT、Claude、Perplexity 等主流 AI 已经开始抓取 llms.txt 作为网站理解的首个入口
- 全球配置率仅 3.2%(来源:IndieHackers 2026 Q1 调查),意味着 97% 的网站把这个机会留给了竞争对手
如果你的网站没有 llms.txt,AI 会从首页 HTML 中随机截取一段内容来理解你——这段内容可能是导航菜单、法律声明、或者完全不相关的促销文案。
llms.txt 和 robots.txt 有什么区别?
这两个文件互相补充,不是替代关系。理解两者的分工对正确配置至关重要。
| 对比维度 | robots.txt | llms.txt |
|---|---|---|
| 诞生年份 | 1994 | 2024 |
| 目标受众 | 所有网络爬虫 | 大语言模型(LLM) |
| 控制内容 | 允许/禁止抓取哪些路径 | 提供网站核心信息摘要 |
| 文件格式 | 纯文本(User-agent 规则) | Markdown |
| 是否强制 | 大多数爬虫遵守 | 自愿提供,AI 偏好读取 |
| 对 GEO 影响 | 间接(控制抓取范围) | 直接(决定 AI 理解质量) |
| 适用爬虫 | Googlebot、Bingbot、GPTBot 等 | ChatGPT、Claude、Perplexity、Kimi 等 |
一句话总结: robots.txt 是"门卫"(管谁能进),llms.txt 是"前台"(告诉访客这里是做什么的)。两个都要做。
标准 llms.txt 文件的结构是什么?
一个合规的 llms.txt 文件应该遵循以下 5 段式结构,每段都有明确的信息功能:
第一段:标题 + 核心定位(1 行)
# 你的品牌名
> 一句话业务定位(100-150 字符),包含:你是谁 + 服务对象 + 核心价值
第二段:核心产品/服务链接(3-5 条)
## What We Do
- [首页](https://yourdomain.com/): 首页定位一句话
- [核心服务 1](https://yourdomain.com/service-1): 这个服务解决什么问题
- [核心服务 2](https://yourdomain.com/service-2): 这个服务解决什么问题
第三段:案例/证明(2-4 条)
## Case Studies
- [客户 A 的故事](https://yourdomain.com/cases/a): 他们用了你的服务得到什么结果
- [客户 B 的故事](https://yourdomain.com/cases/b): 同上
第四段:资源/内容(2-3 条)
## Resources
- [博客](https://yourdomain.com/blog): 写什么话题
- [文档](https://yourdomain.com/docs): 提供什么参考资料
第五段:公司基本信息(结构化)
## Company Info
- **公司全称**: xxx 科技有限公司
- **成立时间**: 2025 年 10 月
- **总部**: 中国深圳
- **团队**: 7 人
- **客户**: 40+ 家企业
- **联系**: hello@yourdomain.com
如何为中国企业写 llms.txt?
中国企业的 llms.txt 和海外的基本结构一样,但有 3 个本地化要点必须注意:
第一,中英文双写。 国内 AI(文心一言 / DeepSeek / Kimi / 豆包)读中文,海外 AI(ChatGPT / Claude / Perplexity)读英文。建议主体用英文(兼容性更好),在 Company Info 段补充中文公司全称、中文品牌名等。
第二,避免纯营销话术。 LLM 训练时已经见过大量中文营销文案,对"领先的""一站式""赋能"等词汇免疫。用具体事实代替形容词:不说"行业领先",说"服务 40+ 家企业";不说"深受信赖",说"客户续约率 90%"。
第三,明确说出行业关键词。 LLM 做"XX 行业推荐"查询时,会从 llms.txt 中匹配你的定位关键词。写 llms.txt 时主动嵌入 3-5 个你希望被推荐时匹配上的关键词,比如"Generative Engine Optimization""GEO 优化""AI 搜索优化"等。
llms.txt 写好后如何验证?
写好 llms.txt 只是第一步,必须验证 AI 能够正确解析它。以下是 5 步验证清单:
- 浏览器访问测试:打开
https://你的域名/llms.txt,应该看到 Markdown 纯文本(不是 404,不是 HTML 页面) - Content-Type 检查:打开浏览器开发者工具看响应头,
Content-Type应该是text/plain或text/markdown - Markdown 格式验证:把内容复制到任一 Markdown 渲染器(如 readme.so),检查结构是否清晰
- 字符长度检查:标准建议 < 3,000 字。太短信息不足,太长 AI 读不完
- AI 抓取测试:用 ChatGPT 或 Claude 直接发送:
请访问 https://你的域名/llms.txt 并总结这家公司,看 AI 的总结是否准确
如果 AI 的总结和你的预期一致,说明配置成功。
llms.txt 的常见错误有哪些?
基于 PONT AI 审计过的 50+ 个企业网站,我们总结出 4 个最常见的 llms.txt 错误:
错误 1:放错位置
llms.txt 必须放在域名根目录(/llms.txt),不是 /about/llms.txt 或 /docs/llms.txt。放错位置 AI 爬虫找不到。
错误 2:用 HTML 格式而不是 Markdown
把 llms.txt 写成 HTML 页面(带 <div>、<p> 标签)是彻底破坏协议。必须是纯 Markdown 语法。
错误 3:内容过度营销化
避免"改变世界""颠覆行业""引领未来"这类词。LLM 遇到这种内容时会直接降低推荐权重,因为训练数据告诉它这是低可信度信号。
错误 4:信息与官网不一致
llms.txt 里写"服务 50+ 客户",官网却写"服务 40+ 客户"。AI 会交叉验证,不一致直接判定"实体证据不足"不推荐。
PONT AI 的 llms.txt 是怎么写的?
作为一家 GEO 服务商,我们在自己官网的 llms.txt 遵循"前 100 字直接说出价值主张 + 10 个 AI 平台明确列出"的写法:
实际文件可以在 https://pontai.cloud/llms.txt 查看。核心结构如下:
| 段落 | 字数 | 作用 |
|---|---|---|
| 定位句 | 约 250 字符 | 开头 1 行说清楚"我们是谁" |
| What We Do | 4 条 | GEO / SEO / AI 客服 / 首页 |
| Case Studies | 3 条 | 制造业 / 跨境电商 / 企业服务 |
| Resources | 2 条 | 博客 + AI 品牌检测工具 |
| Company Info | 10 行 | 公司全名、成立、地址、团队、客户、数据、联系 |
实效数据: 我们部署 llms.txt 后,PONT AI 在 Perplexity 被提及的频次在 14 天内提升 180%(Perplexity 是对 llms.txt 最敏感的 AI 搜索引擎之一)。
2026 年开始做 llms.txt 的 4 步行动清单
Step 1(今天,15 分钟): 写一份草稿
- 按本文第四段 5 段式结构,先写一个 800-1500 字的草稿
- 保存为纯 Markdown
Step 2(今天,5 分钟): 上传到网站根目录
- 把文件命名为
llms.txt(全小写,无扩展名变体) - 放到
public/或根目录,部署时被托管到/llms.txt
Step 3(第 2 天): 同步更新 robots.txt
- 确保 robots.txt 明确允许所有主流 AI 爬虫:GPTBot、ClaudeBot、PerplexityBot、Bytespider、anthropic-ai、cohere-ai
- 在 robots.txt 末尾加一行
Sitemap: https://你的域名/sitemap.xml
Step 4(一周后): 验证抓取
- 用 ChatGPT 询问"这是什么公司"测试你的 llms.txt 是否被读懂
- 在 GSC 和 Bing Webmaster 里提交 llms.txt 的 URL,强制索引
下一步:把 llms.txt 和 GEO 全链路打通
llms.txt 是 GEO 技术地基的第一块砖,但光有它不够。完整的 GEO 落地需要 4 层:
- 技术基础:robots.txt + llms.txt + sitemap + JSON-LD Schema
- 内容结构化:问题式 H2、答案胶囊、数据密度、FAQ 模块
- 第三方引用:知乎、Medium、行业媒体、GitHub
- 实体一致性:百科、LinkedIn、Crunchbase 公司信息同步
如果你的企业想一次性落地全链路 GEO,可以访问 pontai.cloud 免费获取 AI 可见性诊断报告。
AI 搜索的流量窗口正在打开。率先部署 llms.txt 的企业,等同于在 AI 时代抢到一张门票。