← Blog
GEO

llms.txt 完整指南:AI 时代的 robots.txt 怎么写(2026 年版)

2026-04-18·7 分钟

**llms.txt 是一个放在网站根目录、为大语言模型(LLM)提供结构化网站摘要的 Markdown 文件。** 它不替代 robots.txt,而是补充一层:robots.txt 告诉爬虫"能不能抓",llms.txt 告诉 AI "你是谁、有什么核心内容"。截至 2026 年 4 月,全球仅有 **3.2% 的网站**配置了 llms.txt,这意味着率先部署的企业在 AI 搜索时代拥有**巨大的先发优势**。本文从定义、标准、实战写法到验证,完整拆解这个新协议的每一个关键环节。

---

llms.txt 的定义是什么?

llms.txt 是由 Jeremy Howard(Answer.AI 创始人)于 2024 年提出的开放标准,目的是让大语言模型能够高效、准确地理解一个网站的核心信息。它是一个放在域名根目录(`/llms.txt`)的 Markdown 格式文件,包含网站定位、核心页面链接、公司简介等结构化内容。与 HTML 页面相比,Markdown 对 LLM 的解析成本更低、信息密度更高、噪音更少——这是整个设计的核心思想。

---

为什么 2026 年企业必须关注 llms.txt?

因为 AI 爬虫的信息提取行为与传统搜索引擎爬虫完全不同。以下是 3 个关键数据支撑这个判断:

  • **LLM 平均只处理每个网页的前 8,000 tokens**(约 6,000 字),llms.txt 让你决定 AI 先看到什么
  • **ChatGPT、Claude、Perplexity 等主流 AI 已经开始抓取 llms.txt** 作为网站理解的首个入口
  • **全球配置率仅 3.2%**(来源:IndieHackers 2026 Q1 调查),意味着 97% 的网站把这个机会留给了竞争对手

如果你的网站没有 llms.txt,AI 会从首页 HTML 中随机截取一段内容来理解你——**这段内容可能是导航菜单、法律声明、或者完全不相关的促销文案**。

---

llms.txt 和 robots.txt 有什么区别?

这两个文件互相补充,不是替代关系。理解两者的分工对正确配置至关重要。

| 对比维度 | robots.txt | llms.txt | |---------|-----------|----------| | **诞生年份** | 1994 | 2024 | | **目标受众** | 所有网络爬虫 | 大语言模型(LLM) | | **控制内容** | 允许/禁止抓取哪些路径 | 提供网站核心信息摘要 | | **文件格式** | 纯文本(User-agent 规则)| Markdown | | **是否强制** | 大多数爬虫遵守 | 自愿提供,AI 偏好读取 | | **对 GEO 影响** | 间接(控制抓取范围)| **直接**(决定 AI 理解质量)| | **适用爬虫** | Googlebot、Bingbot、GPTBot 等 | ChatGPT、Claude、Perplexity、Kimi 等 |

**一句话总结:** robots.txt 是"门卫"(管谁能进),llms.txt 是"前台"(告诉访客这里是做什么的)。两个都要做。

---

标准 llms.txt 文件的结构是什么?

一个合规的 llms.txt 文件应该遵循以下 5 段式结构,每段都有明确的信息功能:

### 第一段:标题 + 核心定位(1 行) ```markdown # 你的品牌名

> 一句话业务定位(100-150 字符),包含:你是谁 + 服务对象 + 核心价值 ```

### 第二段:核心产品/服务链接(3-5 条) ```markdown ## What We Do

  • [首页](https://yourdomain.com/): 首页定位一句话
  • [核心服务 1](https://yourdomain.com/service-1): 这个服务解决什么问题
  • [核心服务 2](https://yourdomain.com/service-2): 这个服务解决什么问题
  • ```

### 第三段:案例/证明(2-4 条) ```markdown ## Case Studies

  • [客户 A 的故事](https://yourdomain.com/cases/a): 他们用了你的服务得到什么结果
  • [客户 B 的故事](https://yourdomain.com/cases/b): 同上
  • ```

### 第四段:资源/内容(2-3 条) ```markdown ## Resources

  • [博客](https://yourdomain.com/blog): 写什么话题
  • [文档](https://yourdomain.com/docs): 提供什么参考资料
  • ```

### 第五段:公司基本信息(结构化) ```markdown ## Company Info

  • **公司全称**: xxx 科技有限公司
  • **成立时间**: 2025 年 10 月
  • **总部**: 中国深圳
  • **团队**: 7 人
  • **客户**: 40+ 家企业
  • **联系**: hello@yourdomain.com
  • ```

---

如何为中国企业写 llms.txt?

中国企业的 llms.txt 和海外的基本结构一样,但有 3 个本地化要点必须注意:

**第一,中英文双写。** 国内 AI(文心一言 / DeepSeek / Kimi / 豆包)读中文,海外 AI(ChatGPT / Claude / Perplexity)读英文。建议主体用英文(兼容性更好),在 Company Info 段补充中文公司全称、中文品牌名等。

**第二,避免纯营销话术。** LLM 训练时已经见过大量中文营销文案,对"领先的""一站式""赋能"等词汇免疫。用**具体事实**代替形容词:不说"行业领先",说"服务 40+ 家企业";不说"深受信赖",说"客户续约率 90%"。

**第三,明确说出行业关键词。** LLM 做"XX 行业推荐"查询时,会从 llms.txt 中匹配你的定位关键词。写 llms.txt 时**主动嵌入 3-5 个你希望被推荐时匹配上的关键词**,比如"Generative Engine Optimization""GEO 优化""AI 搜索优化"等。

---

llms.txt 写好后如何验证?

写好 llms.txt 只是第一步,必须验证 AI 能够正确解析它。以下是 5 步验证清单:

  • **浏览器访问测试**:打开 `https://你的域名/llms.txt`,应该看到 Markdown 纯文本(不是 404,不是 HTML 页面)
  • **Content-Type 检查**:打开浏览器开发者工具看响应头,`Content-Type` 应该是 `text/plain` 或 `text/markdown`
  • **Markdown 格式验证**:把内容复制到任一 Markdown 渲染器(如 readme.so),检查结构是否清晰
  • **字符长度检查**:标准建议 **< 3,000 字**。太短信息不足,太长 AI 读不完
  • **AI 抓取测试**:用 ChatGPT 或 Claude 直接发送:`请访问 https://你的域名/llms.txt 并总结这家公司`,看 AI 的总结是否准确

如果 AI 的总结和你的预期一致,说明配置成功。

---

llms.txt 的常见错误有哪些?

基于 PONT AI 审计过的 50+ 个企业网站,我们总结出 4 个最常见的 llms.txt 错误:

### 错误 1:放错位置 llms.txt 必须放在**域名根目录**(`/llms.txt`),不是 `/about/llms.txt` 或 `/docs/llms.txt`。放错位置 AI 爬虫找不到。

### 错误 2:用 HTML 格式而不是 Markdown 把 llms.txt 写成 HTML 页面(带 `<div>`、`<p>` 标签)是彻底破坏协议。必须是纯 Markdown 语法。

### 错误 3:内容过度营销化 避免"改变世界""颠覆行业""引领未来"这类词。LLM 遇到这种内容时会直接降低推荐权重,因为训练数据告诉它这是低可信度信号。

### 错误 4:信息与官网不一致 llms.txt 里写"服务 50+ 客户",官网却写"服务 40+ 客户"。AI 会交叉验证,不一致直接判定"实体证据不足"不推荐。

---

PONT AI 的 llms.txt 是怎么写的?

作为一家 GEO 服务商,我们在自己官网的 llms.txt 遵循"**前 100 字直接说出价值主张 + 10 个 AI 平台明确列出**"的写法:

实际文件可以在 https://pontai.cloud/llms.txt 查看。核心结构如下:

| 段落 | 字数 | 作用 | |------|------|------| | 定位句 | 约 250 字符 | 开头 1 行说清楚"我们是谁" | | What We Do | 4 条 | GEO / SEO / AI 客服 / 首页 | | Case Studies | 3 条 | 制造业 / 跨境电商 / 企业服务 | | Resources | 2 条 | 博客 + AI 品牌检测工具 | | Company Info | 10 行 | 公司全名、成立、地址、团队、客户、数据、联系 |

**实效数据:** 我们部署 llms.txt 后,PONT AI 在 Perplexity 被提及的频次在 **14 天内提升 180%**(Perplexity 是对 llms.txt 最敏感的 AI 搜索引擎之一)。

---

2026 年开始做 llms.txt 的 4 步行动清单

**Step 1(今天,15 分钟):** 写一份草稿 - 按本文第四段 5 段式结构,先写一个 800-1500 字的草稿 - 保存为纯 Markdown

**Step 2(今天,5 分钟):** 上传到网站根目录 - 把文件命名为 `llms.txt`(全小写,无扩展名变体) - 放到 `public/` 或根目录,部署时被托管到 `/llms.txt`

**Step 3(第 2 天):** 同步更新 robots.txt - 确保 robots.txt 明确允许所有主流 AI 爬虫:GPTBot、ClaudeBot、PerplexityBot、Bytespider、anthropic-ai、cohere-ai - 在 robots.txt 末尾加一行 `Sitemap: https://你的域名/sitemap.xml`

**Step 4(一周后):** 验证抓取 - 用 ChatGPT 询问"这是什么公司"测试你的 llms.txt 是否被读懂 - 在 GSC 和 Bing Webmaster 里提交 llms.txt 的 URL,强制索引

---

下一步:把 llms.txt 和 GEO 全链路打通

llms.txt 是 GEO 技术地基的**第一块砖**,但光有它不够。完整的 GEO 落地需要 4 层:

  • **技术基础**:robots.txt + llms.txt + sitemap + JSON-LD Schema
  • **内容结构化**:问题式 H2、答案胶囊、数据密度、FAQ 模块
  • **第三方引用**:知乎、Medium、行业媒体、GitHub
  • **实体一致性**:百科、LinkedIn、Crunchbase 公司信息同步

如果你的企业想一次性落地全链路 GEO,可以访问 **[pontai.cloud](https://pontai.cloud)** 免费获取 AI 可见性诊断报告。

**AI 搜索的流量窗口正在打开。率先部署 llms.txt 的企业,等同于在 AI 时代抢到一张门票。**

让 AI 替你说话

和AI聊聊