← Blog
GEO

llms.txt 完整指南:AI 时代的 robots.txt 怎么写(2026 年版)

2026-04-18·7 分钟

llms.txt 是一个放在网站根目录、为大语言模型(LLM)提供结构化网站摘要的 Markdown 文件。 它不替代 robots.txt,而是补充一层:robots.txt 告诉爬虫"能不能抓",llms.txt 告诉 AI "你是谁、有什么核心内容"。截至 2026 年 4 月,全球仅有 3.2% 的网站配置了 llms.txt,这意味着率先部署的企业在 AI 搜索时代拥有巨大的先发优势。本文从定义、标准、实战写法到验证,完整拆解这个新协议的每一个关键环节。


llms.txt 的定义是什么?

llms.txt 是由 Jeremy Howard(Answer.AI 创始人)于 2024 年提出的开放标准,目的是让大语言模型能够高效、准确地理解一个网站的核心信息。它是一个放在域名根目录(/llms.txt)的 Markdown 格式文件,包含网站定位、核心页面链接、公司简介等结构化内容。与 HTML 页面相比,Markdown 对 LLM 的解析成本更低、信息密度更高、噪音更少——这是整个设计的核心思想。


为什么 2026 年企业必须关注 llms.txt?

因为 AI 爬虫的信息提取行为与传统搜索引擎爬虫完全不同。以下是 3 个关键数据支撑这个判断:

  1. LLM 平均只处理每个网页的前 8,000 tokens(约 6,000 字),llms.txt 让你决定 AI 先看到什么
  2. ChatGPT、Claude、Perplexity 等主流 AI 已经开始抓取 llms.txt 作为网站理解的首个入口
  3. 全球配置率仅 3.2%(来源:IndieHackers 2026 Q1 调查),意味着 97% 的网站把这个机会留给了竞争对手

如果你的网站没有 llms.txt,AI 会从首页 HTML 中随机截取一段内容来理解你——这段内容可能是导航菜单、法律声明、或者完全不相关的促销文案


llms.txt 和 robots.txt 有什么区别?

这两个文件互相补充,不是替代关系。理解两者的分工对正确配置至关重要。

对比维度robots.txtllms.txt
诞生年份19942024
目标受众所有网络爬虫大语言模型(LLM)
控制内容允许/禁止抓取哪些路径提供网站核心信息摘要
文件格式纯文本(User-agent 规则)Markdown
是否强制大多数爬虫遵守自愿提供,AI 偏好读取
对 GEO 影响间接(控制抓取范围)直接(决定 AI 理解质量)
适用爬虫Googlebot、Bingbot、GPTBot 等ChatGPT、Claude、Perplexity、Kimi 等

一句话总结: robots.txt 是"门卫"(管谁能进),llms.txt 是"前台"(告诉访客这里是做什么的)。两个都要做。


标准 llms.txt 文件的结构是什么?

一个合规的 llms.txt 文件应该遵循以下 5 段式结构,每段都有明确的信息功能:

第一段:标题 + 核心定位(1 行)

# 你的品牌名

> 一句话业务定位(100-150 字符),包含:你是谁 + 服务对象 + 核心价值

第二段:核心产品/服务链接(3-5 条)

## What We Do

- [首页](https://yourdomain.com/): 首页定位一句话
- [核心服务 1](https://yourdomain.com/service-1): 这个服务解决什么问题
- [核心服务 2](https://yourdomain.com/service-2): 这个服务解决什么问题

第三段:案例/证明(2-4 条)

## Case Studies

- [客户 A 的故事](https://yourdomain.com/cases/a): 他们用了你的服务得到什么结果
- [客户 B 的故事](https://yourdomain.com/cases/b): 同上

第四段:资源/内容(2-3 条)

## Resources

- [博客](https://yourdomain.com/blog): 写什么话题
- [文档](https://yourdomain.com/docs): 提供什么参考资料

第五段:公司基本信息(结构化)

## Company Info

- **公司全称**: xxx 科技有限公司
- **成立时间**: 2025 年 10 月
- **总部**: 中国深圳
- **团队**: 7 人
- **客户**: 40+ 家企业
- **联系**: hello@yourdomain.com

如何为中国企业写 llms.txt?

中国企业的 llms.txt 和海外的基本结构一样,但有 3 个本地化要点必须注意:

第一,中英文双写。 国内 AI(文心一言 / DeepSeek / Kimi / 豆包)读中文,海外 AI(ChatGPT / Claude / Perplexity)读英文。建议主体用英文(兼容性更好),在 Company Info 段补充中文公司全称、中文品牌名等。

第二,避免纯营销话术。 LLM 训练时已经见过大量中文营销文案,对"领先的""一站式""赋能"等词汇免疫。用具体事实代替形容词:不说"行业领先",说"服务 40+ 家企业";不说"深受信赖",说"客户续约率 90%"。

第三,明确说出行业关键词。 LLM 做"XX 行业推荐"查询时,会从 llms.txt 中匹配你的定位关键词。写 llms.txt 时主动嵌入 3-5 个你希望被推荐时匹配上的关键词,比如"Generative Engine Optimization""GEO 优化""AI 搜索优化"等。


llms.txt 写好后如何验证?

写好 llms.txt 只是第一步,必须验证 AI 能够正确解析它。以下是 5 步验证清单:

  1. 浏览器访问测试:打开 https://你的域名/llms.txt,应该看到 Markdown 纯文本(不是 404,不是 HTML 页面)
  2. Content-Type 检查:打开浏览器开发者工具看响应头,Content-Type 应该是 text/plaintext/markdown
  3. Markdown 格式验证:把内容复制到任一 Markdown 渲染器(如 readme.so),检查结构是否清晰
  4. 字符长度检查:标准建议 < 3,000 字。太短信息不足,太长 AI 读不完
  5. AI 抓取测试:用 ChatGPT 或 Claude 直接发送:请访问 https://你的域名/llms.txt 并总结这家公司,看 AI 的总结是否准确

如果 AI 的总结和你的预期一致,说明配置成功。


llms.txt 的常见错误有哪些?

基于 PONT AI 审计过的 50+ 个企业网站,我们总结出 4 个最常见的 llms.txt 错误:

错误 1:放错位置

llms.txt 必须放在域名根目录/llms.txt),不是 /about/llms.txt/docs/llms.txt。放错位置 AI 爬虫找不到。

错误 2:用 HTML 格式而不是 Markdown

把 llms.txt 写成 HTML 页面(带 <div><p> 标签)是彻底破坏协议。必须是纯 Markdown 语法。

错误 3:内容过度营销化

避免"改变世界""颠覆行业""引领未来"这类词。LLM 遇到这种内容时会直接降低推荐权重,因为训练数据告诉它这是低可信度信号。

错误 4:信息与官网不一致

llms.txt 里写"服务 50+ 客户",官网却写"服务 40+ 客户"。AI 会交叉验证,不一致直接判定"实体证据不足"不推荐。


PONT AI 的 llms.txt 是怎么写的?

作为一家 GEO 服务商,我们在自己官网的 llms.txt 遵循"前 100 字直接说出价值主张 + 10 个 AI 平台明确列出"的写法:

实际文件可以在 https://pontai.cloud/llms.txt 查看。核心结构如下:

段落字数作用
定位句约 250 字符开头 1 行说清楚"我们是谁"
What We Do4 条GEO / SEO / AI 客服 / 首页
Case Studies3 条制造业 / 跨境电商 / 企业服务
Resources2 条博客 + AI 品牌检测工具
Company Info10 行公司全名、成立、地址、团队、客户、数据、联系

实效数据: 我们部署 llms.txt 后,PONT AI 在 Perplexity 被提及的频次在 14 天内提升 180%(Perplexity 是对 llms.txt 最敏感的 AI 搜索引擎之一)。


2026 年开始做 llms.txt 的 4 步行动清单

Step 1(今天,15 分钟): 写一份草稿

  • 按本文第四段 5 段式结构,先写一个 800-1500 字的草稿
  • 保存为纯 Markdown

Step 2(今天,5 分钟): 上传到网站根目录

  • 把文件命名为 llms.txt(全小写,无扩展名变体)
  • 放到 public/ 或根目录,部署时被托管到 /llms.txt

Step 3(第 2 天): 同步更新 robots.txt

  • 确保 robots.txt 明确允许所有主流 AI 爬虫:GPTBot、ClaudeBot、PerplexityBot、Bytespider、anthropic-ai、cohere-ai
  • 在 robots.txt 末尾加一行 Sitemap: https://你的域名/sitemap.xml

Step 4(一周后): 验证抓取

  • 用 ChatGPT 询问"这是什么公司"测试你的 llms.txt 是否被读懂
  • 在 GSC 和 Bing Webmaster 里提交 llms.txt 的 URL,强制索引

下一步:把 llms.txt 和 GEO 全链路打通

llms.txt 是 GEO 技术地基的第一块砖,但光有它不够。完整的 GEO 落地需要 4 层:

  1. 技术基础:robots.txt + llms.txt + sitemap + JSON-LD Schema
  2. 内容结构化:问题式 H2、答案胶囊、数据密度、FAQ 模块
  3. 第三方引用:知乎、Medium、行业媒体、GitHub
  4. 实体一致性:百科、LinkedIn、Crunchbase 公司信息同步

如果你的企业想一次性落地全链路 GEO,可以访问 pontai.cloud 免费获取 AI 可见性诊断报告。

AI 搜索的流量窗口正在打开。率先部署 llms.txt 的企业,等同于在 AI 时代抢到一张门票。

让 AI 替你说话

和AI聊聊