← Blog
诊断工具

GPTBot / ClaudeBot / PerplexityBot:2026 年 robots.txt 完整配置手册

2026-04-22·8 分钟

分类: 技术实现
日期: 2026 年 4 月 22 日
阅读时长: 约 8 分钟


你的 robots.txt 现在可能正在默默屏蔽帮你带来客户的 AI 爬虫。

这不是假设——我们给 40+ 家 B2B 客户做 GEO 诊断时,超过 60% 的网站都有这个问题:要么全站拦截 AI 爬虫,要么 robots.txt 写错了导致部分页面被意外封锁。这篇文章是我们整理的 2026 年最新配置手册,包含各主要 AI 平台的爬虫名称、正确配置方法,以及我们踩过的坑。


一线操作片段:我们给客户改 robots.txt 时遭遇的麻烦

说起来简单,但实际操作时有几个坑让我们浪费了不少时间。

有一家深圳做企业服务的客户,我们接手时发现他们的 robots.txt 配置里有这样一段:

User-agent: *
Crawl-delay: 10

看起来没问题。但他们同时在 Cloudflare 里开着 Bot Fight Mode,把所有"异常"爬虫流量直接 403 拒掉——包括 GPTBot 和 ClaudeBot。robots.txt 说"允许进来",但 CDN 层直接挡门。两边配置不一致,AI 爬虫收到 403 后直接放弃,不会重试。

我们排查这个问题花了整整一个下午。最后解决方案是在 Cloudflare 里把 GPTBot 和 ClaudeBot 的 IP 段加进 Verified Bots 白名单(OpenAI 和 Anthropic 都公布了自己的 IP 段,见下面的链接)。从修复到首次看到 ChatGPT 开始引用这家客户的内容,大概等了 6 周。

OpenAI GPTBot IP 段:https://openai.com/gptbot-ranges.txt
Anthropic ClaudeBot IP 段:https://www.anthropic.com/robots (页面底部)

时间成本: 排查 + 修复约 4 小时;等待 AI 平台重新爬取约 6 周。提前知道这个坑,可以省掉 4 小时排查时间。


不同情况下的配置策略

并不是所有人都应该"全开"。以下是不同场景的配置建议:

场景 A:完全开放(推荐,面向 GEO)
允许所有主流 AI 爬虫。适合:内容型网站、B2B 企业官网、博客、知识库。只需排除登录区域、后台、私有页面。

场景 B:选择性开放(有版权内容的媒体)
允许 Googlebot 做 SEO,但屏蔽部分 AI 爬虫防止内容被无偿训练。使用方法:针对具体 User-agent 设 Disallow: /,但注意屏蔽 GPTBot 会同时屏蔽 ChatGPT 的索引能力,对 GEO 有直接负面影响。

场景 C:阶段性保护(内测产品、竞争敏感页面)
Disallow: /internal/ 类的路径级屏蔽,不要用全站 Disallow: /。路径级屏蔽更精准,不会误伤产品页、案例页等对 GEO 有价值的内容。


反共识:配置了 robots.txt 不等于 AI 会推荐你

这是我们见到最常见的误解:有人花了一天把 robots.txt 配好,然后等着 AI 开始推荐他们。

等了三个月,还是没有。

原因是:robots.txt 只是允许爬虫进门,但进来之后爬虫看到什么才决定会不会引用你。门开着,但房间里空空如也,或者内容结构让 AI 爬虫无法提取关键实体——这种情况下开门没有意义。

90% 的 GEO 服务商只讲 robots.txt 和 sitemap,这确实是基础。但真正决定 AI 是否推荐你的是:内容里有没有清晰回答"谁是你、做什么、有什么证据"的结构化信息。robots.txt 是必要条件,不是充分条件。


验证你的 robots.txt 配置

配置完成后,用以下方法验证:

  1. Google Search Console → "robots.txt 测试工具",输入具体爬虫名(GPTBotClaudeBot)测试每个页面是否可访问。这是最直观的方法,见:https://search.google.com/search-console

  2. 直接访问:在浏览器打开 https://yoursite.com/robots.txt,确认文件内容是否和你预期一致(有时候缓存或 CDN 会让你看到旧版本)。

  3. OpenAI 官方测试:OpenAI 提供了 GPTBot 的爬取状态检查,可在 OpenAI 平台设置里查看(需有 OpenAI API 账号)。


我们的犯错清单

  • 犯错 1:依赖插件生成的 robots.txt 而不手动核对。Yoast 和 Rank Math 都有自己的 robots.txt 生成逻辑,而且每次插件更新后配置可能被覆盖。我们现在的标准是:robots.txt 必须在 Git 里有版本记录,每次插件更新后跑一遍自动校验脚本。

  • 犯错 2:robots.txt 配置了,但没有提交更新的 sitemap。AI 爬虫靠 robots.txt 知道哪些页面可以访问,但靠 sitemap 发现新页面。如果你发布了新内容但没更新 sitemap,AI 爬虫可能要等到自然周期才能发现——通常比手动提交晚 4-8 周。

  • 犯错 3:把 Crawl-delay 设得太高。我们见过一个设了 Crawl-delay: 30 的网站——30 秒延迟。这不是保护服务器,这是在劝退所有爬虫。大多数 B2B 网站页面数不超过 200 页,不需要 Crawl-delay,或者设 2-3 秒足够。


今天就做这一件事(10 分钟)

打开你的网站:https://yoursite.com/robots.txt,看看里面有没有这两段之一:

User-agent: *
Disallow: /

或者

User-agent: GPTBot
Disallow: /

如果有,这就是你的 GEO 第一个紧急修复项。删掉不必要的 Disallow,参照本文模板重写一版,上传到服务器。

验证工具:https://search.google.com/search-console(免费,直接输入域名即可)


PONT AI | Shenzhen, China | https://pontai.cloud
GEO 全链路优化,技术配置 + 内容创作 + AI 平台覆盖,帮你的官网被 DeepSeek / ChatGPT / Kimi 等 10 个 AI 推荐。


让 AI 替你说话

和AI聊聊