llms.txt 与 AI 爬虫配置
让 AI 引擎能正确发现、抓取、引用你的内容 —— llms.txt 标准与 robots.txt 配置指南
TL;DR:要被 AI 引擎引用,先确保两件事——AI 爬虫没被你的 robots.txt 屏蔽,以及你提供了 llms.txt / llms-full.txt 让 AI 快速理解站点结构。两者都是技术配置,每件半天可做完,是 GEO 的"地基"。
一、AI 爬虫白名单(robots.txt)
很多站点用通用规则 User-agent: * 限制了大量爬虫,把 AI 爬虫一并误伤。AI 引擎无法抓取你的内容,就不可能引用。
主流 AI 爬虫 User-Agent 清单
| 爬虫 | User-Agent | 来源 | 用途 |
|---|---|---|---|
| GPTBot | GPTBot | OpenAI | 训练 GPT 模型 |
| OAI-SearchBot | OAI-SearchBot | OpenAI | 为 ChatGPT 搜索/引用提供实时索引 |
| ChatGPT-User | ChatGPT-User | OpenAI | 用户在 ChatGPT 内主动访问页面时使用 |
| ClaudeBot | ClaudeBot | Anthropic | 训练 Claude 模型 |
| Claude-SearchBot | Claude-SearchBot | Anthropic | Claude 实时搜索 |
| Claude-User | Claude-User | Anthropic | Claude 用户主动访问 |
| PerplexityBot | PerplexityBot | Perplexity | Perplexity 搜索索引 |
| Perplexity-User | Perplexity-User | Perplexity | Perplexity 用户访问 |
| Google-Extended | Google-Extended | 控制是否被 Gemini 训练 | |
| Googlebot | Googlebot | Google 搜索(含 AI Overviews 输入) | |
| Bingbot | Bingbot | Microsoft | Bing 搜索(含 Copilot 输入) |
| Applebot-Extended | Applebot-Extended | Apple | 控制是否被 Apple Intelligence 训练 |
| Bytespider | Bytespider | ByteDance | 豆包 / 字节系 AI |
| Amazonbot | Amazonbot | Amazon | Alexa / Amazon 系 AI |
| Meta-ExternalAgent | Meta-ExternalAgent | Meta | Meta AI |
推荐的 robots.txt 模板
# 公共内容默认允许所有爬虫
User-agent: *
Allow: /
# 明确允许主流 AI 爬虫(即使上方默认允许,写出来更稳)
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# 屏蔽不需要被抓取的路径(示例)
User-agent: *
Disallow: /admin/
Disallow: /api/
Sitemap: https://example.com/sitemap.xml区分"训练"和"实时检索"
不同 bot 用途不同,可分别处理:
- 训练用 bot(
GPTBot、ClaudeBot、Google-Extended、Applebot-Extended)—— 决定你的内容是否成为模型权重的一部分。如果担心版权,可以选择性Disallow。 - 实时检索用 bot(
OAI-SearchBot、Claude-SearchBot、PerplexityBot、ChatGPT-User、Bingbot)—— 这些是"AI 答案出现时实时去抓你的页面"的 bot,几乎不应该屏蔽,否则 AI 答案里你的内容永远拿不到引用。
二、llms.txt 标准
llms.txt 是 2024 年 9 月由 Jeremy Howard 提出的提案:放在站根的 markdown 文件,作为"AI 专用的 sitemap + 内容索引"。
到 2026 年,Anthropic、Vercel、Cursor、Mintlify、LangGraph 等开发者工具站都已部署。主流 LLM 提供方还没正式承诺消费这个文件,但 IDE / agent 生态(如 Claude Code、Cursor)已经实际在用。
llms.txt vs llms-full.txt
业内主流做法是同时提供两份:
| 文件 | 内容 | 用途 |
|---|---|---|
/llms.txt | 一个索引:站点简介 + 每个重要页面的标题、URL、一句话描述 | 让 AI 快速判断哪个页面相关,再去抓具体内容 |
/llms-full.txt | 全文拼接:所有重要页面的 markdown 正文打包 | 让 AI 一次性吃下完整知识,省去多次抓取 |
llms.txt 格式规范
最小可用结构(参考 llmstxt.org 官方规范):
# 站点名称
> 一段话描述这个站点是做什么的,定位是什么。
可选的额外背景介绍。
## 文档
- [页面标题](https://example.com/path/): 一句话描述这个页面讲什么
- [另一个页面](https://example.com/another/): 描述
## 工具
- [工具页](https://example.com/tools/x/): 描述
## 可选
- [低优先级页面](https://example.com/extra/): 描述- 一级标题(
#):站点名 - 引述(
>):站点定位 / 一句话简介 - 二级标题(
##):内容分组 - 列表项:每条形如
[标题](URL): 描述 ## 可选是约定的特殊分组,AI 可以跳过
部署建议
- 手写或脚本生成:内容量少手写即可;多了就在构建时根据 frontmatter 生成
- 保持新鲜:每次发布新内容时同步更新
- 与 sitemap.xml 并存:不替代,是补充
- 路径固定:必须放在
/llms.txt,不要放别处
这个站做的事
geo.fan 已经部署两份文件,可作为参考:
三、/.well-known/ai.txt(并行标准)
ai.txt 是和 llms.txt 并行涌现的另一个提案,路径在 /.well-known/ai.txt(参考 RFC 8615 well-known URI 规范)。设计上更偏向结构化"AI 政策声明"——告诉 AI 爬虫"哪些数据允许什么用途"。
格式比 robots.txt 更细,举例:
# /.well-known/ai.txt
User-agent: *
Disallow-Training: /private/
Allow-Search: /
Allow-Summarization: /
Attribution-Required: true
Contact: mail@example.com到 2026 年这一标准仍未被主流 LLM 厂商正式承诺消费,但已有部分站点(Anthropic、几家媒体)部署。建议:
- 不冲突,可部署:成本很低,跟
llms.txt并存即可 - 不要替代
robots.txt:合规性还是看 robots.txt + 各厂商各自的政策 - 不要写入敏感信息:这是公开文件
四、sameAs —— 让 AI 把你识别为已知实体
不在 robots/llms.txt 层级,但属于"技术地基"的姊妹设置:在站点的 Organization / Person JSON-LD 里加 sameAs,链到外部权威实体库。
最值得加的:
"sameAs": [
"https://www.wikidata.org/wiki/Q...", // 最重要
"https://www.linkedin.com/company/...",
"https://www.crunchbase.com/organization/...",
"https://github.com/...",
"https://www.g2.com/products/..."
]AI 爬虫读到 sameAs 后能把"网站上自称叫 X 的实体"和"Wikidata Q12345 这条目"匹配上——这是 entity resolution 的关键一步。详见 内容策略 → sameAs 实体链接。
五、其他技术地基
SSR 必备
AI 爬虫普遍不执行 JavaScript,或执行成本远高于抓取静态 HTML。如果关键内容只在 JS 渲染后出现(典型的 CSR SPA),AI 看到的就是一片空白。
- 文档站、内容站:直接 SSG / SSR,最稳
- 重交互应用:把"内容主体"用 SSR 输出,"交互层"用 JS 增强
- 检测方法:
curl -A "GPTBot" https://your-site/page看返回的 HTML 里有没有正文
不要把内容藏在登录墙后
需要付费 / 登录的内容,AI 引擎拿不到,自然不会引用。如果一定要做付费墙,至少提供"摘要 + 关键结论"的免费版本作为引流。
服务器不要错误地 4xx/5xx 拒绝 AI bot
部分 CDN(Cloudflare、Akamai)的默认 bot 防护规则会把 AI 爬虫识别成恶意流量并返回 403。请检查并显式放行上面列出的 User-Agent。
检查清单
发布前对照:
-
/robots.txt显式允许OAI-SearchBot、PerplexityBot、Claude-SearchBot、Bingbot -
/llms.txt存在且包含站点简介 + 主要页面索引 -
/llms-full.txt存在且为最新(可选但推荐) - 关键页面 SSR / SSG,
curl -A "GPTBot" <URL>返回完整 HTML - CDN / WAF 没有把 AI bot 当攻击流量拦截
-
sitemap.xml包含所有应被发现的页面
相关阅读
- GEO 检测工具
- 内容策略最佳实践
- 外部规范:llmstxt.org