llms.txt 与 AI 爬虫配置

让 AI 引擎能正确发现、抓取、引用你的内容 —— llms.txt 标准与 robots.txt 配置指南

TL;DR：要被 AI 引擎引用，先确保两件事——AI 爬虫没被你的 robots.txt 屏蔽，以及你提供了 llms.txt / llms-full.txt 让 AI 快速理解站点结构。两者都是技术配置，每件半天可做完，是 GEO 的"地基"。

一、AI 爬虫白名单（robots.txt）

很多站点用通用规则 User-agent: * 限制了大量爬虫，把 AI 爬虫一并误伤。AI 引擎无法抓取你的内容，就不可能引用。

主流 AI 爬虫 User-Agent 清单

爬虫	User-Agent	来源	用途
GPTBot	`GPTBot`	OpenAI	训练 GPT 模型
OAI-SearchBot	`OAI-SearchBot`	OpenAI	为 ChatGPT 搜索/引用提供实时索引
ChatGPT-User	`ChatGPT-User`	OpenAI	用户在 ChatGPT 内主动访问页面时使用
ClaudeBot	`ClaudeBot`	Anthropic	训练 Claude 模型
Claude-SearchBot	`Claude-SearchBot`	Anthropic	Claude 实时搜索
Claude-User	`Claude-User`	Anthropic	Claude 用户主动访问
PerplexityBot	`PerplexityBot`	Perplexity	Perplexity 搜索索引
Perplexity-User	`Perplexity-User`	Perplexity	Perplexity 用户访问
Google-Extended	`Google-Extended`	Google	控制是否被 Gemini 训练
Googlebot	`Googlebot`	Google	Google 搜索（含 AI Overviews 输入）
Bingbot	`Bingbot`	Microsoft	Bing 搜索（含 Copilot 输入）
Applebot-Extended	`Applebot-Extended`	Apple	控制是否被 Apple Intelligence 训练
Bytespider	`Bytespider`	ByteDance	豆包 / 字节系 AI
Amazonbot	`Amazonbot`	Amazon	Alexa / Amazon 系 AI
Meta-ExternalAgent	`Meta-ExternalAgent`	Meta	Meta AI

区分"训练"和"实时检索"

不同 bot 用途不同，可分别处理：

训练用 bot（GPTBot、ClaudeBot、Google-Extended、Applebot-Extended）—— 决定你的内容是否成为模型权重的一部分。如果担心版权，可以选择性 Disallow。
实时检索用 bot（OAI-SearchBot、Claude-SearchBot、PerplexityBot、ChatGPT-User、Bingbot）—— 这些是"AI 答案出现时实时去抓你的页面"的 bot，几乎不应该屏蔽，否则 AI 答案里你的内容永远拿不到引用。

二、llms.txt 标准

llms.txt 是 2024 年 9 月由 Jeremy Howard 提出的提案：放在站根的 markdown 文件，作为"AI 专用的 sitemap + 内容索引"。

到 2026 年，Anthropic、Vercel、Cursor、Mintlify、LangGraph 等开发者工具站都已部署。主流 LLM 提供方还没正式承诺消费这个文件，但 IDE / agent 生态（如 Claude Code、Cursor）已经实际在用。

llms.txt vs llms-full.txt

业内主流做法是同时提供两份：

文件	内容	用途
`/llms.txt`	一个索引：站点简介 + 每个重要页面的标题、URL、一句话描述	让 AI 快速判断哪个页面相关，再去抓具体内容
`/llms-full.txt`	全文拼接：所有重要页面的 markdown 正文打包	让 AI 一次性吃下完整知识，省去多次抓取

llms.txt 格式规范

最小可用结构（参考 llmstxt.org 官方规范）：

# 站点名称

> 一段话描述这个站点是做什么的，定位是什么。

可选的额外背景介绍。

## 文档

- [页面标题](https://example.com/path/): 一句话描述这个页面讲什么
- [另一个页面](https://example.com/another/): 描述

## 工具

- [工具页](https://example.com/tools/x/): 描述

## 可选

- [低优先级页面](https://example.com/extra/): 描述

一级标题（#）：站点名
引述（>）：站点定位 / 一句话简介
二级标题（##）：内容分组
列表项：每条形如 [标题](URL): 描述
## 可选 是约定的特殊分组，AI 可以跳过

部署建议

手写或脚本生成：内容量少手写即可；多了就在构建时根据 frontmatter 生成
保持新鲜：每次发布新内容时同步更新
与 sitemap.xml 并存：不替代，是补充
路径固定：必须放在 /llms.txt，不要放别处

这个站做的事

geo.fan 已经部署两份文件，可作为参考：

三、`/.well-known/ai.txt`（并行标准）

ai.txt 是和 llms.txt 并行涌现的另一个提案，路径在 /.well-known/ai.txt（参考 RFC 8615 well-known URI 规范）。设计上更偏向结构化"AI 政策声明"——告诉 AI 爬虫"哪些数据允许什么用途"。

格式比 robots.txt 更细，举例：

# /.well-known/ai.txt
User-agent: *
Disallow-Training: /private/
Allow-Search: /
Allow-Summarization: /
Attribution-Required: true
Contact: mail@example.com

到 2026 年这一标准仍未被主流 LLM 厂商正式承诺消费，但已有部分站点（Anthropic、几家媒体）部署。建议：

不冲突，可部署：成本很低，跟 llms.txt 并存即可
不要替代 robots.txt：合规性还是看 robots.txt + 各厂商各自的政策
不要写入敏感信息：这是公开文件

四、`sameAs` —— 让 AI 把你识别为已知实体

不在 robots/llms.txt 层级，但属于"技术地基"的姊妹设置：在站点的 Organization / Person JSON-LD 里加 sameAs，链到外部权威实体库。

最值得加的：

"sameAs": [
  "https://www.wikidata.org/wiki/Q...",     // 最重要
  "https://www.linkedin.com/company/...",
  "https://www.crunchbase.com/organization/...",
  "https://github.com/...",
  "https://www.g2.com/products/..."
]

AI 爬虫读到 sameAs 后能把"网站上自称叫 X 的实体"和"Wikidata Q12345 这条目"匹配上——这是 entity resolution 的关键一步。详见内容策略 → sameAs 实体链接。

五、其他技术地基

SSR 必备

AI 爬虫普遍不执行 JavaScript，或执行成本远高于抓取静态 HTML。如果关键内容只在 JS 渲染后出现（典型的 CSR SPA），AI 看到的就是一片空白。

文档站、内容站：直接 SSG / SSR，最稳
重交互应用：把"内容主体"用 SSR 输出，"交互层"用 JS 增强
检测方法：curl -A "GPTBot" https://your-site/page 看返回的 HTML 里有没有正文

/robots.txt 显式允许 OAI-SearchBot、PerplexityBot、Claude-SearchBot、Bingbot
/llms.txt 存在且包含站点简介 + 主要页面索引
/llms-full.txt 存在且为最新（可选但推荐）
关键页面 SSR / SSG，curl -A "GPTBot" <URL> 返回完整 HTML
CDN / WAF 没有把 AI bot 当攻击流量拦截
sitemap.xml 包含所有应被发现的页面

llms.txt 与 AI 爬虫配置

一、AI 爬虫白名单（robots.txt）

主流 AI 爬虫 User-Agent 清单

推荐的 robots.txt 模板

区分"训练"和"实时检索"

二、llms.txt 标准

llms.txt vs llms-full.txt

llms.txt 格式规范

部署建议

这个站做的事

三、`/.well-known/ai.txt`（并行标准）

四、`sameAs` —— 让 AI 把你识别为已知实体

五、其他技术地基

SSR 必备

不要把内容藏在登录墙后

服务器不要错误地 4xx/5xx 拒绝 AI bot

检查清单

相关阅读

On this page