GEO.FanGEO.Fan
技术配置

llms.txt 与 AI 爬虫配置

让 AI 引擎能正确发现、抓取、引用你的内容 —— llms.txt 标准与 robots.txt 配置指南

TL;DR:要被 AI 引擎引用,先确保两件事——AI 爬虫没被你的 robots.txt 屏蔽,以及你提供了 llms.txt / llms-full.txt 让 AI 快速理解站点结构。两者都是技术配置,每件半天可做完,是 GEO 的"地基"。

一、AI 爬虫白名单(robots.txt)

很多站点用通用规则 User-agent: * 限制了大量爬虫,把 AI 爬虫一并误伤。AI 引擎无法抓取你的内容,就不可能引用。

主流 AI 爬虫 User-Agent 清单

爬虫User-Agent来源用途
GPTBotGPTBotOpenAI训练 GPT 模型
OAI-SearchBotOAI-SearchBotOpenAI为 ChatGPT 搜索/引用提供实时索引
ChatGPT-UserChatGPT-UserOpenAI用户在 ChatGPT 内主动访问页面时使用
ClaudeBotClaudeBotAnthropic训练 Claude 模型
Claude-SearchBotClaude-SearchBotAnthropicClaude 实时搜索
Claude-UserClaude-UserAnthropicClaude 用户主动访问
PerplexityBotPerplexityBotPerplexityPerplexity 搜索索引
Perplexity-UserPerplexity-UserPerplexityPerplexity 用户访问
Google-ExtendedGoogle-ExtendedGoogle控制是否被 Gemini 训练
GooglebotGooglebotGoogleGoogle 搜索(含 AI Overviews 输入)
BingbotBingbotMicrosoftBing 搜索(含 Copilot 输入)
Applebot-ExtendedApplebot-ExtendedApple控制是否被 Apple Intelligence 训练
BytespiderBytespiderByteDance豆包 / 字节系 AI
AmazonbotAmazonbotAmazonAlexa / Amazon 系 AI
Meta-ExternalAgentMeta-ExternalAgentMetaMeta AI

推荐的 robots.txt 模板

# 公共内容默认允许所有爬虫
User-agent: *
Allow: /

# 明确允许主流 AI 爬虫(即使上方默认允许,写出来更稳)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# 屏蔽不需要被抓取的路径(示例)
User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

区分"训练"和"实时检索"

不同 bot 用途不同,可分别处理:

  • 训练用 botGPTBotClaudeBotGoogle-ExtendedApplebot-Extended)—— 决定你的内容是否成为模型权重的一部分。如果担心版权,可以选择性 Disallow
  • 实时检索用 botOAI-SearchBotClaude-SearchBotPerplexityBotChatGPT-UserBingbot)—— 这些是"AI 答案出现时实时去抓你的页面"的 bot,几乎不应该屏蔽,否则 AI 答案里你的内容永远拿不到引用。

二、llms.txt 标准

llms.txt 是 2024 年 9 月由 Jeremy Howard 提出的提案:放在站根的 markdown 文件,作为"AI 专用的 sitemap + 内容索引"。

到 2026 年,Anthropic、Vercel、Cursor、Mintlify、LangGraph 等开发者工具站都已部署。主流 LLM 提供方还没正式承诺消费这个文件,但 IDE / agent 生态(如 Claude Code、Cursor)已经实际在用。

llms.txt vs llms-full.txt

业内主流做法是同时提供两份

文件内容用途
/llms.txt一个索引:站点简介 + 每个重要页面的标题、URL、一句话描述让 AI 快速判断哪个页面相关,再去抓具体内容
/llms-full.txt全文拼接:所有重要页面的 markdown 正文打包让 AI 一次性吃下完整知识,省去多次抓取

llms.txt 格式规范

最小可用结构(参考 llmstxt.org 官方规范):

# 站点名称

> 一段话描述这个站点是做什么的,定位是什么。

可选的额外背景介绍。

## 文档

- [页面标题](https://example.com/path/): 一句话描述这个页面讲什么
- [另一个页面](https://example.com/another/): 描述

## 工具

- [工具页](https://example.com/tools/x/): 描述

## 可选

- [低优先级页面](https://example.com/extra/): 描述
  • 一级标题(#):站点名
  • 引述(>):站点定位 / 一句话简介
  • 二级标题(##):内容分组
  • 列表项:每条形如 [标题](URL): 描述
  • ## 可选 是约定的特殊分组,AI 可以跳过

部署建议

  1. 手写或脚本生成:内容量少手写即可;多了就在构建时根据 frontmatter 生成
  2. 保持新鲜:每次发布新内容时同步更新
  3. 与 sitemap.xml 并存:不替代,是补充
  4. 路径固定:必须放在 /llms.txt,不要放别处

这个站做的事

geo.fan 已经部署两份文件,可作为参考:

三、/.well-known/ai.txt(并行标准)

ai.txt 是和 llms.txt 并行涌现的另一个提案,路径在 /.well-known/ai.txt(参考 RFC 8615 well-known URI 规范)。设计上更偏向结构化"AI 政策声明"——告诉 AI 爬虫"哪些数据允许什么用途"。

格式比 robots.txt 更细,举例:

# /.well-known/ai.txt
User-agent: *
Disallow-Training: /private/
Allow-Search: /
Allow-Summarization: /
Attribution-Required: true
Contact: mail@example.com

到 2026 年这一标准仍未被主流 LLM 厂商正式承诺消费,但已有部分站点(Anthropic、几家媒体)部署。建议:

  • 不冲突,可部署:成本很低,跟 llms.txt 并存即可
  • 不要替代 robots.txt:合规性还是看 robots.txt + 各厂商各自的政策
  • 不要写入敏感信息:这是公开文件

四、sameAs —— 让 AI 把你识别为已知实体

不在 robots/llms.txt 层级,但属于"技术地基"的姊妹设置:在站点的 Organization / Person JSON-LD 里加 sameAs,链到外部权威实体库。

最值得加的:

"sameAs": [
  "https://www.wikidata.org/wiki/Q...",     // 最重要
  "https://www.linkedin.com/company/...",
  "https://www.crunchbase.com/organization/...",
  "https://github.com/...",
  "https://www.g2.com/products/..."
]

AI 爬虫读到 sameAs 后能把"网站上自称叫 X 的实体"和"Wikidata Q12345 这条目"匹配上——这是 entity resolution 的关键一步。详见 内容策略 → sameAs 实体链接

五、其他技术地基

SSR 必备

AI 爬虫普遍不执行 JavaScript,或执行成本远高于抓取静态 HTML。如果关键内容只在 JS 渲染后出现(典型的 CSR SPA),AI 看到的就是一片空白。

  • 文档站、内容站:直接 SSG / SSR,最稳
  • 重交互应用:把"内容主体"用 SSR 输出,"交互层"用 JS 增强
  • 检测方法:curl -A "GPTBot" https://your-site/page 看返回的 HTML 里有没有正文

不要把内容藏在登录墙后

需要付费 / 登录的内容,AI 引擎拿不到,自然不会引用。如果一定要做付费墙,至少提供"摘要 + 关键结论"的免费版本作为引流。

服务器不要错误地 4xx/5xx 拒绝 AI bot

部分 CDN(Cloudflare、Akamai)的默认 bot 防护规则会把 AI 爬虫识别成恶意流量并返回 403。请检查并显式放行上面列出的 User-Agent。

检查清单

发布前对照:

  • /robots.txt 显式允许 OAI-SearchBotPerplexityBotClaude-SearchBotBingbot
  • /llms.txt 存在且包含站点简介 + 主要页面索引
  • /llms-full.txt 存在且为最新(可选但推荐)
  • 关键页面 SSR / SSG,curl -A "GPTBot" <URL> 返回完整 HTML
  • CDN / WAF 没有把 AI bot 当攻击流量拦截
  • sitemap.xml 包含所有应被发现的页面

相关阅读

GEO.Fan

GEO.Fan —— 让你的内容被 AI 引擎信任和引用

© 2026 GEO.Fan