性能分析
用业界标准 KPI 跟踪内容在生成式 AI 引擎中的长期表现,定位波动来源并指导下一轮迭代
TL;DR:GEO 性能监控的核心是回答"在 ChatGPT / Claude / Gemini / Perplexity / Google AI Overviews 里,我的内容被引用了多少次、占主流答案的多大份额"。2026 年业内已收敛出五个标准 KPI(Mention Rate / Citation Rate / Share of Voice / Share of Answer / Position),用统一指标说话,跨平台对比、跨周对比才有意义。
五个标准 KPI
业内(Search Engine Land、GenOptima、Averi、LLM Pulse 等)已基本统一以下命名:
1. Mention Rate(提及率)
在测试 prompt 集中,AI 答案"提到"你的品牌 / 内容的比例(含纯文字提及,不一定带链接)。
Mention Rate = 提到你的回答数 ÷ 总查询数 × 100%例:在 30 个测试 prompt 中,AI 答案里出现"GEO.Fan"字样的有 6 次 → Mention Rate = 20%。
2. Citation Rate(引用率)
在测试 prompt 集中,AI 答案附带可点击链接指向你的域名的比例。比 Mention Rate 含金量更高,直接带流量。
Citation Rate = 包含你域名链接的回答数 ÷ 总查询数 × 100%3. Share of Voice(声量份额,SoV)
在同一类查询里,你的品牌提及占所有品牌提及的比例。是和竞争对手对比的核心指标。
SoV = 你的品牌提及数 ÷ 同类别全部品牌提及数 × 100%4. Share of Answer(答案份额,SoA)
被引用时,你的内容在 AI 生成的答案文本里占多大比例(字数 / token 数)。衡量"AI 是顺手提一句还是大段引用你"。
SoA = 引用你的段落字数 ÷ 答案总字数 × 100%5. Position(引用位置)
被引用时,你在 AI 答案的引用列表里排第几。和搜索排名类似,但样本数小、波动大。
测试 prompt 集设计
KPI 只有在固定 prompt 集上才能稳定对比。建议:
- 覆盖:20–30 个 prompt,覆盖你目标读者最可能问的问题
- 分组:信息型("什么是 X")、比较型("X vs Y")、操作型("如何做 X")、推荐型("X 推荐")各占四分之一
- 稳定:prompt 集一旦确定,至少跑 3 个月不变,避免对比基线漂移
- 更新:每季度评审一次 prompt 集,淘汰过时问题、加入新热点
平台覆盖
最少应覆盖五个流量入口(每个引擎独立采样):
| 平台 | 类型 | 优先级 |
|---|---|---|
| ChatGPT(含 Search) | 对话型 AI + AI 搜索 | P0 |
| Claude | 对话型 AI | P0 |
| Perplexity | AI 搜索 | P0 |
| Google AI Overviews / AI Mode | 搜索 AI 摘要 | P0 |
| Gemini | 对话型 AI | P1 |
| Copilot(Bing) | 对话型 AI + 搜索 | P1 |
| Qwen / 豆包 / 文心一言 / Kimi | 中文对话型 AI | 中文站 P0 |
每个引擎的引用偏好不同:
- ChatGPT 更看重权威来源 + 结构化论证
- Claude 偏好深度、长上下文、引用清晰、原创见解
- Gemini / Google AI Overviews 与 Google 搜索结果耦合最紧,传统 SEO 信号仍有效
- Perplexity 引用机制最透明,强结构化 + 多引用密度的内容受益最大
- Copilot 与 Bing 索引一致
- Qwen / 中文 AI 对中文资料、本地化场景更敏感
采样方法与节奏
| 角色 | 频率 | 操作 |
|---|---|---|
| 个人 / 小团队 | 每月 1 次 | 手动跑 prompt 集,电子表格记录 |
| 中型团队 | 每周 1 次 | 半自动脚本 + 月度复盘 |
| 企业 | 每日 / 实时 | 商用工具(如 Profound、LLMrefs、Superlines、Pulse)或自建 |
最小可行流程(每月):
- 在每个目标引擎里,逐条问完 prompt 集
- 记录:是否提到品牌、是否带链接、引用位置、被引用段落字数
- 计算五个 KPI
- 与上月对比,找出波动最大的 prompt
- 形成"本月 3–5 个优先优化页面"的清单
行业基准(参考用)
只看自己的数字不够,得知道"正常水平"是什么样。下面几个公开数据点可作为基准对照:
| 基准 | 数值 | 来源 |
|---|---|---|
| 知乎在中文 AI 答案中的引用率 | 29.9% | IT 之家 2026 |
| Reddit 在英文 AI 答案中的引用率 | 40.1% | SparkToro 2025 |
| 内容出现在 4+ 平台时被引用概率 | ×2.8 | KDD 2024 |
| 不同 GPT 版本间的引用重叠率 | 仅 7% | Writesonic 2025 LLM Citation Study |
| AI 引用访客转化率 vs 普通搜索 | 4.4–23× | BrightEdge 2025 |
| Google AI Overviews 上线一年 CTR 变化 | -30%(搜索量 +49%) | BrightEdge 2025 |
含义:
- 多平台分发是放大器——同一篇内容只要在 4 个以上权威平台出现(知乎答案 + 公众号 + 个人站 + 行业媒体),引用概率近 3 倍
- 不要把"在 ChatGPT 里被引"等同于"在 GPT-4 / GPT-5 里都被引"——版本间引用偏好差异极大
- AI 流量虽小但金贵——单个 AI 引用访客的转化等价于 4–23 个普通搜索访客
详细数据出处见资源中心。
典型异常模式
| 现象 | 可能原因 | 建议动作 |
|---|---|---|
| Mention Rate 全平台下滑 | AI 引擎模型升级 / 训练数据切换 | 等待 1–2 周观察,无好转则全站抽样重检 |
| 单页 Citation Rate 骤降 | 内容被改动、外链失效、被举报 | 回滚或重写该页 |
| 单引擎 SoV 下滑 | 该引擎策略调整 | 针对该引擎特性做定向优化 |
| Position 下移 | 竞品发布了更优内容 | 跑 竞品分析,对照补强 |
| 缓慢爬升 | 健康状态 | 维持当前策略 |
| Mention 高但 Citation 低 | AI 提到你但不带链接 | 加强结构化引用源(schema.org、明确的 canonical) |
报告节奏建议
- 每周:扫一眼大盘 Mention Rate / Citation Rate,无异常即可
- 每月:完整 review 五个 KPI,定下个月 3–5 个优化页面
- 每季度:策略复盘,调整 prompt 集与内容选题方向