文件内容
references/quality-benchmark.md
# SKILL 质量评估参考标准
> 来自 Zara 的经验标准(2026-05-10 对话记录)。
## 隐式基准线
Zara 评估知识检索 SKILL 效果时的真实对照不是「人类同事的表现」,而是:
1. **同等问题上直接问外部 AI Chatbot 的回答质量**
- 豆包 → KM SKILL 答案「比豆包好」
- Gemini → KM SKILL「比 Gemini 稍微弱一些」
- 但注意:AI Chatbot 可参考全部世界知识,而 KM SKILL 只搜本地知识库
- 在信息源受限的情况下能达到接近开放模型的水平 → 表现合格
2. **不用「人类的判断力」做标尺** — 知识检索 SKILL 本质是信息检索而非创造性判断,不需要以人类同事水平为目标
## 这对 SKILL 设计的意义
- 质量评估简化了:**同问题的 AI Chatbot 回答做锚点**,比抽象标准更可操作性
- 区分「信息检索型 SKILL」和「创造性判断型 SKILL」的验收标准不同
- 检索型:对照 AI Chatbot + 命中率 + 信息完整度
- 判断型:对照人类经验(如 Skills 方法论作者的三轮测试)