文件预览

quality-benchmark.md

查看 Knowledge Retrieval Publish 技能包中的文件内容。

文件内容

references/quality-benchmark.md

# SKILL 质量评估参考标准

> 来自 Zara 的经验标准(2026-05-10 对话记录)。

## 隐式基准线

Zara 评估知识检索 SKILL 效果时的真实对照不是「人类同事的表现」,而是:

1. **同等问题上直接问外部 AI Chatbot 的回答质量**
   - 豆包 → KM SKILL 答案「比豆包好」
   - Gemini → KM SKILL「比 Gemini 稍微弱一些」
   - 但注意:AI Chatbot 可参考全部世界知识,而 KM SKILL 只搜本地知识库
   - 在信息源受限的情况下能达到接近开放模型的水平 → 表现合格

2. **不用「人类的判断力」做标尺** — 知识检索 SKILL 本质是信息检索而非创造性判断,不需要以人类同事水平为目标

## 这对 SKILL 设计的意义

- 质量评估简化了:**同问题的 AI Chatbot 回答做锚点**,比抽象标准更可操作性
- 区分「信息检索型 SKILL」和「创造性判断型 SKILL」的验收标准不同
  - 检索型:对照 AI Chatbot + 命中率 + 信息完整度
  - 判断型:对照人类经验(如 Skills 方法论作者的三轮测试)