文件预览

quality-benchmark.md

查看 Knowledge Retrieval Publish 技能包中的文件内容。

返回技能详情下载技能包打开来源页

文件内容

references/quality-benchmark.md

# SKILL 质量评估参考标准

> 来自 Zara 的经验标准（2026-05-10 对话记录）。

## 隐式基准线

Zara 评估知识检索 SKILL 效果时的真实对照不是「人类同事的表现」，而是：

1. **同等问题上直接问外部 AI Chatbot 的回答质量**
   - 豆包 → KM SKILL 答案「比豆包好」
   - Gemini → KM SKILL「比 Gemini 稍微弱一些」
   - 但注意：AI Chatbot 可参考全部世界知识，而 KM SKILL 只搜本地知识库
   - 在信息源受限的情况下能达到接近开放模型的水平 → 表现合格

2. **不用「人类的判断力」做标尺** — 知识检索 SKILL 本质是信息检索而非创造性判断，不需要以人类同事水平为目标

## 这对 SKILL 设计的意义

- 质量评估简化了：**同问题的 AI Chatbot 回答做锚点**，比抽象标准更可操作性
- 区分「信息检索型 SKILL」和「创造性判断型 SKILL」的验收标准不同
  - 检索型：对照 AI Chatbot + 命中率 + 信息完整度
  - 判断型：对照人类经验（如 Skills 方法论作者的三轮测试）