文件预览

agent-reading-protocol.md

查看 Article2Book 技能包中的文件内容。

文件内容

references/agent-reading-protocol.md

# Agent 通读素材协议

本文件用于约束 `article2book` 的主流程:在做内容形态判断和成书判断之前,先让 Agent 尽量通读全部候选文本素材。

## 核心原则

1. 不要只看文件名、标题或脚本摘要就下结论。
2. 最终的主题判断、内容形态判断、成书可行性判断和结构映射,应建立在 Agent 已覆盖全部候选文本素材的前提上。
3. 脚本只能用来补路径、查漏和做基础索引,不能替代阅读理解。
4. 当素材很多时,可以使用 subagent 分批并行通读;但最终的母题判断、筛选结论和统稿建议,必须由主 Agent 统一收束。

## 推荐流程

### 1. 先识别可直接阅读的素材范围

优先纳入:

- `.md`
- `.markdown`
- `.mdx`
- `.txt`
- `.srt`
- `.vtt`

对纯视频、音频、图片、扫描件:

- 先转写或 OCR
- 转为可读文本后再纳入主流程

对 `.docx`、`.pdf`:

- 先标记为需预处理素材
- 能提取正文时再纳入通读
- 无法提取时,不要仅凭文件名判断内容价值

### 2. 分批通读,不要一上来就凭印象聚类

如果素材较多,建议按批次处理:

- `1-20` 份为第一批
- `21-40` 份为第二批
- 依此类推

每批完成后,都要形成阶段性笔记,避免只凭短时记忆做判断。

如果采用 subagent 并行阅读:

- 每个 subagent 只负责一批素材
- 返回的内容应尽量简短,只保留判断所需字段
- 主 Agent 统一汇总,避免不同批次口径不一致

## 每份素材至少记录的内容

建议用如下字段:

| 字段 | 说明 |
|------|------|
| 文件路径 | 便于回溯 |
| 标题 | 可用原标题,也可补临时标题 |
| 一句话摘要 | 这份素材主要在讲什么 |
| 核心问题 | 它在回答什么问题 |
| 关键判断 | 这份素材真正有价值的观点是什么 |
| 深度判断 | 高 / 中 / 低 |
| 建议去向 | 主章节 / 课程单元 / 手册条目 / 知识库条目 / 案例 / 附录 / 移出 |
| 可能形态 | 成书 / 小册子 / 课程 / 系列文章 / 实务手册 / 知识库 |
| 风险提示 | 时效性 / 重复 / 口语化 / 观点过散 |
| 筛选结论 | 保留 / 降权 / 排除 |
| 理由 | 为什么这样判断 |

## 推荐输出

通读阶段默认只需要形成内部阅读依据,不必自动公开输出太多文件。

建议优先级如下:

1. **默认**:把通读结论直接压缩进 `书稿策划意见.md`
2. **可选**:当素材很多或需要留痕时,再生成 `processed/agent_reading_notes.md`

`processed/agent_reading_notes.md` 不需要过度工整,但应足够支撑后续主题聚类、内容形态判断、目录设计和删改判断。

## 注意事项

1. 如果某份素材明显与主线无关,也要先读完再移出,而不是只凭标题排除。
2. 如果逐字稿口语化很强,重点看其中是否已有可重组的论证顺序、案例素材和章节雏形。
3. 如果多个素材重复表达同一个判断,先各自读完,再决定保留哪个最强版本。
4. 如果素材较老,不要直接排除;先判断它是否仍承载母题、框架或关键转折。
5. 第二阶段如果要直接生成全书、课程、手册或知识库初稿,主 Agent 应优先保留足够的阅读依据供统稿时回看,但这些依据不一定都要公开给用户。