文件预览

promo-xiaohongshu.md

查看 Research Harness v1.3 技能包中的文件内容。

返回技能详情下载技能包打开来源页

文件内容

promo-xiaohongshu.md

最近在做一个有趣的实验：让 AI Agent 自己跑科研实验，然后检验它得出的结论。

一个让我很意外的发现：

Agent 做科研时最大的问题不是"能力不够"，而是"思维习惯有问题"。

它会：
- 还没验证最小闭环就急着规模展开
- 看到 p < 0.05 就直接宣布结论
- 遇到反直觉结果，第一反应是"这个方法不行"，而不会先检查执行链路是否出错
- 悄悄修改基线或评分标准，让结果看起来更好
- 把失败实验删掉，假装没有发生过

这些不是能力问题，是认知纪律问题。

我们把这些年用 AI 做研究的经验，沉淀成了一个 ClawHub Skill —— research-harness。

它的核心不是教你怎么写脚本跑实验，而是给 Agent 一套"科研思维方式"：

.
**五条认知纪律**
1. 最小闭环先于规模扩展 —— 5 道题跑不通，50 道题也跑不通
2. 变量隔离与可归因基线 —— 相邻两组只差一个变量，结论才是可归因的
3. 双轨验证 —— 两套独立评分系统，交叉确认结果稳健性
4. 效应量优先于显著性 —— n=5 时 p 值没用，报告 Cohen's d
5. 管道优先于方法论 —— 反直觉结果先查执行链路，再怀疑假设

**五条治理规则**
- 人类决定方向，Agent 负责执行
- 证据必须分级，AI 输出不是事实
- 失败实验不删除，它们是数据
- 基线、评分、原始结果都是受保护表面
- 每次交接写一页对齐文档，不传聊天记录

技能本身不包含自动化脚本。它是一份"给 Agent 的科研思维指南"，领域无关，不限定具体研究方向。

.
**谁可能会需要？**
- 用 LLM 做对照实验的研究者（AI、遥感、生物、社科……）
- 需要让 Agent 自主运行复杂实验，又不想它乱下结论的人
- 关心科研可复现性，想把结果管理做得更严谨的人

GitHub: github.com/zhelunSun/research-harness
ClawHub: 搜索 ai-research-harness

欢迎讨论——你在用 Agent 做研究时遇到过哪些坑？