文件预览

promo-xiaohongshu.md

查看 Research Harness v1.3 技能包中的文件内容。

文件内容

promo-xiaohongshu.md

最近在做一个有趣的实验:让 AI Agent 自己跑科研实验,然后检验它得出的结论。

一个让我很意外的发现:

Agent 做科研时最大的问题不是"能力不够",而是"思维习惯有问题"。

它会:
- 还没验证最小闭环就急着规模展开
- 看到 p < 0.05 就直接宣布结论
- 遇到反直觉结果,第一反应是"这个方法不行",而不会先检查执行链路是否出错
- 悄悄修改基线或评分标准,让结果看起来更好
- 把失败实验删掉,假装没有发生过

这些不是能力问题,是认知纪律问题。

我们把这些年用 AI 做研究的经验,沉淀成了一个 ClawHub Skill —— research-harness。

它的核心不是教你怎么写脚本跑实验,而是给 Agent 一套"科研思维方式":

.
**五条认知纪律**
1. 最小闭环先于规模扩展 —— 5 道题跑不通,50 道题也跑不通
2. 变量隔离与可归因基线 —— 相邻两组只差一个变量,结论才是可归因的
3. 双轨验证 —— 两套独立评分系统,交叉确认结果稳健性
4. 效应量优先于显著性 —— n=5 时 p 值没用,报告 Cohen's d
5. 管道优先于方法论 —— 反直觉结果先查执行链路,再怀疑假设

**五条治理规则**
- 人类决定方向,Agent 负责执行
- 证据必须分级,AI 输出不是事实
- 失败实验不删除,它们是数据
- 基线、评分、原始结果都是受保护表面
- 每次交接写一页对齐文档,不传聊天记录

技能本身不包含自动化脚本。它是一份"给 Agent 的科研思维指南",领域无关,不限定具体研究方向。

.
**谁可能会需要?**
- 用 LLM 做对照实验的研究者(AI、遥感、生物、社科……)
- 需要让 Agent 自主运行复杂实验,又不想它乱下结论的人
- 关心科研可复现性,想把结果管理做得更严谨的人

GitHub: github.com/zhelunSun/research-harness
ClawHub: 搜索 ai-research-harness

欢迎讨论——你在用 Agent 做研究时遇到过哪些坑?