AI AGENT SKILLS

GPA Genomic Phenotype Association

一个面向 Data & APIs 场景的 Agent 技能。原始说明:GPA (Genomic Phenotype Association) v0.8.0。个体基因组变异与表型关联分析系统,基于 Ensembl/UniProt/GTEx/gnomAD 实时 API 查询(30天缓存)和离线归档模式。组织上下文自适应:通用、造血、心血管、肝脏、肾脏、神经系统。支持 germline(...

SKILL.md

SKILL.md


name: gpa-genomic-phenotype
description: |
GPA (Genomic Phenotype Association) v0.8.0。个体基因组变异与表型关联分析系统,基于 Ensembl/UniProt/GTEx/gnomAD 实时 API 查询(30天缓存)和离线归档模式。组织上下文自适应:通用、造血、心血管、肝脏、肾脏、神经系统。支持 germline(疾病遗传风险)和 somatic(肿瘤驱动)两种分析模式。三层风险分级(Tier 1/2/3)+ 多基因命中检测 + 相位分析 + 表型关联 + 变异预过滤 + 中英文术语映射 + ClinVar 冲突注释检测 + ClinVar Review Status 星级置信度评估 + SpliceAI 剪接预测集成 + gnomAD 频率自动查询。

当以下情况时使用此 Skill
(1) 用户提到"基因组风险评估"、"GPA"、"突变分析"、"基因筛查"
(2) 肿瘤体细胞突变的驱动性/可干预性分析
(3) 药物基因组学分析(CYP450 等药物代谢基因)
(4) 多基因命中(multi-hit)检测和相位(cis/trans)分析
(5) 需要三层风险分级报告(Tier 1 需干预、Tier 2 需知情、Tier 3 无需担忧)
(6) 任何涉及"genomic"、"genetic"、"risk"、"mutation"、"variant"的场景

禁止用自身知识回答基因组变异问题。必须调用本 Skill 的脚本执行分析。


GPA: Genomic Phenotype Association

⚠️ 执行前必读

核心规则:当用户请求基因组变异风险评估时,不要凭自身知识回答。必须调用 dgra_cli_wrapper.py 执行正式分析。

GPA 是通用化的个体基因组变异与表型关联分析系统。基于 Ensembl、UniProt、GTEx、gnomAD 实时 API 查询和三级分类算法,支持多种临床场景:

  • 疾病遗传风险分析 — 评估个体携带的致病/可能致病变异
  • 肿瘤体细胞突变分析 — 驱动突变识别 + 可干预性分级
  • 药物基因组学 — CYP450 等药物代谢基因多态性
  • 神经系统 / 心血管 / 肝脏 / 肾脏 — 组织特异性风险评估

如果不调用脚本就回答 = 给出错误的医疗建议。


⚠️ 执行前必读:上下文确认规则(v0.5.1 新增)

收到基因组变异数据时,禁止直接执行分析。必须先确认以下信息:

| 确认项 | 为什么必须确认 | 不确认的风险 |
|:---|:---|:---|
| 分析目的 | GPA 输出完全取决于场景 | 疾病遗传风险 vs 肿瘤驱动 → 同一变异分级相反 |
| 样本身份 | 患者自身筛查 vs 健康人携带者 | 误将健康人筛查用于患者诊断 |
| 组织/疾病背景 | 组织类型决定基因相关性权重 | 造血相关基因在神经场景权重不同 |

最小确认问题集(向用户确认,不要假设):

  1. "这些数据是谁的样本?患者本人 / 健康筛查?"
  2. "分析目的是什么?疾病遗传风险评估 / 肿瘤驱动突变 / 药物基因组学?"
  3. "关注哪些组织或系统?(如血液、心脏、肝脏等)"

在获得上述信息前,禁止调用 dgra_core.py 或生成报告。


🎯 快速判断:是否需要调用 GPA?

| 用户请求 | 是否调用 |
|---------|---------|
| "帮我分析这些基因变异" | ✅ 调用 |
| "这个突变有什么风险" | ✅ 调用 |
| "GPA 分析一下" | ✅ 调用 |
| "肿瘤突变驱动性分析" | ✅ 调用 |
| "一般性的基因突变知识" | ❌ 不需要,直接回答 |
| "TP53 突变是什么意思"(无具体样本) | ❌ 不需要 |


🚀 调用方式

自动分批(v0.7.1 新增,默认启用)

当变异数 > 500 时,wrapper 自动分批处理,每批500个变异,每批有独立的5分钟超时。

不需要任何额外参数——只要数据量大,自动生效:

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --input-file variants.tsv \
  --tissue neurological

控制分批行为

| 参数 | 说明 | 默认值 |
|------|------|--------|
| --batch-size | 每批变异数 | 500 |
| --timeout | 每批超时(秒) | 300 |
| --no-auto-batch | 禁用自动分批 | 否 |

示例:肌病基因子集(2638个变异),分6批处理

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --input-file myopathy_subset.tsv \
  --tissue neurological \
  --batch-size 500 \
  --output-json result.json

方式一:直接调用 wrapper(推荐)

exec 运行 dgra_cli_wrapper.py,传入 variant JSON 数组:

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --variants '[{"CHROM":"1","POS":12345,"REF":"A","ALT":"G","GENE":"VWF","IMPACT":"HIGH","Consequence":"missense_variant","HGVSp":"p.Arg1234Cys","HGVSc":"c.3700C>T","CLIN_SIG":"Pathogenic","GT":"0/1","DP":30,"GQ":99,"VAF":0.5}]' \
  --tissue general

Somatic / 肿瘤模式:添加 --somatic 标志,GPA 会按肿瘤驱动逻辑分级:

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --variants '[...]' \
  --tissue general \
  --somatic

Somatic 模式下:

  • TSG 截断突变 + 造血相关 = Tier 1(核心驱动)
  • 癌基因热点突变(如 IDH1 R132) = Tier 1
  • OncoKB Oncogenic / Likely>Tier 1
  • VAF > 0.5 的变异会被标记为可能的 germline 混入

预过滤(v0.7.1 新增):变异数过大时,用 --filter-preset 先过滤再分级,减少噪音:

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --variants '[...]' \
  --tissue general \
  --filter-preset clinical

| Preset | 保留规则 | 用途 |
|--------|---------|------|
| strict | 仅 HIGH / MODERATE | 高置信度,少噪音 |
| clinical | HIGH / MODERATE + 剪接区 LOW + 组织相关基因同义 + ClinVar 冲突 | 推荐默认 |
| broad | HIGH / MODERATE / LOW | 保守,保留更多 |

自动分批(v0.7.1):当变异数 > 500 时,wrapper 自动分批处理,每批500个:

python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --input-file variants.tsv \
  --tissue neurological \
  --batch-size 500
python3 ~/.workbuddy/skills/dgra-genomic-risk/scripts/dgra_core.py \
  --input /path/to/variants.tsv \
  --tissue general \
  --output /tmp/gpa_report.md \
  --json /tmp/gpa_results.json \
  --somatic \
  --spliceai                              # v0.8.0: 启用 SpliceAI 剪接预测

SpliceAI 剪接预测(v0.8.0,默认关闭)

SpliceAI 仅对 canonical splice(acceptor/donor)和 splice_region 变异查询 Broad Institute lookup API,作为 VEP HIGH 剪接过调用的独立验证证据。

必须显式开启:

python3 ~/.openclaw/skills/dgra-genomic-risk/scripts/dgra_cli_wrapper.py \
  --input-file variants.tsv \
  --tissue hematopoietic \
  --spliceai                              # 开启 SpliceAI
  --spliceai-concurrency 5                # 可选:调整并发(默认 5)

效果:

  • delta=0(无剪接变化)→ 降级:HIGH 剪接过调用 → Tier 下调
  • delta≥0.5(强剪接变化)→ 升级:MODERATE 剪接区 → Tier 上调
  • API 失败 / 不在数据库 → graceful fallback,不阻断分析

📋 输入数据构造指南

Variant JSON 格式

每个 variant 是一个 dict,必填字段

| 字段 | 含义 | 示例 |
|-----|------|------|
| CHROM | 染色体 | "1", "X" |
| POS | 位置 | 12345 |
| REF | 参考碱基 | "A" |
| ALT | 突变碱基 | "G" |
| GENE | 基因符号 | "VWF" |

建议填写的字段(影响分级精度):

| 字段 | 含义 | 示例 |
|-----|------|------|
| HGVSp | 蛋白变化 | "p.Arg1234Cys" |
| HGVSc | cDNA 变化 | "c.3700C>T" |
| IMPACT | 影响等级 | "HIGH", "MODERATE", "LOW" |
| Consequence | 突变类型 | "missensevariant", "frameshiftvariant" |
| CLINSIG | ClinVar 状态 | "Pathogenic", "Likelypathogenic", "Benign" |
| GT | 基因型 | "0/1" (杂合), "1/1" (纯合) |
| DP | 测序深度 | 30 |
| GQ | 基因质量 | 99 |
| VAF | 变异丰度 | 0.5 |
| gnomAD_AF | gnomAD 频率 | 0.0001 |
| classification | OncoKB 致癌性 | "Oncogenic", "Likely Oncogenic", "VUS" |
| is_tsg | 是否为抑癌基因 | "Yes" / "No" |
| is_oncogene | 是否为癌基因 | "Yes" / "No" |

如果用户提供了 OncoKB 标注的 CSV/表格数据,务必提取 classificationis_tsgis_oncogene 字段传入 GPA,这对 somatic 模式分级至关重要。


📊 输出解析

Wrapper 返回 JSON 结构:

{
  "success": true,
  "results": {
    "meta": {...},
    "summary": {
      "tier1_count": 0,
      "tier2_count": 1,
      "tier3_count": 2,
      "multi_hit_genes": ["VWF"]
    },
    "tier1_variants": [],
    "tier2_variants": [...],
    "tier3_variants": [...],
    "multi_hit_details": [...],
    "report_markdown": "# GPA 报告..."
  },
  "report_md": "# GPA Report...",
  "stdout": "GPA Report Generated..."
}

给用户呈现的关键信息

默认行为:分析完成后,直接读取报告文件内容并完整展示给用户。 不要只给统计数字,不要让用户自己去看文件。

呈现内容优先级:

  1. 完整 Markdown 报告 — 直接贴出报告全文(Tier 1/2/3 详情、多基因命中)
  2. 若报告过长 — 先展示 Tier 1 和关键发现,再询问是否需要完整报告
  3. 保存到指定路径 — 如果用户需要文件,用 --output /path/to/file.md 保存,不要用 /tmp

输出解析

Wrapper 返回 JSON 结构:

{
  "success": true,
  "results": {
    "meta": {...},
    "summary": {
      "tier1_gene_count": 0,
      "tier1_variant_count": 0,
      "tier2_gene_count": 1,
      "tier2_variant_count": 2,
      "tier3_gene_count": 2,
      "tier3_variant_count": 5,
      "multi_hit_genes": ["VWF"]
    },
    "tier1_variants": [],
    "tier2_variants": [...],
    "tier3_variants": [...],
    "multi_hit_details": [...],
    "report_markdown": "# GPA 报告..."
  },
  "report_md": "# GPA Report...",
  "stdout": "GPA Report Generated..."
}

呈现格式要求:

每个变异必须展示以下字段(方便用户直接查询):

| 字段 | 示例 | 用途 |
|------|------|------|
| 基因 | VWF | 基因符号 |
| 位点 | chr12:6126538:G>A | CHROM:POS:REF:ALT,可直接在 IGV/UCSC/ClinVar 查询 |
| 转录本变化 | c.3931C>T | cDNA 水平 |
| 蛋白变化 | p.Gln1311Ter | 氨基酸水平 |
| 影响 | HIGH | VEP IMPACT |
| 类型 | stop_gained | Consequence(中英文自动映射,见下方) |
| 合子性 | 0/1 | GT |
| ClinVar | 致病 | 中文/英文 |
| Tier | 1 | GPA 分级 |
| QC 标记 | CLINVAR_CONFLICTING | v0.7.1 新增:冲突注释标记 |

Consequence 中英文映射(v0.7.1)
GPA 内部通过 gpa_i18n.py 自动标准化中英文 consequence 术语。输入可以是中文 VEP 注释(如 错义变异剪接供体变异)或英文(missense_variantsplice_donor_variant),系统会自动映射到统一的标准术语并推断 IMPACT。

| 中文示例 | 映射后英文 | 推断 IMPACT |
|---------|-----------|------------|
| 错义变异 | missense_variant | MODERATE |
| 无义变异 | stop_gained | HIGH |
| 剪接供体变异 | splicedonorvariant | HIGH |
| 同义变异 | synonymous_variant | LOW |
| 移码变异 | frameshift_variant | HIGH |
| 框内缺失 | inframe_deletion | MODERATE |

ClinVar 冲突注释(v0.7.1)
当 ClinVar 同时包含正反两种评级(如 "良性, 致病""VUS, Pathogenic")时:

  • 不触发 Tier 升级(weight=0)
  • 标记 CLINVAR_CONFLICTING qc_flag
  • 仍保留进入下游分析与报告
  • 标准复合评级如 "Pathogenic/Likely_pathogenic" 不算冲突

ClinVar Review Status 星级(v0.7.2)
GPA 读取 CLNREVSTAT 字段,将 ClinVar 提交者星级纳入证据权重计算:

| CLNREVSTAT 文本 | 星级 | 置信度权重 |
|---|---|---|
| practice_guideline | ★★★★ | 0.95 |
| reviewed_by_expert_panel | ★★★☆ | 0.80 |
| criteria_provided,_multiple_submitters,_no_conflicts | ★★☆☆ | 0.55 |
| single_submitter | ★☆☆☆ | 0.40 |
| 缺失 / no_assertion / conflicting | — | 0.30 |

效果

  • Pathogenic 证据 weight = 基础值 × 星级权重(1.0 × 0.30~0.95)
  • Benign 证据 weight = -0.5 × 星级权重(排除信号随星级增强)
  • 单一提交者的 Pathogenic 不再自动 Tier 1(weight=0.40,需更多证据支持)
  • 实践指南认可的 Pathogenic 仍高置信度(weight=0.95)

冲突注释优先:如果 ClinVar 评级冲突(v0.7.1 逻辑),星级评估被跳过,weight=0。
| 原因 | ClinVar pathogenic... | 为什么是这个 tier |

若 chrom 为空或转录本选择有警告,必须标注并说明影响。

| 场景 | 组织类型 |
|------|---------|
| 通用疾病遗传风险评估(默认) | general |
| 血液/肿瘤血液 | hematopoietic |
| 心血管 | cardiovascular |
| 肝脏 | hepatic |
| 肾脏 | renal |
| 神经系统 | neurological |


🔧 离线模式

当网络不可用或 API 超时频繁时,添加 --offline 参数:

python3 .../dgra_cli_wrapper.py --variants '[...]' --tissue general --offline

离线模式使用本地缓存(references/offline_data/ 下的基因 JSON),对于已有归档的基因结果与在线模式一致。未归档的基因 fallback 到保守规则。


❌ 常见错误

| 错误 | 原因 | 解决 |
|-----|------|------|
| Invalid tissue 'xxx' | 组织类型不对 | 用 general / hematopoietic / cardiovascular / hepatic / renal / neurological |
| variants list is empty | 输入为空 | 检查 JSON 是否解析正确 |
| Failed to write TSV | 输入字段缺失 | 确保必填字段 CHROM/POS/REF/ALT/GENE 存在 |
| dgra_core.py exited with code 1 | 核心脚本执行失败 | 看 stderr 输出排查 |
| Offline mode: no cached data | 离线模式但基因未归档 | 先在线运行一次建立归档,或换在线模式 |


📁 文件结构

dgra-genomic-risk/
  SKILL.md                  # 本文件
  config.json               # 元数据配置
  scripts/
    dgra_cli_wrapper.py     # ⭐ 推荐入口:agent 调用此 wrapper
    dgra_core.py            # 核心分析引擎(async API-first)
    dgra_api.py             # API 查询层
    dgra_cache.py           # SQLite 缓存
    dgra_config.py          # 配置管理
    dgra_build_state.py     # 构建状态持久化(v0.6.1)
    gpa_phenotype_match.py  # LLM 表型语义匹配(v0.7.0 Phase 2)
    gpa_i18n.py             # 中英文 consequence 术语映射(v0.7.1 Phase 2)
    dgra_variant_filter.py  # 预过滤模块:strict/clinical/broad(v0.7.1 Phase 3)
  references/
    tissue_context.json     # 组织上下文配置
    dgra.yaml               # 运行时参数配置
    offline_data/           # 离线归档(自动创建)
  cache/
    dgra_cache.db           # API 响应缓存

🩺 临床使用注意

Tier 分级含义(按场景动态调整)

Germline / 疾病遗传风险场景:

  • Tier 1 = 必须干预的致病突变(如纯合截断、已知致病突变)
  • Tier 2 = 需知情同意并持续监测(如杂合携带者、药物代谢多态性)
  • Tier 3 = 记录归档,不影响当前决策

Somatic / 肿瘤驱动场景:

  • Tier 1 = 核心驱动突变(TSG 功能丧失、癌基因热点突变、OncoKB Oncogenic)
  • Tier 2 = 可能驱动突变(Likely Oncogenic、亚克隆突变、药物代谢相关)
  • Tier 3 = 乘客突变 / 无功能影响 / 胚系多态混入

多基因命中需确认相位:cis(同一条染色体)风险更高,trans(两条染色体)通常为复合杂合

GPA 是辅助决策工具,最终临床决策需结合完整临床评估。