文件预览

SKILL.md

查看 SiliconFlow API 技能包中的文件内容。

返回技能详情下载技能包打开来源页

文件内容

SKILL.md

---
name: siliconflow-api
description: SiliconFlow（硅基流动）AI 生成能力集成。支持文生图、图生图、文生视频、图生视频、文字转语音。当用户需要生成图片、视频、语音时使用此技能。首次使用需运行 setup 配置自己的 API Key（在 siliconflow.cn 注册获取）。国内支付方式（微信/支付宝），无需海外银行卡。
---

# SiliconFlow API

硅基流动 AI 生成平台，支持多种生成模型，国内直接使用。

## 配置（首次使用必须配置）

1. 注册 [siliconflow.cn](https://siliconflow.cn) 获取 API Key
2. 运行配置命令输入 Key：
```bash
bash scripts/sf_api.sh setup
```
⚠️ API Key 保存在本地 `.sf-config.json`，不会泄露到技能包中。

## 可用命令

| 功能 | 命令 | 说明 |
|------|------|------|
| 文生图 | `t2i <提示词> [尺寸] [模型] [输出路径]` | 默认1024x1024，模型Kwai-Kolors/Kolors |
| 图生图 | `i2i <图片路径> <提示词> [输出路径]` | 编辑已有图片 |
| 文生视频 | `t2v <提示词> [时长] [输出路径]` | 默认5秒，Wan2.2模型 |
| 图生视频 | `i2v <图片路径> <提示词> [时长] [输出路径]` | 上传图片生成视频 |
| 查询视频 | `vs <任务ID> [输出路径]` | 异步任务状态查询 |
| 文字转语音 | `tts <文本> [音色] [输出路径]` | CosyVoice2 |
| 列出模型 | `models` | 查看可用模型列表 |

## 快速开始

脚本在 `scripts/sf_api.sh`，所有命令通过它执行。

```bash
cd ~/.openclaw/workspace/skills/siliconflow-api

# 文生图
bash scripts/sf_api.sh t2i "一个穿深蓝色西装的老板坐在办公室，自信微笑，4K写实"

# 图生图（用老板照片生成成熟版）
bash scripts/sf_api.sh i2i /root/.openclaw/workspace/assets/laoban-photo.jpg "成熟稳重企业家风格，深蓝色西装，办公室背景"

# 文生视频
bash scripts/sf_api.sh t2v "一个穿西装的商人在办公室微笑" 5

# 图生视频（用老板照片生成视频）
bash scripts/sf_api.sh i2v /root/.openclaw/workspace/assets/laoban-photo.jpg "微笑看向镜头，轻轻点头" 5

# 语音生成
bash scripts/sf_api.sh tts "你好，我是做软件开发的，这是我们公司的产品"
```

## 图片生成

### 推荐模型
- `Kwai-Kolors/Kolors`（默认）— 中文理解好，写实风格强
- `Qwen/Qwen-Image` — 通义千问，质量高

### 常用尺寸
- `1024x1024`（默认方图）
- `1216x832`（横图，适合16:9）
- `832x1216`（竖图，适合9:16手机）

### 提示词技巧
- 中文提示词效果更好
- 加 `4K`, `写实`, `电影级` 等词提升画质
- 加 `浅景深`, `柔和自然光` 等摄影术语

## 视频生成

### 模型
- `Wan-AI/Wan2.2-T2V-A14B` — 文生视频
- `Wan-AI/Wan2.2-I2V-A14B` — 图生视频（上传参考图）

### 注意
- 视频生成是异步任务，提交后需轮询等待
- 生成时间约2-10分钟（排队+推理）
- 视频最长15秒
- 输出格式为 MP4

## 语音合成

### 模型
- `FunAudioLLM/CosyVoice2-0.5B` — 中文语音合成

### 音色选项
- 中文男声
- 中文女声

## 注意事项

- 所有生成都会消耗账户余额
- 图片生成约0.1-0.3元/次
- 视频生成较贵，约0.5-2元/次
- 语音合成约0.01元/次
- 生成结果保存在 `/tmp/` 目录，用完后清理