文件预览

get_tokenizers.md

查看 1688 Item Title Optimizer 技能包中的文件内容。

文件内容

capabilities/get_tokenizers.md

# get_tokenizers — 获取分词器列表

## 功能说明

获取所有可用的分词器列表及说明。根据用户需求或 prompt 选择合适的分词器。如果用户没有指定,选择默认分词器(列表第一个)。

## 前置条件

- 已配置 AK(通过 `cli.py configure YOUR_AK` 或设置环境变量 `ALI_1688_AK`)

## CLI 调用

```bash
python3 {baseDir}/cli.py get_tokenizers
```

**无参数**,返回所有可用分词器列表。

## 返回数据说明

成功时返回 `data` 对象,包含 `tokenizers` 数组:

| 字段 | 类型 | 说明 |
|------|------|------|
| tokenizer | String | 分词器类型标识 |
| desc | String | 分词器描述 |

## 输出格式

### 成功输出

```json
{
  "success": true,
  "markdown": "✅ 分词器列表获取成功",
  "data": {
    "tokenizers": [
      {"tokenizer": "qwen-flash", "desc": "使用qwen-flash模型进行分词"}
    ]
  }
}
```

## 异常处理

| 异常场景 | 处理方式 |
|---------|---------|
| AK 未配置 | 提示用户配置 AK |
| 签名无效(401) | 提示用户检查 AK 是否有效 |
| 请求被限流(429) | 建议用户等待 1-2 分钟后重试 |

## 使用说明

1. 获取分词器列表后,根据用户需求选择合适的分词器
2. 如果用户没有指定,默认使用列表中的第一个分词器
3. 选定的分词器类型可传入 `optimize_title` 的 `--tokenizer_type` 参数