音频人声分离与转录

正式环境

POST

https://api.302.ai/302/vt/subtitle/extract

使用我们自己优化过的whisper模型，将音频转录成word级别的文本数据

只分离人声价格：0.001PTC/min
分离+转录+对齐价格：0.003PTC/min

请求参数

Header 参数

Authorization

string

可选

示例值:

Bearer {{YOUR_API_KEY}}

Body 参数application/json

audio_url

string

音频链接

必需

language

string

音频的语言

必需

eg： zh, en

demucs

boolean

是否开启人声分离

可选

默认值:

true

is_only_demucs

boolean

是否只分离人声不执行转录

可选

默认值:

false

示例

{
  "audio_url": "https://file.302ai.cn/gpt/imgs/tts_demo_minimax_male-qn-qingse_en.mp3",
  "language": "en",
  "demucs": true
}

示例代码

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.302.ai/302/vt/subtitle/extract' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "audio_url": "https://file.302ai.cn/gpt/imgs/tts_demo_minimax_male-qn-qingse_en.mp3",
  "language": "en",
  "demucs": true
}'

返回响应

🟢200成功

application/json

Body

task_id

string

必需

示例

{
  "task_id": "string"
}

修改于 2025-01-17 10:38:53

分离视频音轨

字幕精细翻译