Hi,您好,歡迎使用有道智云長語音轉寫接口服務。
本文檔主要針對需要集成HTTP API的技術開發(fā)工程師,詳細描述長語音轉寫能力相關的技術內容。
如果您有與我們商務合作的需求,可以通過以下方式聯系我們:
商務郵箱: AIcloud_Business@corp.youdao.com
如果您對文檔內容有任何疑問,可以通過以下幾種方式聯系我們:
客服QQ:1906538062
智云翻譯技術交流QQ 1群: 652880659
智云翻譯技術交流QQ 2群: 669384425
智云翻譯技術交流QQ 3群: 807539209
智云翻譯技術交流QQ 4群: 936752411
聯系郵箱: zhiyun@corp.youdao.com
溫馨提示:
長語音轉寫服務,將一小時內的音頻數據轉換成文本數據,為信息處理和數據挖掘提供基礎。您只需要通過調用長語音轉寫 API就可以將音頻數據轉換成文本數據。
調用方在集成長語音轉寫API時,請遵循以下規(guī)則。
規(guī)則 | 描述 |
---|---|
傳輸方式 | HTTPS |
請求方式 | POST |
字符編碼 | 統(tǒng)一使用UTF-8 編碼 |
請求格式 | 表單 |
響應格式 | JSON |
長語音轉寫線上調用地址:
http://openapi.youdao.com
格式支持:wav(不壓縮,pcm編碼,采樣率:推薦16k ,編碼:16bit位深的單聲道),aac,mp3
格式 | 代碼 |
---|---|
wav | wav |
mp3 | mp3 |
aac | aac |
語種名稱 | 代碼 | 支持的時長限制 |
---|---|---|
中文 | zh-CHS | 4h |
日文 | ja | 1h |
英文 | en | 4h |
韓文 | ko | 1h |
粵語 | yue | 1h |
西班牙語 | es | 1h |
葡萄牙語 | pt | 1h |
法語 | fr | 1h |
德語 | de | 1h |
俄語 | ru | 1h |
接口參數:
參數名稱 | 類型 | 含義 | 是否必填 | 示例 |
---|---|---|---|---|
salt | text | uuid(唯一通用識別碼) | True | uuid,唯一通用識別碼 |
type | text | 上傳類型, 僅支持base64上傳,請?zhí)顚懝潭ㄖ? | True | 1 |
appKey | text | 應用ID | True | 可在 應用管理 查看 |
sliceNum | string | 文件分片數目(建議分片大小為10M,若文件<10M,則slice_num=1 | True | 1 |
name | text | 文件名稱 | True | test |
fileSize | text | 文件大小,注意:文件大小限制為500M,取值范圍為:1024-589824000 byte | True | 15234 |
curtime | text | 時間戳 | True | 秒數 |
langType | text | 源語言 | True | 支持語言列表 |
sign | text | 簽名 | True | sha256(應用ID+salt+curtime+應用密鑰) |
signType | text | 簽名版本 | True | v4 |
format | text | 語音文件的格式,wav | True | mp3/wav/aac/m4a/amr |
noitn | text | 是否進行阿拉伯數字轉換,日期轉換的操作。如 "十點五分" 到 “10:05” 的轉換。傳1是漢字,傳0是阿拉伯數字。 | false | 0/1(不傳默認為0) |
needSpeakerId | text | 是否需要返回說話人id (1:是, 0:否) | false | 0/1(默認為0) |
speakerNum | text | 說話人人數(0 自動識別,范圍:[0-10]) | false | (默認為0) |
hotWords | String | 1、熱詞總長度:5000(總長度限制較大,實際到不了5000);2、單個熱詞內容:長度限制1 - 20 ;3、權重取值目前只能是1; 4、熱詞與熱詞之間 用 , (英文逗號)分隔 | false | 1、熱詞格式示例:熱詞/權重; 2、目前模型僅支持中文或單個英文字母生效,如果傳其他文本會導致熱詞不生效,但不會有錯誤信息;3、傳空字符串表示不使用熱詞,不會報錯;4、中文傳參為langType="zh-CHS2" |
{????
"errorCode":?"0",?//錯誤碼???
"msg":?"success",?//信息說明????
"result":?"383e72a47557490aa05a344074117a9d"?//返回的任務ID
}
預處理成功,調用文件上傳接口;按預處理設置的分片信息(sliceNum)依次上傳音頻切片(文件以二進制方式multipart讀取上傳),
直到全部切片上傳成功(如預處理時 sliceNum=2,則需將音頻切分成兩部分,sliceId=1和2,并按順序調用該接口);
上一切片成功上傳,才可進行下一切片的上傳操作。調用過程中若出現異常,可重試若干次。
參數名稱 | 類型 | 含義 | 是否必填 | 示例 |
---|---|---|---|---|
q | text | taskid | True | 任務id |
appKey | text | 應用ID | True | 可在 應用管理 查看 |
salt | text | UUID(唯一識別通用碼) | True | UUID |
curtime | text | 時間戳(秒) | True | 秒 |
sign | text | 簽名 | True | sha256(應用ID+salt+curtime+應用密鑰) |
signType | text | 簽名版本 | True | v4 |
sliceId | text | 語音文件分片的Id | True | 1 |
file | text | 文件 | True | multipart的name為file |
type | text | 上傳的類型 | false | 1 |
{????
"errorCode":?"0",?//錯誤碼????
"msg":?"success",?//信息說明????
"result":?null?//返回的任務ID
}
全部文件切片上傳成功后,調用該接口,通知服務端進行文件合并與轉寫操作。 該接口不會返回轉寫結果,而是通知服務端將任務列入轉寫計劃。轉寫的結果通過 getResult 接口獲取。
參數名稱 | 類型 | 含義 | 是否必填 | 示例 |
---|---|---|---|---|
q | text | taskid | True | 任務id |
appKey | text | 應用ID | True | 可在 應用管理 查看 |
salt | text | UUID(唯一識別通用碼) | True | UUID |
curtime | text | 時間戳(秒) | True | 秒 |
sign | text | 簽名 | True | sha256(應用ID+salt+curtime+應用密鑰) |
signType | text | 簽名版本 | True | v4 |
{
????"errorCode":?"0",?//錯誤碼
????"msg":?"success",?//信息說明
????"result":?null?//返回的任務ID
}
在調用方發(fā)出合并文件請求后,服務端已將任務列入計劃。在獲取結果前,調用方需輪詢該接口查詢任務當前狀態(tài)。 當且僅當任務狀態(tài)=(轉寫結果上傳完成),才可調用獲取結果接口獲取轉寫結果。 輪詢策略由調用方決定,建議每隔10分鐘輪詢一次。狀態(tài)碼說明見附錄。
參數名稱 | 類型 | 含義 | 是否必填 | 示例 |
---|---|---|---|---|
q | text | taskid | True | 任務id |
appKey | text | 應用ID | True | 可在 應用管理 查看 |
salt | text | UUID(唯一識別通用碼) | True | UUID |
curtime | text | 時間戳(秒) | True | 秒 |
sign | text | 簽名 | True | sha256(應用ID+salt+curtime+應用密鑰) |
signType | text | 簽名版本 | True | v4 |
{
????"errorCode":?"0",?//錯誤碼
????"msg":?"success",?//信息說明
????"result": [{"status":"9","taskId":"xxxx"}]//處理狀態(tài):processing;complete
}
當任務處理進度狀態(tài)為完成時(見查詢處理進度接口),調用該接口獲取轉寫結果。這是轉寫流程的最后一步。 轉寫結果各字段的詳細說明見轉寫結果說明文檔。 服務端也支持主動回調,轉寫完成之后主動發(fā)送轉寫結果到用戶配置的回調地址
參數名稱 | 類型 | 含義 | 是否必填 | 示例 |
---|---|---|---|---|
q | text | taskid | True | 任務id |
appKey | text | 應用ID | True | 可在 應用管理 查看 |
salt | text | UUID(唯一識別通用碼) | True | UUID |
curtime | text | 時間戳(秒) | True | 秒 |
sign | text | 簽名 | True | sha256(應用ID+salt+curtime+應用密鑰) |
signType | text | 簽名版本 | True | v4 |
{
"result": [{
"sentence": "Have a good day.",
"vad_id": 1,
"word_timestamps": [70, 270, 390, 710],
"word_timestamps_eds": [190, 390, 510, 830],
"words": ["Have", "a", "good", "day."],
"speaker": 1,
"partial": false}],
"errorCode": "0"
}
狀態(tài)ID | 狀態(tài)描述 |
---|---|
0 | 任務創(chuàng)建成功 |
1 | 音頻上傳完成 |
2 | 音頻合并完成 |
3 | 音頻轉寫中 |
4 | 轉寫結果處理中 |
5 | 轉寫完成 |
6 | 音頻轉寫失敗,需要重試 |
9 | 轉寫結果上傳完成 |
12 | 音頻轉碼失敗 |
13 | 音頻時長超過限制 |
21 | 包含不合時宜詞匯 |
狀態(tài)碼 | 狀態(tài)碼含義 |
---|---|
101 | 缺少必填的參數,首先確保必填參數齊全,然后,確認參數書寫是否正確。 |
102 | 不支持的語言類型 |
103 | 翻譯文本過長 |
104 | 不支持的API類型 |
105 | 不支持的簽名類型 |
106 | 不支持的響應類型 |
107 | 不支持的傳輸加密類型 |
108 | 應用ID無效,注冊賬號,登錄后臺創(chuàng)建應用和實例并完成綁定,可獲得應用ID和應用密鑰等信息 |
109 | batchLog格式不正確 |
110 | 無相關服務的有效應用,應用沒有綁定服務。注:某些服務的結果發(fā)音需要tts服務,需要在控制臺創(chuàng)建語音合成實例綁定應用后方能使用。 |
111 | 開發(fā)者賬號無效 |
112 | 請求服務無效 |
113 | q不能為空 |
114 | 不支持的圖片傳輸方式 |
201 | 解密失敗,可能為DES,BASE64,URLDecode的錯誤 |
202 | 簽名檢驗失敗,如果確認應用ID和應用密鑰的正確性,仍返回202,一般是編碼問題。請確保翻譯文本 q 為UTF-8編碼. |
203 | 訪問IP地址不在可訪問IP列表 |
205 | 請求的接口與應用的平臺類型不一致,確保接入方式(Android SDK、IOS SDK、API)與創(chuàng)建的應用平臺類型一致。如有疑問請參考入門指南 |
206 | 因為時間戳無效導致簽名校驗失敗 |
207 | 重放請求 |
16001 | noitn參數錯誤 |
4000000 | q不正確 |
4000001 | 文件大小不匹配 |
4000002 | 文件為空 |
4000003 | 文件名稱為空 |
4000004 | 不支持的格式 |
4000005 | sliceNum不正確 |
4000006 | sliceId不正確 |
4000007 | 不支持的文件大小 |
4000008 | 不支持的語言 |
4000009 | 任務不存在 |
4000010 | 文件上傳失敗 |
4000011 | 文件大小校驗錯誤 |
4000017 | 熱詞非法 |
4035001 | 轉寫結果下載失敗 |