中文分詞 API 簡介
概念解釋
中文分詞 API ,可以將輸入的中文文本準(zhǔn)確地分割成有意義的詞語單元,例如,對于“今天天氣真好啊”,能夠正確分割為“今天 天氣 真好 啊”。無論是新聞文章、小說、學(xué)術(shù)論文還是社交媒體內(nèi)容,都能進行有效的分詞處理。
說明
Hi,您好,歡迎使用有道智云中文分詞 API接口服務(wù)。
本文檔主要針對需要集成HTTP API的技術(shù)開發(fā)工程師,詳細描述中文分詞能力相關(guān)的技術(shù)內(nèi)容。
如果您有與我們商務(wù)合作的需求,可以通過以下方式聯(lián)系我們:
商務(wù)郵箱: AIcloud_Business@corp.youdao.com
如果您對文檔內(nèi)容有任何疑問,可以通過以下幾種方式聯(lián)系我們:
客服QQ:1906538062
智云OCR技術(shù)交流QQ 1群: 654064748
智云OCR技術(shù)交流QQ 2群: 471638046
聯(lián)系郵箱: zhiyun@corp.youdao.com
溫馨提示:
- 本文檔主要針對開發(fā)人員,接入測試前需要獲取
應(yīng)用ID
和應(yīng)用密鑰
;如果您還沒有,請按照 新手指南 獲取。 - 平臺向每個賬戶贈送50元的體驗金,供用戶集成前測試所用,具體資費規(guī)則詳見 中文分詞服務(wù)報價 。
接口能力
中文分詞API接口提供有道的分詞服務(wù),您只需要通過調(diào)用API,傳入待處理的中文文本,就可以得到相應(yīng)的分詞結(jié)果,如其中包含英文單詞,則不分詞整個單詞返回。
有道智云中文分詞 API HTTPS地址:
https://openapi.youdao.com/cwsapi
協(xié)議須知
調(diào)用方在集成中文分詞 API 時,請遵循以下規(guī)則。
規(guī)則 | 描述 |
---|
傳輸方式 | HTTPS |
請求方式 | POST |
字符編碼 | 統(tǒng)一使用UTF-8編碼 |
請求格式 | 表單 |
響應(yīng)格式 | 統(tǒng)一采用application/json格式 |
接口調(diào)用參數(shù)
調(diào)用API需要向接口發(fā)送以下字段來訪問服務(wù)。
字段名 | 含義 | 備注 | 必填 |
---|
appKey | 應(yīng)用標(biāo)識(應(yīng)用 ID) | 可在應(yīng)用管理查看 | true |
curtime | 時間戳 | 當(dāng)前UTC時間戳(秒) | true |
q | 中文句子 | 使用UTF-8編碼,長度不超過 10000 | true |
salt | 隨機字符串 | 最好是UUID,和curtime一起防請求重放 | true |
sign | 簽名信息:sha256(appKey+input+salt+curtime+密鑰) | 生成簽名可參考下方示例 | true |
signType | 簽名類型 | v3 | true |
簽名生成方法如下:
signType=v3;
sign=sha256(應(yīng)用ID+input+salt+curtime+應(yīng)用密鑰);
其中,input的計算方式為:input=q前10個字符 + q長度 + q后10個字符(當(dāng)q長度大于20)或 input=q字符串(當(dāng)q長度小于等于20);
輸出結(jié)果
返回的結(jié)果是json格式,具體說明如下:
字段 | 類型 | 字段說明 |
---|
requestId | text | 請求Id |
errorCode | text | 錯誤碼 |
msg | text | 錯誤信息 |
tokens | array | 分詞字符串?dāng)?shù)組 |
參考示例
分詞的返回結(jié)果:
{
"errorCode": "0",
"msg": "SUCCESS",
"requestId": "25246c16-dec1-401e-aa32-ee75e58f7b50",
"tokens": [
"我",
"想",
"把",
"這",
"段",
"中文",
"進行",
"分詞",
"處理"
]
}
錯誤代碼列表
錯誤碼 | 含義 |
---|
101 | 缺少必填的參數(shù),首先確保必填參數(shù)齊全,然后,確認參數(shù)書寫是否正確。 |
102 | 不支持的語言類型 |
103 | 翻譯文本過長 |
104 | 不支持的API類型 |
105 | 不支持的簽名類型 |
106 | 不支持的響應(yīng)類型 |
107 | 不支持的傳輸加密類型 |
108 | 應(yīng)用ID無效,注冊賬號,登錄后臺創(chuàng)建應(yīng)用并完成綁定,可獲得應(yīng)用ID和應(yīng)用密鑰等信息 |
109 | batchLog格式不正確 |
110 | 無相關(guān)服務(wù)的有效應(yīng)用,應(yīng)用沒有綁定。注:某些服務(wù)的結(jié)果發(fā)音需要tts服務(wù),需要在控制臺創(chuàng)建語音合成實例綁定應(yīng)用后方能使用。 |
111 | 開發(fā)者賬號無效 |
112 | 請求服務(wù)無效 |
113 | q不能為空 |
114 | 不支持的圖片傳輸方式 |
201 | 解密失敗,可能為DES,BASE64,URLDecode的錯誤 |
202 | 簽名檢驗失敗,如果確認應(yīng)用ID和應(yīng)用密鑰的正確性,仍返回202,一般是編碼問題。請確保 img 為 UTF-8 編碼. |
203 | 訪問IP地址不在可訪問IP列表 |
205 | 請求的接口與應(yīng)用的平臺類型不一致,確保接入方式(Android SDK、IOS SDK、API)與創(chuàng)建的應(yīng)用平臺類型一致。如有疑問請參考入門指南 |
206 | 因為時間戳無效導(dǎo)致簽名校驗失敗 |
207 | 重放請求 |
301 | 辭典查詢失敗 |
302 | 翻譯查詢失敗 |
303 | 服務(wù)端的其它異常 |
304 | 會話閑置太久超時 |
401 | 賬戶已經(jīng)欠費停 |
402 | offlinesdk不可用 |
411 | 訪問頻率受限,請稍后訪問 |
412 | 長請求過于頻繁,請稍后訪問 |
76001 | 句子長度超過 10000 |
常見問題
可參考中文分詞服務(wù)常見問題查閱解決方案,若未能解決問題可聯(lián)系相關(guān)技術(shù)同學(xué)溝通。