在Python中使用科大訊飛Web API進(jìn)行語音合成

Eminjannn 發(fā)布于2019-07-31 11:06 / 1946人閱讀

摘要：所以這次總結(jié)一下在中使用訊飛進(jìn)行語音合成的過程。最后需要將配置參數(shù)編碼為字符串字典類型明文字符串編碼字符串，具體實(shí)現(xiàn)可以參考代碼。返回值的具體說明請參考返回值語音合成。

前幾日訊飛開放平臺推出了WebAPI接口，恰好最近需要實(shí)現(xiàn)一個(gè)文字轉(zhuǎn)語音的功能，于是就嘗試著用了起來。但不知什么原因，官方文檔的調(diào)用示例一直報(bào)錯(cuò)，最后自己照著示例的思路用python3重寫了一遍。所以這次總結(jié)一下在Python中使用訊飛Web API進(jìn)行語音合成的過程。

注冊訊飛開放平臺

首先注冊訊飛開放平臺：http://passport.xfyun.cn/regi...

注冊完成后進(jìn)入控制臺，在控制臺創(chuàng)建一個(gè)新應(yīng)用，填寫一些基本信息，注意 應(yīng)用平臺 選擇 WebAPI 。

創(chuàng)建完成后，記錄下 APPID 和 APIKey ，將在程序中用到。

另外，請?jiān)?IP白名單 中添加自己的外網(wǎng)IP，可以在http://www.ip138.com/ 查看。（一般來說外網(wǎng)IP會常常發(fā)生變化，請注意）

在Python3中使用訊飛Web API

先上代碼，后面進(jìn)行必要的說明：

可能提示缺庫：pip3 install requests

* 使用python3執(zhí)行

import base64
import json
import time
import hashlib
import requests

# API請求地址、API KEY、APP ID等參數(shù)，提前填好備用
api_url = "http://api.xfyun.cn/v1/service/v1/tts"
API_KEY = "替換成你的APIKEY"
APP_ID = "替換成你的APPID"
OUTPUT_FILE = "C://output.mp3"    # 輸出音頻的保存路徑，請根據(jù)自己的情況替換
TEXT = "茍利國家生死以，豈因禍福避趨之"

# 構(gòu)造輸出音頻配置參數(shù)
Param = {
    "auf": "audio/L16;rate=16000",    #音頻采樣率
    "aue": "lame",    #音頻編碼，raw(生成wav)或lame(生成mp3)
    "voice_name": "xiaoyan",
    "speed": "50",    #語速[0,100]
    "volume": "77",    #音量[0,100]
    "pitch": "50",    #音高[0,100]
    "engine_type": "aisound"    #引擎類型。aisound（普通效果），intp65（中文），intp65_en（英文）
}
# 配置參數(shù)編碼為base64字符串，過程：字典→明文字符串→utf8編碼→base64(bytes)→base64字符串
Param_str = json.dumps(Param)    #得到明文字符串
Param_utf8 = Param_str.encode("utf8")    #得到utf8編碼(bytes類型)
Param_b64 = base64.b64encode(Param_utf8)    #得到base64編碼(bytes類型)
Param_b64str = Param_b64.decode("utf8")    #得到base64字符串

# 構(gòu)造HTTP請求的頭部
time_now = str(int(time.time()))
checksum = (API_KEY + time_now + Param_b64str).encode("utf8")
checksum_md5 = hashlib.md5(checksum).hexdigest()
header = {
    "X-Appid": APP_ID,
    "X-CurTime": time_now,
    "X-Param": Param_b64str,
    "X-CheckSum": checksum_md5
}

# 發(fā)送HTTP POST請求
def getBody(text):
    data = {"text":text}
    return data
response = requests.post(api_url, data=getBody(TEXT), headers=header)

# 讀取結(jié)果
response_head = response.headers["Content-Type"]
if(response_head == "audio/mpeg"):
    out_file = open(OUTPUT_FILE, "wb")
    data = response.content # a "bytes" object
    out_file.write(data)
    out_file.close()
    print("輸出文件: " + OUTPUT_FILE)
else:
    print(response.read().decode("utf8"))

下面按照代碼順序進(jìn)行各部分的說明。

APIKey等參數(shù)

在代碼開頭填好各項(xiàng)參數(shù)，方面代碼中使用。

API_KEY和APP_ID請?zhí)鎿Q為上一步創(chuàng)建應(yīng)用后得到的內(nèi)容。請不要刪除雙引號。

OUTPUT_FILE是最終輸出音頻的保存路徑，根據(jù)自己的情況替換。

TEXT是將要輸出為語音的文本。

音頻配置參數(shù)

Param 是字典格式的音頻配置參數(shù)，其中 "aue" 可選 raw (生成wav)或 lame (生成mp3)，如果修改成raw請記得同時(shí)修改輸出文件的擴(kuò)展名。

最后需要將配置參數(shù)編碼為Base64字符串：字典類型→明文字符串→utf8編碼→Base64(bytes)→Base64字符串，具體實(shí)現(xiàn)可以參考代碼。

音頻配置參數(shù)的詳細(xì)說明可以參考請求參數(shù) | 語音合成。

HTTP請求頭部

根據(jù) 授權(quán)認(rèn)證 | 科大訊飛RESET_API開發(fā)指南，在調(diào)用所有業(yè)務(wù)接口時(shí)，都需要在HTTP請求頭部中配置以下參數(shù)用于授權(quán)認(rèn)證：

參數(shù)	格式	說明
X-Appid	string	訊飛開放平臺注冊申請應(yīng)用的應(yīng)用ID(appid)
X-CurTime	string	當(dāng)前UTC時(shí)間戳，從1970年1月1日0點(diǎn)0 分0 秒開始到現(xiàn)在的秒數(shù)
X-Param	string	音頻配置參數(shù)JSON串經(jīng)Base64編碼后的字符串
X-CheckSum	string	令牌，計(jì)算方法：MD5(apiKey + curTime + param)。三個(gè)值拼接的字符串，進(jìn)行MD5哈希計(jì)算（32位小寫）。

具體實(shí)現(xiàn)參考代碼中字典 header 。

發(fā)送請求&讀取結(jié)果

最后使用requests庫發(fā)送HTTP POST請求，得到結(jié)果。根據(jù)響應(yīng)的 header 可以判斷是否合成成功。

若響應(yīng)頭部包含Content-type: audio/mpeg，則響應(yīng)Body為音頻數(shù)據(jù)，可寫入文件保存。

若合成出現(xiàn)錯(cuò)誤，響應(yīng)頭部包含Content-type: text/plain，響應(yīng)Body為記載了錯(cuò)誤類型的json字符串。

返回值的具體說明請參考返回值 | 語音合成。

運(yùn)行結(jié)果

使用幾次后，感覺合成語音的斷句做得不是很優(yōu)秀，但響應(yīng)速度很快，還是比較滿意的。

output.mp3

小結(jié)

最近使用了幾種Web API，對這類API的使用方法也算是有些經(jīng)驗(yàn)了。最后，現(xiàn)在語音識別、圖靈機(jī)器人、語音合成都試著做了一遍，下一篇博客將把他們組合起來，實(shí)現(xiàn)一個(gè)簡單的語音助手。

感謝你閱讀文章！

GPU云服務(wù)器云服務(wù)器科大訊飛語音識別科大訊飛語音識別科大訊飛語音 linux 科大訊飛語音識別demo

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/44660.html

發(fā)表評論

登陸后可評論

0條評論

Eminjannn

男|高級講師

我要關(guān)注我要私信

TA的文章

面試題39：數(shù)組中出現(xiàn)次數(shù)超過一半的數(shù)字

閱讀 1490·2021-11-15 11:38
SpartanHost：西雅圖AMD Ryzen/E5系列大量補(bǔ)貨,10Gbps端口高防主機(jī)$3.5

閱讀 3631·2021-11-09 09:47
蘋果新推出的iCloud私有中繼服務(wù)存在缺陷可泄露用戶真實(shí)IP地址

閱讀 2070·2021-09-27 13:36
云主機(jī)可以干什么-云主機(jī)能做什么？

閱讀 3290·2021-09-22 15:17
用 Java 寫個(gè)塔防游戲「GitHub 熱點(diǎn)速覽 v.21.37」

閱讀 2669·2021-09-13 10:27
flex布局示例代碼一

閱讀 2916·2019-08-30 15:44
如何將 JSON, Text, XML, CSV 數(shù)據(jù)文件導(dǎo)入 MySQL

閱讀 1237·2019-08-27 10:53
使用less-loader與antd按需加載(babel-plugin-import)的坑

閱讀 2785·2019-08-26 14:00

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

在Python中使用科大訊飛Web API進(jìn)行語音合成

相關(guān)文章

科大訊飛語音識別和語音播放dome

**原 Python用ctypes調(diào)用動態(tài)庫的方式使用科大訊飛語音識別**

微信小程序--------語音識別（前端自己也能玩）

小程序?qū)崿F(xiàn)語音識別到底要填多少坑？

小程序?qū)崿F(xiàn)語音識別到底要填多少坑？

發(fā)表評論

0條評論

Eminjannn

男|高級講師

TA的文章

面試題39：數(shù)組中出現(xiàn)次數(shù)超過一半的數(shù)字

SpartanHost：西雅圖AMD Ryzen/E5系列大量補(bǔ)貨,10Gbps端口高防主機(jī)$3.5

蘋果新推出的iCloud私有中繼服務(wù)存在缺陷可泄露用戶真實(shí)IP地址

云主機(jī)可以干什么-云主機(jī)能做什么？

用 Java 寫個(gè)塔防游戲「GitHub 熱點(diǎn)速覽 v.21.37」

flex布局示例代碼一

如何將 JSON, Text, XML, CSV 數(shù)據(jù)文件導(dǎo)入 MySQL

使用less-loader與antd按需加載(babel-plugin-import)的坑

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

在Python中使用科大訊飛Web API進(jìn)行語音合成

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！