亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

了解語(yǔ)音交互:從“若琪,今天杭州的天氣”發(fā)生了什么?

kel / 3724人閱讀

摘要:接下來(lái),由會(huì)通過(guò)上傳音頻數(shù)據(jù),云端通過(guò)一系列算法最終將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為兩部分結(jié)果純文本,表示這段音頻數(shù)據(jù)中用戶所說(shuō)的話,比如若琪今天的天氣。

本文是面向 Web 開(kāi)發(fā)者所寫(xiě),介紹關(guān)于“語(yǔ)音交互”的一篇科普性質(zhì)的文章,希望借助這篇文章,讓開(kāi)發(fā)者了解到什么是語(yǔ)音交互,以及在 YodaOS 中的技術(shù)實(shí)現(xiàn)。不了解YodaOS是什么?點(diǎn)擊這里回顧。

作為 Web 開(kāi)發(fā)者,相信在面試時(shí)常會(huì)被問(wèn)到“瀏覽器輸入 URL 后發(fā)生了什么”這樣的經(jīng)典問(wèn)題,這可以很好地幫助工程師理解整個(gè) Web 的技術(shù)棧。因此,本文將從“若琪,今天杭州的天氣”這一句話開(kāi)始,盡量讓大家了解到語(yǔ)音交互的技術(shù)全貌。

以下章節(jié)涉及到的知識(shí)點(diǎn)包括(可以先自行查閱之):
語(yǔ)音激活(VT)
語(yǔ)音識(shí)別(ASR)
語(yǔ)義理解(NLP)
語(yǔ)音合成(TTS)
技能(Skill)——語(yǔ)音交互時(shí)代的應(yīng)用
如下是一次語(yǔ)音交互的流程:

從上圖可以看出:

首先,用戶(人類)通過(guò)智能設(shè)備上的麥克風(fēng)獲取音頻信號(hào)數(shù)據(jù)(PCM),通過(guò)“語(yǔ)音激活”模塊,它能正確地將帶有激活詞的數(shù)據(jù)轉(zhuǎn)換成云端可以識(shí)別的音頻數(shù)據(jù)(如 opus)。

接下來(lái),由 VUI Client 會(huì)通過(guò) WebSocket 上傳音頻數(shù)據(jù),云端通過(guò)一系列算法最終將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為兩部分結(jié)果:

ASR:純文本,表示這段音頻數(shù)據(jù)中用戶所說(shuō)的話,比如“若琪今天的天氣”。
NLP:JSON 格式的數(shù)據(jù),NLP 也叫語(yǔ)義理解,通常會(huì)把每句話解析成兩個(gè)重要的信息:

一部分叫意圖(Intent),表示用戶說(shuō)這句話的目的,比如“今天的天氣”,那我們可以獲得這句話的意圖是 query_weather,表示在查詢天氣;

另一部分是具體信息(Slots),一般在 JSON 中是一個(gè)對(duì)象,比如“今天的天氣”會(huì)在 slots.date 中為 today,表示這句話詢問(wèn)的是“今天”的天氣,類似也可以有像 slots.location 用于表示詢問(wèn)的是“哪兒”的天氣;

ASR 和 NLP 會(huì)由 VUI Runtime 下發(fā)到具體的技能(Skill),每個(gè)技能通過(guò)解析 Intent 和 Slots 來(lái)做對(duì)應(yīng)的處理,最終生成為一段文本,由 TTS 回復(fù)給用戶。

以上其實(shí)就是一次語(yǔ)音交互的基本流程,接下來(lái)會(huì)按照不同的模塊分別介紹。

語(yǔ)音激活流程

在說(shuō)明這個(gè)流程之前,先來(lái)看看為什么需要它。當(dāng)用戶與一個(gè)智能設(shè)備交互時(shí),由于媒介是語(yǔ)音(空氣),所以不像傳統(tǒng)的 GUI(PC、平板、手機(jī))設(shè)備,它們擁有一個(gè)獨(dú)自的媒介平臺(tái)(如屏幕、按鍵等),所以交互目標(biāo)是明確的。而生活中空氣是共享的,這意味著在交互之前,首先要判斷用戶是不是想要跟你說(shuō)話,比如你說(shuō)“幫我開(kāi)下燈”,可能是讓你老婆去開(kāi)燈,而不是若琪。

無(wú)論 Alexa、若琪、小愛(ài)同學(xué),還是天貓精靈,首先需要給設(shè)備取一個(gè)悅耳的名字,這樣設(shè)備才能知道你是否在跟他/她說(shuō)話,這——便是語(yǔ)音激活模塊要做的事兒。

然而要做好這么一件簡(jiǎn)單的事兒,可不容易。

首先我們先了解下什么是 PCM,維基百科上中文名稱叫:脈沖編碼調(diào)制。很難理解對(duì)吧?如果要把整個(gè)概念說(shuō)清楚,可能需要涉及到很多聲學(xué)和信號(hào)學(xué)的知識(shí),這里就不拓展了。簡(jiǎn)單來(lái)說(shuō),你可以把它理解為,就是你說(shuō)了一段話(語(yǔ)音),然后被麥克風(fēng)記錄成了二進(jìn)制數(shù)據(jù),這個(gè)原始數(shù)據(jù)就叫 PCM。

了解了 PCM 后,再來(lái)了解2個(gè)概念:

AEC,自音源消除。在智能音響上,通常都有麥克風(fēng)和揚(yáng)聲器,麥克風(fēng)在收音時(shí),會(huì)把當(dāng)前設(shè)備通過(guò)揚(yáng)聲器播放的聲音也記錄下來(lái),因此 AEC 所做的就是從 PCM 數(shù)據(jù)中將設(shè)備本身播放的音頻消除,減少干擾。
VT,激活算法模塊。將 AEC 后的音頻數(shù)據(jù)輸入到 VT 算法/模型中,他會(huì)給出激活分?jǐn)?shù),最后通過(guò)分?jǐn)?shù)判斷是否激活。

在激活模塊內(nèi)部,從麥克風(fēng)獲取到語(yǔ)音數(shù)據(jù)后,會(huì)經(jīng)過(guò) AEC 處理,將揚(yáng)聲器的聲音消除,接著會(huì)通過(guò)其他降噪算法去除一些額外的噪音,然后將最終處理過(guò)后的音頻數(shù)據(jù)輸入 VT,若模型判斷是激活的話,就會(huì)把后面的(音頻)數(shù)據(jù)通過(guò) VUI Client 上傳到云端 ASR,直到云端判斷用戶說(shuō)完了并結(jié)束本次交互。

NLP 下發(fā)流程

前面講到從云端會(huì)下發(fā)兩種類型的數(shù)據(jù):ASR 與 NLP,然而對(duì)于云端是如何生成這些數(shù)據(jù)并沒(méi)有提及,這里我們先稍微講解一些 NLP 的部分。

在 ASR 將音頻數(shù)據(jù)轉(zhuǎn)成文本后,會(huì)輸入給 NLP 服務(wù)(云端),那么云端是怎么把一段簡(jiǎn)單的文本解析成本地想要的 JSON 格式呢?NLP 引入了領(lǐng)域(Domain)概念,比如“若琪,今天的天氣”會(huì)被劃分為天氣領(lǐng)域,“我要開(kāi)燈”是 IoT 領(lǐng)域,“我要聽(tīng)歌”則是音樂(lè)領(lǐng)域,類似的領(lǐng)域還有故事、時(shí)間、百科、導(dǎo)航和聊天等。

可以簡(jiǎn)單理解為領(lǐng)域是一個(gè)大的范圍,表示用戶想要跟設(shè)備交流的主題,而意圖則是在這個(gè)主題下一個(gè)個(gè)需要設(shè)備幫助完成的任務(wù)。比如“今天的天氣”,主題是天氣,而意圖則是問(wèn)詢。

有了“領(lǐng)域”的概念后,當(dāng)我們獲取到一串文本后,會(huì)經(jīng)過(guò)預(yù)先訓(xùn)練好的模型以及預(yù)先定義好的規(guī)則和說(shuō)法,就能判斷出這段文本命中了什么領(lǐng)域和意圖,然后再?gòu)奈谋局谐槌鱿嚓P(guān)的信息。最后將所有信息組合成一個(gè)完整的 JSON 下發(fā)至設(shè)備端。設(shè)備通過(guò)每條 NLP 命中領(lǐng)域或技能的不同,下發(fā)給對(duì)應(yīng)的技能進(jìn)行處理。

CloudApp

語(yǔ)音交互的輸出相對(duì)比較單一,基本上是:TTS、音效以及多媒體音樂(lè),因此這里有一個(gè) VUI Rendering 的概念。

在 GUI 時(shí)代,渲染的輸出是屏幕的可交互的控件、聲音以及視頻。而 VUI 就是 TTS、音效和多媒體音樂(lè),相對(duì)于 GUI 來(lái)說(shuō),已經(jīng)相當(dāng)簡(jiǎn)單了。因此與 Web 一樣,VUI 渲染也分為服務(wù)端渲染和本地渲染:

本地渲染:本地應(yīng)用直接處理 NLP 數(shù)據(jù),在本地執(zhí)行業(yè)務(wù)邏輯,并最終播放 TTS、音效以及多媒體音樂(lè)。
服務(wù)端渲染:NLP 服務(wù)會(huì)將數(shù)據(jù)先發(fā)送到預(yù)先配置好的一臺(tái)服務(wù)器,在服務(wù)器上執(zhí)行業(yè)務(wù)邏輯,并分別將 TTS、音效和多媒體音樂(lè)轉(zhuǎn)換為一條條指令(Directive),返回給 NLP 服務(wù),最后設(shè)備端收到后,只需按照指令執(zhí)行對(duì)應(yīng)的操作即可。

一般把在服務(wù)端渲染的應(yīng)用稱作 CloudApp,其優(yōu)點(diǎn)當(dāng)然是實(shí)時(shí)更新,開(kāi)發(fā)快捷簡(jiǎn)便,與 Web 的運(yùn)行機(jī)制類似,缺點(diǎn)則是能力受限,拓展依賴于協(xié)議本身的能力(類似于瀏覽器沙箱)。

技能生命周期

無(wú)論是本地還是云端,技能跟我們所熟知的頁(yè)面一樣具有其生命周期,VUI Runtime 會(huì)對(duì)其進(jìn)行管理。在 YodaOS 中,每個(gè)技能可以由兩種方式啟動(dòng):

用戶通過(guò)語(yǔ)音 NLP 下發(fā)命令并啟動(dòng)。
用戶通過(guò)設(shè)備按鍵觸發(fā)啟動(dòng)。

每個(gè)技能在啟動(dòng)后,就會(huì)處于技能棧棧頂,表示當(dāng)前技能正在運(yùn)行,此時(shí)可以控制設(shè)備的輸出內(nèi)容(TTS、音效與多媒體)。與此同時(shí),若之前有技能已經(jīng)在運(yùn)行,則會(huì)將之前的技能銷(xiāo)毀或暫停,這取決于他是即時(shí)(CUT)還是場(chǎng)景(SCENE)技能:

CUT:用于單次會(huì)話的技能,因此有新的技能命中時(shí),會(huì)毫不猶豫地結(jié)束(銷(xiāo)毀)該技能。
SCENE:用于長(zhǎng)時(shí)間需要交互的技能,如音樂(lè)播放、游戲或有聲故事。若新請(qǐng)求的技能是 CUT,會(huì)先暫停上一個(gè)技能,待 CUT 結(jié)束后恢復(fù);若新請(qǐng)求的技能是 SCENE,則會(huì)替換掉之前的技能。

總結(jié)

其實(shí)一次語(yǔ)音交互遠(yuǎn)不止上文所提到的這些流程,這里也僅僅希望拋磚引玉,以及給對(duì)于語(yǔ)音交互感興趣的工程師分享出我們?cè)谧?YodaOS 的一些心得,最后歡迎大家關(guān)注我們的 VUI Runtime:https://github.com/yodaos-pro...。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/101931.html

相關(guān)文章

  • 音頻組件開(kāi)發(fā)實(shí)踐

    摘要:相關(guān)操作音頻的打斷音頻的打斷包括兩種情況組件重新上傳新的語(yǔ)音第一種情況,解綁相關(guān)事件,釋放內(nèi)存。當(dāng)瀏覽器預(yù)計(jì)能夠在不停下來(lái)進(jìn)行緩沖的情況下持續(xù)播放指定的音頻視頻時(shí),會(huì)發(fā)生事件。 我的blog原文鏈接 最近公司迭代的項(xiàng)目中,新增了音頻播放功能,填了不少音頻的坑,總結(jié)一下: 需求: 交互需求: 上傳:點(diǎn)擊按鈕上傳語(yǔ)音,返回文件id(上傳文件的范疇,本文不會(huì)闡述) 播放:點(diǎn)擊播放按鈕,異...

    qpwoeiru96 評(píng)論0 收藏0
  • 資深前端面試官建議,助你走進(jìn)阿里

    摘要:適當(dāng)引導(dǎo)面試官。如果有機(jī)會(huì)來(lái)實(shí)習(xí),如何最有效的快速成長(zhǎng)淘寶技術(shù)部前端內(nèi)部有針對(duì)新同學(xué)的前端夜校,有專門(mén)的老師授課。 阿里巴巴2019前端實(shí)習(xí)生招聘還剩最后兩周,面向2019年11月1日至2020年10月31日之間畢業(yè)的同學(xué),在這里分享下阿里前端面試考核的關(guān)鍵點(diǎn): Q:在面試過(guò)程中,前端面試官如何考核面試者?A:會(huì)看同學(xué)為什么選擇前端行業(yè)?是因?yàn)樗惴ㄌy?Java、C++太難?還是因?yàn)闊?..

    Pluser 評(píng)論0 收藏0
  • 工作5年后我才發(fā)現(xiàn):90%技術(shù)問(wèn)題,可以解決

    摘要:指令識(shí)別喚醒后,可以下發(fā)指令比如播放音樂(lè),查詢天氣,撥打電話定鬧鐘等,檢查指令可以正常被執(zhí)行。所以,語(yǔ)音識(shí)別測(cè)試也可以進(jìn)行一些自動(dòng)化測(cè)試。 01.前言 現(xiàn)在市面上...

    wupengyu 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

kel

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<