亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

阿里通義音頻生成大模型 FunAudioLLM 開(kāi)源!

UCloud小助手 / 906人閱讀

簡(jiǎn)介
近年來(lái),人工智能(AI)技術(shù)的進(jìn)步極大地改變了人類與機(jī)器的互動(dòng)方式,特別是在語(yǔ)音處理領(lǐng)域。阿里巴巴通義實(shí)驗(yàn)室最近開(kāi)源了一個(gè)名為FunAudioLLM的語(yǔ)音大模型項(xiàng)目,旨在促進(jìn)人類與大型語(yǔ)言模型(LLMs)之間的自然語(yǔ)音交互。FunAudioLLM包含兩個(gè)核心模型:SenseVoice和CosyVoice,分別負(fù)責(zé)語(yǔ)音理解和語(yǔ)音生成。
SenseVoice:語(yǔ)音理解模型
SenseVoice是一個(gè)功能強(qiáng)大的語(yǔ)音理解模型,支持多種語(yǔ)音處理任務(wù),包括自動(dòng)語(yǔ)音識(shí)別(ASR)、語(yǔ)言識(shí)別(LID)、語(yǔ)音情緒識(shí)別(SER)和音頻事件檢測(cè)(AED)。其主要特點(diǎn)包括:

  • 多語(yǔ)言支持:SenseVoice支持超過(guò)50種語(yǔ)言的語(yǔ)音識(shí)別。
  • 低延遲:SenseVoice-Small模型具有極低的推理延遲,比Whisper-small快5倍以上,比Whisper-large快15倍以上,適用于實(shí)時(shí)語(yǔ)音交互應(yīng)用。
  • 高精度:SenseVoice-Large模型在高精度語(yǔ)音識(shí)別方面表現(xiàn)出色,適用于需要高精度識(shí)別的應(yīng)用。
  • 豐富的語(yǔ)音理解功能:包括情緒識(shí)別和音頻事件檢測(cè),為復(fù)雜的語(yǔ)音交互應(yīng)用提供支持。

CosyVoice:語(yǔ)音生成模型
CosyVoice是一個(gè)功能強(qiáng)大的語(yǔ)音生成模型,可以生成自然流暢的語(yǔ)音,并支持多種語(yǔ)言、音色、說(shuō)話風(fēng)格和說(shuō)話人身份的控制。其主要特點(diǎn)包括:

  • 多語(yǔ)言語(yǔ)音生成:支持中文、英文、日語(yǔ)、粵語(yǔ)和韓語(yǔ)等多種語(yǔ)言的語(yǔ)音生成。
  • 零樣本學(xué)習(xí):可以通過(guò)少量參考語(yǔ)音進(jìn)行語(yǔ)音克隆。
  • 跨語(yǔ)言語(yǔ)音克?。嚎梢詫⒄Z(yǔ)音克隆到不同的語(yǔ)言中。
  • 情感語(yǔ)音生成:可以生成情感豐富的語(yǔ)音,如快樂(lè)、悲傷、憤怒等。
  • 指令遵循:可以通過(guò)指令文本控制語(yǔ)音輸出的各個(gè)方面,如說(shuō)話人身份、說(shuō)話風(fēng)格和副語(yǔ)言特征。

 訓(xùn)練數(shù)據(jù)

  • SenseVoice:使用了約40萬(wàn)小時(shí)的多語(yǔ)言語(yǔ)音數(shù)據(jù),并通過(guò)開(kāi)源的音頻事件檢測(cè)(AED)和語(yǔ)音情緒識(shí)別(SER)模型生成偽標(biāo)簽,構(gòu)建了一個(gè)包含大量豐富語(yǔ)音識(shí)別標(biāo)簽的數(shù)據(jù)集。
  • CosyVoice:使用了多種語(yǔ)言的語(yǔ)音數(shù)據(jù)集,并通過(guò)專門的工具進(jìn)行語(yǔ)音檢測(cè)、信噪比(SNR)估計(jì)、說(shuō)話人分割和分離等操作,以提高數(shù)據(jù)質(zhì)量。

實(shí)驗(yàn)結(jié)果
FunAudioLLM在多個(gè)語(yǔ)音理解和生成任務(wù)上取得了優(yōu)異的性能:

  • 多語(yǔ)言語(yǔ)音識(shí)別:SenseVoice在大多數(shù)測(cè)試集上優(yōu)于Whisper模型,特別是在低資源語(yǔ)言上表現(xiàn)更佳。
  • 語(yǔ)音情緒識(shí)別:在7個(gè)流行的情緒識(shí)別數(shù)據(jù)集上表現(xiàn)出色,無(wú)需微調(diào)即可獲得高準(zhǔn)確率。
  • 音頻事件檢測(cè):能夠識(shí)別語(yǔ)音中的音頻事件,如音樂(lè)、掌聲和笑聲。
  • 語(yǔ)音生成質(zhì)量:CosyVoice在內(nèi)容一致性和說(shuō)話人相似度方面表現(xiàn)出色,生成的語(yǔ)音與原始語(yǔ)音高度一致。

 應(yīng)用場(chǎng)景
FunAudioLLM的SenseVoice和CosyVoice模型可以應(yīng)用于多個(gè)場(chǎng)景,包括:

  • 語(yǔ)音翻譯:將輸入語(yǔ)音翻譯成目標(biāo)語(yǔ)言,并生成目標(biāo)語(yǔ)言的語(yǔ)音。
  • 情感語(yǔ)音聊天:識(shí)別輸入語(yǔ)音的情緒和音頻事件,并生成與情緒相符的語(yǔ)音。
  • 交互式播客:根據(jù)實(shí)時(shí)世界知識(shí)和內(nèi)容生成播客腳本,并使用CosyVoice合成語(yǔ)音。
  • 有聲讀物:分析文本中的情感和角色,并使用CosyVoice合成具有豐富情感的有聲讀物。

 局限性
盡管FunAudioLLM在多個(gè)方面表現(xiàn)出色,但仍存在一些局限性:

  • 低資源語(yǔ)言:SenseVoice在低資源語(yǔ)言上的語(yǔ)音識(shí)別準(zhǔn)確率較低。
  • 流式識(shí)別:SenseVoice不支持流式語(yǔ)音識(shí)別。
  • 語(yǔ)言支持:CosyVoice支持的語(yǔ)言數(shù)量有限。
  • 情感和風(fēng)格推斷:CosyVoice需要明確的指令才能生成特定情緒和風(fēng)格的語(yǔ)音。
  • 唱歌:CosyVoice在唱歌方面表現(xiàn)不佳。
  • 端到端訓(xùn)練:FunAudioLLM的模型不是與LLMs端到端訓(xùn)練的,這可能會(huì)引入誤差傳播。

總的來(lái)說(shuō),F(xiàn)unAudioLLM在語(yǔ)音理解和生成方面展現(xiàn)了強(qiáng)大的能力,為語(yǔ)音交互應(yīng)用提供了新的可能性。通過(guò)開(kāi)源,阿里巴巴希望能夠促進(jìn)社區(qū)的參與和進(jìn)一步發(fā)展。


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/131132.html

相關(guān)文章

  • 能自動(dòng)化視頻剪輯的開(kāi)源工具來(lái)了!剪輯師、自媒體作者狂喜

    項(xiàng)目簡(jiǎn)介Funclip 是阿里巴巴通義實(shí)驗(yàn)室開(kāi)源的一款視頻剪輯工具,專門用于精準(zhǔn)、便捷的視頻切片。它能夠自動(dòng)識(shí)別視頻中的中文語(yǔ)音并允許用戶根據(jù)語(yǔ)音內(nèi)容來(lái)裁剪視頻。該工具使用了阿里巴巴語(yǔ)音識(shí)別模型FunASR Paraformer-Large確保了剪輯的精準(zhǔn)性。你可以根據(jù)識(shí)別結(jié)果選擇文本片段或說(shuō)話人進(jìn)行視頻裁剪。使得視頻剪輯變得非常方便。Funclip不僅支持中文,未來(lái)還將支持英文視頻剪輯,是視頻內(nèi)...

    UCloud小助手 評(píng)論0 收藏0
  • 直播帶貨模型,開(kāi)啟自動(dòng)賣貨的時(shí)代!

    Streamer-Sales是一個(gè)為直播帶貨主播量身定制的智能工具。它能夠智能分析商品特性,自動(dòng)創(chuàng)作出引人入勝的解說(shuō)詞,從而有效增強(qiáng)商品的吸引力和提升銷售業(yè)績(jī)。它還具備多種交互功能,比如將主播的語(yǔ)音實(shí)時(shí)轉(zhuǎn)換為文字,便于與觀眾進(jìn)行更直接的交流。它還能夠生成富有感情色彩的語(yǔ)音,讓商品介紹更加生動(dòng),以及創(chuàng)造虛擬主播的視頻,為觀眾帶來(lái)更加直觀和有趣的購(gòu)物體驗(yàn)。具體功能1. 主播文案生成:系統(tǒng)能夠基于商品特...

    UCloud小助手 評(píng)論0 收藏0
  • 阿里云AI如何助攻世界杯?視頻集錦背后的技術(shù)實(shí)踐

    摘要:可預(yù)見(jiàn)的未來(lái)激情賽事已經(jīng)過(guò)半,阿里云視頻技術(shù)在本次世界杯中也成功落地,而這并不是結(jié)局,這是將視頻應(yīng)用于體育行業(yè)以及更多其他行業(yè)的開(kāi)端。 本屆世界杯互聯(lián)網(wǎng)直播的順利進(jìn)行,離不開(kāi)各大云計(jì)算廠商的支持。在這其中,阿里云是當(dāng)之無(wú)愧的C位,除了優(yōu)酷外,阿里云還支撐了CNTV、CCTV5客戶端,為全網(wǎng)70%的世界杯直播流量保駕護(hù)航。 對(duì)于世界杯這種超大觀看量級(jí)、超強(qiáng)影響力的重要體育賽事,阿里云一直...

    BothEyes1993 評(píng)論0 收藏0
  • 從Pix2Code到CycleGAN:2017年深度學(xué)習(xí)重研究進(jìn)展全解讀

    摘要:文本谷歌神經(jīng)機(jī)器翻譯去年,谷歌宣布上線的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過(guò)了人類。在該技術(shù)的發(fā)展過(guò)程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。 1. 文本1.1 谷歌神經(jīng)機(jī)器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。關(guān)鍵結(jié)果:與...

    kuangcaibao 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<