摘要:它們的學(xué)習(xí)過(guò)程主要來(lái)自于深度學(xué)習(xí)框架,該項(xiàng)目也由美國(guó)國(guó)家科學(xué)基金會(huì)資助。聽(tīng)音辨物為視頻匹配逼真聲音是音效師的主要工作領(lǐng)域后期制作音頻向?qū)В麄冇涗浤阍谝徊亢萌R塢電影中看到和聽(tīng)到的腳步聲門(mén)的嘎吱聲騰空橫踢。
神經(jīng)網(wǎng)絡(luò)已經(jīng)在玩游戲方面超過(guò)了我們,并且也應(yīng)用于智能手機(jī)照片的管理以及郵件回復(fù)方面。此外,它們還能在好萊塢謀得一職。?
在 MIT 的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL),一個(gè)由 6 位研究人員組成的小組創(chuàng)建了一套機(jī)器學(xué)習(xí)系統(tǒng),它可以將聲音效果與視頻剪輯匹配。 別高興得太早,CSAIL 的算法還不能在任何舊的視頻上工作,而且它產(chǎn)生的聲音效果也是有限的。對(duì)于該項(xiàng)目,CSAIL 的博士生 Andrew Owens 和研究生 Phillip Isola 將他們用鼓槌重?fù)粢欢褨|西錄制成視頻,包括樹(shù)樁、桌子、椅子、水坑、樓梯扶手、枯葉,還有骯臟的地面。?
該小組將最初的 1000 個(gè)批量視頻輸入到它的 AI 算法中。通過(guò)分析視頻中物體的物理外觀,鼓槌的每次運(yùn)動(dòng)軌跡,還有最終的聲音,計(jì)算機(jī)能夠?qū)W習(xí)到物理物體和它被擊中所發(fā)聲音之間的聯(lián)系。然后,通過(guò)“觀 看”物體被鼓槌重?fù)?,輕敲和刮蹭時(shí)的不同視頻,這個(gè)系統(tǒng)可以計(jì)算出伴隨每個(gè)剪輯相應(yīng)的音調(diào)、音量以及的聲音聽(tīng)覺(jué)特性。
視頻:https://youtu.be/0FW99AQmMc8?
該算法本身不產(chǎn)生聲音——它只是從成千上萬(wàn)的音頻剪輯數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)。此外,聲音效果也不是基于視覺(jué)匹配來(lái)選擇;你可以在上面視頻中1:20 處看到,該算法有自己的創(chuàng)意。它隨著沙沙作響的塑料袋來(lái)選擇聲音效果,在灌木從徹底被鼓槌敲擊時(shí)直接給出聲音效果。?
Owens 說(shuō),研究小組使用 卷積神經(jīng)網(wǎng)絡(luò)來(lái)分析視頻幀,遞歸神經(jīng)網(wǎng)絡(luò)來(lái)選擇對(duì)應(yīng)的音頻。?
它們的學(xué)習(xí)過(guò)程主要來(lái)自于 Caffe 深度學(xué)習(xí)框架,該項(xiàng)目也由美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation and Shell)資助。小組的一名成員在谷歌研究院工作,Owens 則是微軟研究獎(jiǎng)學(xué)金計(jì)劃的一員。?
Owens 說(shuō),“我們幾乎已經(jīng)把現(xiàn)有的深度學(xué)習(xí)技術(shù)運(yùn)用到了新領(lǐng)域,我們的目標(biāo)不是開(kāi)發(fā)新的深度學(xué)習(xí)方法。”?
聽(tīng)音辨物?
為視頻匹配逼真聲音是音效師的主要工作領(lǐng)域——后期制作音頻向?qū)?,他們記錄你在一部好萊塢電影中看到(和聽(tīng)到)的腳步聲、門(mén)的嘎吱聲、騰空橫踢。?
一位出色的音效師可以將聲音較精確匹配給視頻,讓觀眾誤以為這聲音是實(shí)際捕捉到的。?
MIT 的機(jī)器人還沒(méi)有這么嫻熟。該研究小組進(jìn)行了一項(xiàng)在線調(diào)查,為 4000 名參與者展示了同一視頻配上原始音頻和算法生成的聲音版本,然后讓他們選擇哪個(gè)視頻里的聲音是真實(shí)的。有 22% 的人選擇了假音頻——還遠(yuǎn)不完美,但效果仍是之前版本算法的兩倍。?
根據(jù) Owens 所述,那些測(cè)試結(jié)果是一個(gè)好兆頭,預(yù)示著計(jì)算機(jī)視覺(jué)算法可以檢測(cè)物體的組成,以及輕敲、重?fù)?、刮蹭物體時(shí)產(chǎn)生的不同物理效果。不過(guò),還是有些物體系統(tǒng)不能 正確處理。有些時(shí)候,系統(tǒng)會(huì)認(rèn)為鼓槌在撞擊某一物體,但實(shí)際上并沒(méi)有,比起對(duì)更堅(jiān)實(shí)物體產(chǎn)生的聲音效果,更多的人更容易被對(duì)落葉和灰塵產(chǎn)生的聲音效果愚 弄。?
這個(gè)項(xiàng)目不僅僅是為了產(chǎn)生有趣的聲音效果,它背后還有更深層的原因。Owens 認(rèn)為,如果該系統(tǒng)已經(jīng)非常完善,那么計(jì)算機(jī)視覺(jué)技術(shù)就可以幫助機(jī)器人通過(guò)分析物體發(fā)出的聲音來(lái)識(shí)別它的材質(zhì)和物理屬性。Owens 說(shuō),“我們希望這些算法通過(guò)觀察這些物理相互作用以及響應(yīng)來(lái)學(xué)習(xí),你可以把它想象成嬰兒那樣通過(guò)敲打、跺腳和玩耍來(lái)學(xué)習(xí)世界?!?
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4389.html
摘要:月日下午,七牛云美圖共享日在廈門(mén)舉行,來(lái)自七牛云美圖廈門(mén)大學(xué)羅普特等眾位大咖齊聚一堂。七牛云美圖共享日精華語(yǔ)錄計(jì)算機(jī)識(shí)別是按照具體問(wèn)題具體分析,具體場(chǎng)景具體分析。又稱(chēng)小牛匯共享日,是小牛匯舉辦的第一個(gè)系列活動(dòng)。 時(shí)間機(jī)器、穿越星際的宇宙飛船、飛行汽車(chē),幾乎每一部科幻電影作品中都能發(fā)明點(diǎn)新東西。超現(xiàn)實(shí)技術(shù)在引起人們陣陣贊嘆的同時(shí),也在激勵(lì)著人們思考如何將不可能變成可能。而在我們的生活當(dāng)中...
摘要:基于深度學(xué)習(xí)的,主要是基于單張低分辨率的重建方法,即。而基于深度學(xué)習(xí)的通過(guò)神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)分辨率圖像到高分辨率圖像的端到端的映射函數(shù)。 超分辨率技術(shù)(Super-Resolution)是指從觀測(cè)到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,在監(jiān)控設(shè)備、衛(wèi)星圖像和醫(yī)學(xué)影像等領(lǐng)域都有重要的應(yīng)用價(jià)值。SR可分為兩類(lèi):從多張低分辨率圖像重建出高分辨率圖像和從單張低分辨率圖像重建出高分辨率圖像。基于深度學(xué)...
閱讀 1713·2021-09-08 10:42
閱讀 3669·2021-08-11 10:23
閱讀 4178·2019-08-30 14:10
閱讀 2792·2019-08-29 17:29
閱讀 3151·2019-08-29 12:50
閱讀 694·2019-08-26 13:36
閱讀 3517·2019-08-26 11:59
閱讀 1547·2019-08-23 16:23