摘要:本屆會議共收到論文篇,創(chuàng)下歷史記錄有效篇。會議接收論文篇接收率。大會共有位主旨演講人。同樣,本屆較佳學(xué)生論文斯坦福大學(xué)的,也是使用深度學(xué)習(xí)做圖像識別。深度學(xué)習(xí)選擇深度學(xué)習(xí)選擇不過,也有人對此表示了擔(dān)心。指出,這并不是做學(xué)術(shù)研究的方法。
2016年的計算機視覺領(lǐng)域國際頂尖會議 Computer Vision and Pattern Recognition conference(CVPR2016)昨天在美國拉斯維加斯召開,會議將持續(xù)到當(dāng)?shù)貢r間6月30日下午。
本屆會議共收到論文 2145 篇,創(chuàng)下歷史記錄(有效 1865 篇)。會議接收論文 643 篇(接收率 29.9%)。其中,今年的大會還特別開設(shè) Spotlight Session,讓 123 篇論文的講者有 4 分鐘的時間口頭介紹其研究核心。
大會共有 3 位主旨演講人。第一天是 Amnon Shashua,著名計算機視覺算法公司 Mobileye 的聯(lián)合創(chuàng)始人。第二天,也就是今天的主旨演講,由哈佛大學(xué)心理系教授 Elizabeth Spelke 進行,主題是科學(xué)研究中的男女性別平等。明天的主旨演講者是牛津大學(xué)人類未來研究所的教授 Nick Bostrom。這樣看,不僅僅是計算機視覺和模式識別,主辦方連科研性別平等和人工智能發(fā)展趨勢都考慮了進去。
CVPR2016 活動日程表。短短三天,承載這么多的內(nèi)容。
深度學(xué)習(xí)一統(tǒng)計算機視覺江湖
?
根據(jù) Twiiter 上的消息,主要展臺都各有看點。例如 Twitter Cortex,剛剛收了 Magic Pony,展臺前聚集了很多人。
Twitter Cortex 展臺前人群聚集。來源:Twitter
MIT的研究者在會議上發(fā)布了給視頻配音的研究。
谷歌也在 Google Research Blog 刊登出了 CVPR 2016 相關(guān)內(nèi)容,論文、口頭報告、研討會,加起來總共十幾項。
TechCrunch 具體報道了谷歌與幾所高校合作的項目。
其中,谷歌與斯坦福大學(xué)合作,教計算機學(xué)會分辨場景中的關(guān)鍵信息。這項研究的目的是在同時有多人場景的視頻中跟蹤關(guān)鍵目標(biāo)。論文以籃球比賽視頻為例,計算機需要識別出場上最應(yīng)該注意的球員。
從畫面中識別出關(guān)鍵目標(biāo)才能提供更大信息量
研究人員利用遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計了一個計算機視覺系統(tǒng),下圖就是計算機查看每一幀畫面時的“注意力模式”(attention mask)。圖中紅框標(biāo)注場上球員,五角星代表籃球,持球運動員則用藍框表示。
三分球、成功搶到籃板球和投籃失敗的場景
經(jīng)過訓(xùn)練后,這個使用遞歸神經(jīng)網(wǎng)絡(luò)的系統(tǒng)不僅能夠識別出當(dāng)前畫面中的關(guān)鍵目標(biāo),也可以預(yù)測接下來即將成為關(guān)鍵目標(biāo)的是什么,這樣畫面與畫面之間的動作變化則將前后的關(guān)鍵部分連接起來。
谷歌與愛丁堡大學(xué)合作的一項研究,圖像識別系統(tǒng)的任務(wù)是學(xué)會找出每一幀畫面里,老虎的四條腿是如何運動的,并且預(yù)測接下來它將如何邁步。以往的研究是將畫面中活動的物體當(dāng)做一個整體,這項研究則分別跟蹤老虎的四條腿,并分別預(yù)測接下來每條腿的運動軌跡。
谷歌與 UCLA、牛津大學(xué)以及約翰霍普金斯大學(xué)合作的研究,訓(xùn)練圖像識別系統(tǒng)理解照片中不同部分的互動關(guān)系,生成更較精確的描述。
當(dāng)然,上面介紹的這三篇論文都使用了深度學(xué)習(xí)。實際上,正如 TechCrunch 報道最后所說,放眼望去,深度學(xué)習(xí)幾乎成了如今計算機視覺研究的標(biāo)配。
同樣,本屆 CVPR 2016較佳學(xué)生論文、斯坦福大學(xué)的 “Structural-RNN: Deep Learning on Spatio-Temporal Graphs”,也是使用深度學(xué)習(xí)做圖像識別。
深度學(xué)習(xí) ≠ 選擇
?
不過,也有人對此表示了擔(dān)心。
?
法國 Inria 研究所的研究員 Nikos Paragios 在 LinkedIn 撰文指出,直到 2010年,計算機視覺領(lǐng)域相關(guān)會議所涉及的專題,無論是從內(nèi)容上還是從方法上都相對完善,包括早期視覺、分割和組合、運動檢測和跟蹤、視覺識別以及三維視覺,而且?guī)缀跛醒芯慷加玫搅私y(tǒng)計、幾何和優(yōu)化的方法。參加這樣的一次會議,能讓人對計算機視覺技術(shù)的現(xiàn)狀、問題及發(fā)展獲得全面的了解。
?
但如今,絕大部分研究都使用了深度學(xué)習(xí)。當(dāng)然,Paragios 也表示,每個時期都自有其主導(dǎo)的潮流:20 世紀(jì) 80 年代是立體視覺(stereo)、20 世紀(jì) 90 年代是連續(xù)方法和分割組合,世紀(jì)之交離散方法上位,人們也開始再次關(guān)注視覺識別和描述。與此同時,機器學(xué)習(xí)作為一股后浪隨著前浪襲來,但盡管如此,當(dāng)時的計算機視覺研究還算多樣化,任選一個子領(lǐng)域就能看見新的想法。
?
但現(xiàn)在情況則大不相同。各個研究都專注于使用深度學(xué)習(xí)的方法解決計算機視覺問題,會議接收的論文里,發(fā)表的論文中有 80% 到 90%,口頭報告更是接近 100% 都來自深度學(xué)習(xí)領(lǐng)域。Paragios 在文章中寫道,雖然這樣做沒有問題,這些論文也都體現(xiàn)了實力,但他想知道這些研究“增加的”科學(xué)價值在哪里。
在 Paragios 看來,除了一小部分人還在堅持做基礎(chǔ)研究,探索深度學(xué)習(xí)方法的理論概念,大部分人似乎都跑去搭建更復(fù)雜、更龐大的框架——而且從所提交的論文看,基本上所有描述的框架都是不可擴展的。也就是說,盡管表面上看去成果豐碩,但深究起來這些論文背后幾乎沒有什么理論論證,因此也談不上為某個基準(zhǔn)增添了性能。Paragios 指出,這并不是做學(xué)術(shù)研究的方法。眾人的注意力都放在更快的速度更高的效率上,但追求的目標(biāo)還是與以往一樣,并不遠大,而且眾人眼中實現(xiàn)目標(biāo)的方法也僅剩一條了。
?
不僅會議如此,科研基金也如此,而這就直接導(dǎo)致了計算機視覺研究“理論深度”變淺,研究方向單一。Paragios 接著寫道,如果這只是因為近年來計算力和大數(shù)據(jù)崛起推動所致,那么這股熱潮自會過去,計算機視覺也會遵循計算機圖形的發(fā)展軌跡,從活動和學(xué)術(shù)研究的量上說,逐漸成為一門邊緣學(xué)科。
?
如果不是的話,Paragios 表示——那么問題來了:計算機視覺的下一步發(fā)展將是什么?“你怎么讓那些剛從學(xué)校出來,很有可能連統(tǒng)計學(xué)習(xí)、模式識別、歐氏幾何、連續(xù)和離散優(yōu)化都沒聽說過的的博士生提出新的想法?”
?
雖然事情不至于這么極端,但照這樣發(fā)展下去,Paragios 寫道,結(jié)果就只有兩條:要么是大家走向共和,實現(xiàn) David Marr 的假說——單一計算框架能解決所有視覺感知問題,當(dāng)然這也是一項成就;但萬一要是沿著深度學(xué)習(xí)走下去,最終卻無法解決各種各樣的計算機視覺問題……
Paragios 稱自己是深度學(xué)習(xí)懷疑論者、接受者、倡導(dǎo)者中的后兩種,但對前景還很迷茫。不過,他主張的研究多樣化,的確值得深思。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4352.html
摘要:于月日至日在意大利比薩舉行,主會于日開始。自然語言理解領(lǐng)域的較高級科學(xué)家受邀在發(fā)表主旨演講。深度學(xué)習(xí)的方法在這兩方面都能起到作用。下一個突破,將是信息檢索。深度學(xué)習(xí)在崛起,在衰退的主席在卸任的告別信中這樣寫到我們的大會正在衰退。 SIGIR全稱ACM SIGIR ,是國際計算機協(xié)會信息檢索大會的縮寫,這是一個展示信息檢索領(lǐng)域中各種新技術(shù)和新成果的重要國際論壇。SIGIR 2016于 7月17...
摘要:對于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起這是一個亙古不變的話題。接下來的論文將帶你深入理解深度學(xué)習(xí)方法深度學(xué)習(xí)在前沿領(lǐng)域的不同應(yīng)用。 對于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起?這是一個亙古不變的話題。而對那些已經(jīng)入門的同學(xué)來說,了解一下不同方向的論文,也是不時之需。有沒有一份完整的深度學(xué)習(xí)論文導(dǎo)引,讓所有人都可以在里面找到想要的內(nèi)容呢?有!今天就給...
摘要:年月日,將標(biāo)志著一個時代的終結(jié)。數(shù)據(jù)集最初由斯坦福大學(xué)李飛飛等人在的一篇論文中推出,并被用于替代數(shù)據(jù)集后者在數(shù)據(jù)規(guī)模和多樣性上都不如和數(shù)據(jù)集在標(biāo)準(zhǔn)化上不如。從年一個專注于圖像分類的數(shù)據(jù)集,也是李飛飛開創(chuàng)的。 2017 年 7 月 26 日,將標(biāo)志著一個時代的終結(jié)。那一天,與計算機視覺頂會 CVPR 2017 同期舉行的 Workshop——超越 ILSVRC(Beyond ImageNet ...
摘要:但年在機器學(xué)習(xí)的較高級大會上,蘋果團隊的負責(zé)人宣布,公司已經(jīng)允許自己的研發(fā)人員對外公布論文成果。蘋果第一篇論文一經(jīng)投放,便在年月日,斬獲較佳論文。這項技術(shù)由的和開發(fā),使用了生成對抗網(wǎng)絡(luò)的機器學(xué)習(xí)方法。 GANs「對抗生成網(wǎng)絡(luò)之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網(wǎng)絡(luò)(GAN/Generative Adversarial ...
摘要:第二次則是今年初,論文被深度學(xué)習(xí)盛會拒絕。表示遺憾乃至憤怒的人不在少數(shù)。他認為,使從其他學(xué)術(shù)實驗室中脫穎而出的,是它的跨領(lǐng)域文化。騰訊也在籌建人工智能實驗室,近期消息就會正式公布。 牛津大學(xué)和 DeepMind 的研究人員合作,開發(fā)出一款能夠閱讀唇語的系統(tǒng),這個名叫 Watch, Attend and Spell(WAS)的軟件在實際表現(xiàn)中遠遠超越了人類專家的水平。研究人員使用計算機視覺和機...
閱讀 2635·2023-04-25 18:13
閱讀 865·2021-11-22 12:10
閱讀 3047·2021-11-22 11:57
閱讀 2200·2021-11-19 11:26
閱讀 2230·2021-09-22 15:40
閱讀 1518·2021-09-03 10:28
閱讀 2751·2019-08-30 15:53
閱讀 2006·2019-08-30 15:44