摘要:自從年深秋,他開始在上撰寫并公開分享他感興趣的機器學(xué)習(xí)論文。本文選取了上篇閱讀注釋的機器學(xué)習(xí)論文筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。主要講述的是奧德賽因為激怒了海神波賽多而招致災(zāi)禍。
Hugo Larochelle博士是一名謝布克大學(xué)機器學(xué)習(xí)的教授,社交媒體研究科學(xué)家、知名的神經(jīng)網(wǎng)絡(luò)研究人員以及深度學(xué)習(xí)狂熱愛好者。自從2015年深秋,他開始在arXiv上撰寫并公開分享他感興趣的機器學(xué)習(xí)論文。在這篇文章發(fā)布之前,他已經(jīng)分享了10篇論文筆記。
本文選取了arXiv上5篇Hugo閱讀注釋的機器學(xué)習(xí)論文筆記。為使我們更好地理解這些內(nèi)容,每篇論文介紹了摘要并附上了Hugo的筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。
1.非回溯遞歸網(wǎng)絡(luò)訓(xùn)練
Training recurrent networks online without backtracking
作者:Yann Ollivier、Guillaume Charpiat
arXiv上發(fā)布日期:2015年7月28日
摘要(摘錄):我們引入「非回溯」算法來訓(xùn)練類似遞歸神經(jīng)網(wǎng)絡(luò)這樣的動態(tài)系統(tǒng)的參數(shù)。這個算法在線上、無內(nèi)存的條件下運行,因此不需要反向時間傳播,有可拓展性,避免了保持當(dāng)前狀態(tài)參數(shù)的全向梯度所需要的大量的計算和內(nèi)存成本。[…]先前在簡單任務(wù)上的測試表明,相對于保持全向梯度,引入梯度隨機近似算法后,似乎并沒有給軌跡引入過多噪聲,可以確認(rèn)具有優(yōu)良性能和保證在卡爾曼版本的非回溯算法上的可拓展性。
Hugo的注釋(摘錄):
RNN線上訓(xùn)練是一個宏大而未解決的問題。
人們現(xiàn)今使用的方法是把回溯截斷為幾個過去的步長,這更多是一種探索性的做法。
這篇論文在原則方法基礎(chǔ)上更近了一步。我很欣賞方程式7的「秩一技巧」,很精致可愛!這也是這個方法的中心,把這些點聯(lián)系到了一起,干得真好!
作者介紹這項工作只是初步的,他們確實并沒有和截斷回溯比較。我迫切希望他們在未來的工作中做下比較,并且,我不贊同『隨機梯度下降理論在此處可以應(yīng)用到』這個論點。
2.基于梯形網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)
Semi-Supervised Learning with Ladder Network
作者:Antti Rasmus、Harri Valpola、Mikko Honkala、Mathias Berglund,、Tapani Raiko
arXiv上發(fā)布日期:2015年7月9日
摘要:在深度神經(jīng)網(wǎng)絡(luò)中,我們把監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)結(jié)合到一起。我們首先訓(xùn)練提出的模型在使用反向傳播后可以同時最小化監(jiān)督和無監(jiān)督消耗函數(shù),從而省去了逐層預(yù)先訓(xùn)練步驟的必要。我們的工作建立在Valpola2015年提出的梯形網(wǎng)絡(luò)基礎(chǔ)上,我們把這個模型和監(jiān)督結(jié)合起來進行了拓展。我們展示了拓展模型在各種任務(wù)中:半監(jiān)督條件下MNIST和CIFAR-10分類,半監(jiān)督和全標(biāo)簽條件下的定量MNIST的排列過程,都達到藝術(shù)級性能。
Hugo的注釋(摘錄):
我認(rèn)為,性能是這篇論文最令人興奮的。在MNIST上,僅僅通過100個標(biāo)簽樣本,它達到1.13%的錯誤率。這與訓(xùn)練集上訓(xùn)練的堆疊去噪自編碼的性能相媲美(盡管它出現(xiàn)在這篇文章使用的ReLUs和批標(biāo)準(zhǔn)化之前)!盡管應(yīng)用到許多標(biāo)簽的數(shù)據(jù)集的深度學(xué)習(xí)進展并不依賴任何無監(jiān)督學(xué)習(xí)(不像在2000-2010年中期深度學(xué)習(xí)剛開始時),這篇論文確認(rèn)了深度學(xué)習(xí)中一個當(dāng)前思路,即無監(jiān)督學(xué)習(xí)可能對半監(jiān)督條件下低標(biāo)簽數(shù)據(jù)的成功起著關(guān)鍵作用。
不幸的是,作者披露實驗中存在一個很小的問題:雖然他們使用很少的標(biāo)簽樣本來訓(xùn)練,在驗證集中模型選擇的確使用了1萬個標(biāo)簽。這的確很不現(xiàn)實。
3.面向基于神經(jīng)網(wǎng)絡(luò)的分析
Towards Neural Network-based Reasoning
作者:Baolin Peng,、Zhengdong Lu、 Hang Li、Kam-Fai Wong
arXiv上發(fā)布日期:2015年8月22日
摘要(摘錄):我們建議推出神經(jīng)推理器,這是一個基于神經(jīng)網(wǎng)絡(luò)的推理自然語言的框架。只要給定一個問題,神經(jīng)推理器能根據(jù)多種支持的事實進行推斷并以特殊的方式找到答案。神經(jīng)推理器具備:1)一個特別的互動池機制,允許它檢驗多重事實,2)一個深度架構(gòu),允許它在推理作業(yè)中?;瘡?fù)雜的邏輯關(guān)系。假定問題和事實并不存在特殊的結(jié)構(gòu),神經(jīng)推斷器能夠容納不同類型的推斷和不同的語言表達形式。[…]經(jīng)驗研究表明,在兩種不同人工作業(yè)上(定位和尋路),神經(jīng)推斷器能在很大程度上超越現(xiàn)有神經(jīng)推斷系統(tǒng)。
Hugo的注釋(摘錄):
在我看來,這篇論文最有趣的方面可能是證明通過使用一些從屬任務(wù),比如無監(jiān)督的“起點”,可以顯著提高在尋路任務(wù)上的表現(xiàn)。對我來說最令人興奮的莫過于這篇論文中強調(diào)的,未來可能極其光明的研究方向。
我也欣賞文中模型展示的方式。理解模型并沒有花費我太多的時間,實際上我發(fā)現(xiàn)他比記憶網(wǎng)絡(luò)模型更易于消化,盡管這兩個模型很相似。我認(rèn)為這個模型確實比記憶模型更簡單點,這很好。論文還提出這個問題的另一種解決辦法,這個方法里不僅問題表征會隨著正向傳播更新,事實表征也會更新。
4.基于遞歸神經(jīng)網(wǎng)絡(luò)的定時采樣序列預(yù)測
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks
作者:Samy Bengio、Oriol Vinyals、Navdeep Jaitly、Noam Shazeer
arXiv上發(fā)布日期:2015年6月9日
摘要(摘錄):我們可以訓(xùn)練周期神經(jīng)網(wǎng)絡(luò),使它在給予一定輸入時產(chǎn)生符號序列,正如機器翻譯和圖像識別的結(jié)果例證的一樣。當(dāng)前訓(xùn)練它們的方法包括,在給定當(dāng)前(遞歸)狀態(tài)和先前符號時,較大化每個符號序列的相似性,。在推導(dǎo)上,未知的先前符號被模型產(chǎn)生的符號代替。訓(xùn)練和推導(dǎo)的內(nèi)容不符會產(chǎn)生誤差,誤差會隨著產(chǎn)生的序列迅速累積。我們提出了一個課程學(xué)習(xí)策略,從一個完全引導(dǎo)的方案,柔和過度到不完全引導(dǎo)方案,前者完全使用正確的前符號,后者主要使用系統(tǒng)自己生成的符號。一些序列預(yù)測作業(yè)試驗顯示這個方法可帶來很大改善。
Hugo的注釋(摘錄):
超愛這篇論文。它甄別到目前序列預(yù)測訓(xùn)練方法的一個重要缺點,最重要的是,同時提出了一個簡單有效的解決方案。我也相信這個方法在谷歌圖像識別生成贏家系統(tǒng)以及微軟COCO競賽中起著不可忽視的作用。
關(guān)于定時采樣有助的原因,我的另一個理解是:ML訓(xùn)練并不會告知模型自己產(chǎn)生的誤差的相對質(zhì)量。就ML而言,把高概率放在一個僅有一個錯誤令牌的輸出序列和把相同概率放在一個有全部錯誤令牌的序列上同樣糟糕。然而就圖像識別來說,輸出僅有一個錯字的語句明顯比有許多錯字的語句(某種也反映在性能矩陣的東西,比如BLEU)更為可取。
通過訓(xùn)練模型在面對自身錯誤的系統(tǒng)穩(wěn)定性,定時采樣可確保誤差不會累積,并且(幫助系統(tǒng))做出八九不離十的預(yù)測。
5.LSTM:一個空間搜索奧德賽
LSTM_ A Search Space Odyssey
作者:Klaus Treff、Rupesh Kumar Srivastava、Jan Koutník、Bas R. Steunebrink、 Jürgen Schmidhuber
arXiv上發(fā)布日期:2015年5月13日
譯者按:奧德賽是古希臘史詩中重要一部。主要講述的是奧德賽因為激怒了海神波賽多而招致災(zāi)禍。最后利用智慧歷經(jīng)重重磨難得以回家的故事。文中指富有偉大意義卻艱辛的科學(xué)探索之旅。
摘要(摘錄):本文在3個代表性任務(wù)測試:語音識別,手寫字體識別和復(fù)調(diào)音樂建模上,首次大規(guī)模使用8LSTM變量分析。使用隨機搜索,多帶帶優(yōu)化每個作業(yè)的所有LSTM變量的超參數(shù),并且使用強大的fANOVA結(jié)構(gòu)評估它們的重要性。我們一共總結(jié)了5400次試驗運行結(jié)果(CPU時間大概15年),這使我們的研究成為同類LSTM網(wǎng)絡(luò)研究中規(guī)模較大的。我們的結(jié)果表明,在標(biāo)準(zhǔn)LSTM架構(gòu)上沒有一種變量能顯著提高,并且可以證明忘記門和激勵函數(shù)的輸出結(jié)果是它最重要的部分。我們進一步觀察到這些被研究的超參數(shù)是實質(zhì)上是獨立的,并在為它們的有效調(diào)整制定了指導(dǎo)方針。
譯者注:如圖所示是一個LSTM簡易版模型。其中input gate輸入門/output gate輸出門負(fù)責(zé)管理輸入及輸出數(shù)值。forget gate忘記門負(fù)責(zé)選擇性刪除一些系統(tǒng)以前記住的數(shù)值來確??梢愿糜涀〗跀?shù)值。圖片來自CSDN
Hugo的注釋(摘錄):
這是一篇很有用的(幫你)熱身準(zhǔn)備的文章。對任何想要學(xué)習(xí)LSTMs的人,我都會推薦這篇文章必讀。首先,我發(fā)現(xiàn)它對LSTMs最初的發(fā)展史的描述很有趣并且很明了。但是,最重要的是,它展現(xiàn)了LSTMs一個很實用的圖景,這不僅可以為初次使用LSTMs的奠定優(yōu)良基礎(chǔ),還可以作為一個對LSTM每一部分重要性的很有見地的(數(shù)據(jù)支撐的)觀點闡述。
基于fANONA的分析(目前我還不了解)很精煉??赡茏钭屛艺痼@的發(fā)現(xiàn)是,勢頭的幫助實際上看起來并不大。研究超參數(shù)之間的二階互動構(gòu)思很巧妙(通過表明同時調(diào)整學(xué)習(xí)頻率和隱藏層 可能并不重要,這很有見地)。圖4中的描述陳列出學(xué)習(xí)頻率/隱藏層大小/輸入噪聲變量和性能/訓(xùn)練時間之間可能存在的關(guān)系(帶有不確定性)也是很有用的信息。
前向傳播
后向傳播
譯者注:
輸入層(Input layer),眾多神經(jīng)元(Neuron)接受大量非線形輸入信息。輸入的信息稱為輸入向量。
輸出層(Output layer),信息在神經(jīng)元鏈接中傳輸、分析、權(quán)衡,形成輸出結(jié)果。輸出的信息稱為輸出向量。
隱藏層(Hidden layer),簡稱“隱層”,是輸入層和輸出層之間眾多神經(jīng)元和鏈接組成的各個層面。隱層可以有多層,習(xí)慣上會用一層。隱層的節(jié)點(神經(jīng)元)數(shù)目不定,但數(shù)目越多神經(jīng)網(wǎng)絡(luò)的非線性越顯著,從而神經(jīng)網(wǎng)絡(luò)的強健性
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4323.html
摘要:昨天,研究院開源了,業(yè)內(nèi)較佳水平的目標(biāo)檢測平臺。項目地址是實現(xiàn)頂尖目標(biāo)檢測算法包括的軟件系統(tǒng)。因此基本上已經(jīng)是最目前包含最全與最多目標(biāo)檢測算法的代碼庫了。 昨天,F(xiàn)acebook AI 研究院(FAIR)開源了 Detectron,業(yè)內(nèi)較佳水平的目標(biāo)檢測平臺。據(jù)介紹,該項目自 2016 年 7 月啟動,構(gòu)建于 Caffe2 之上,目前支持大量機器學(xué)習(xí)算法,其中包括 Mask R-CNN(何愷...
摘要:團隊昨天發(fā)布的一個模型學(xué)會一切論文背后,有一個用來訓(xùn)練模型的模塊化多任務(wù)訓(xùn)練庫。模塊化的多任務(wù)訓(xùn)練庫利用工具來開發(fā),定義了一個深度學(xué)習(xí)系統(tǒng)中需要的多個部分?jǐn)?shù)據(jù)集模型架構(gòu)優(yōu)化工具學(xué)習(xí)速率衰減計劃,以及超參數(shù)等等。 Google Brain團隊昨天發(fā)布的一個模型學(xué)會一切論文背后,有一個用來訓(xùn)練MultiModel模型的模塊化多任務(wù)訓(xùn)練庫:Tensor2Tensor。今天,Google Brain...
摘要:對于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起這是一個亙古不變的話題。接下來的論文將帶你深入理解深度學(xué)習(xí)方法深度學(xué)習(xí)在前沿領(lǐng)域的不同應(yīng)用。 對于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起?這是一個亙古不變的話題。而對那些已經(jīng)入門的同學(xué)來說,了解一下不同方向的論文,也是不時之需。有沒有一份完整的深度學(xué)習(xí)論文導(dǎo)引,讓所有人都可以在里面找到想要的內(nèi)容呢?有!今天就給...
摘要:深度學(xué)習(xí)架構(gòu)清單現(xiàn)在我們明白了什么是高級架構(gòu),并探討了計算機視覺的任務(wù)分類,現(xiàn)在讓我們列舉并描述一下最重要的深度學(xué)習(xí)架構(gòu)吧。是較早的深度架構(gòu),它由深度學(xué)習(xí)先驅(qū)及其同僚共同引入。這種巨大的差距由一種名為的特殊結(jié)構(gòu)引起。 時刻跟上深度學(xué)習(xí)領(lǐng)域的進展變的越來越難,幾乎每一天都有創(chuàng)新或新應(yīng)用。但是,大多數(shù)進展隱藏在大量發(fā)表的 ArXiv / Springer 研究論文中。為了時刻了解動態(tài),我們創(chuàng)建了...
摘要:我的核心觀點是盡管我提出了這么多問題,但我不認(rèn)為我們需要放棄深度學(xué)習(xí)。對于層級特征,深度學(xué)習(xí)是非常好,也許是有史以來效果較好的。認(rèn)為有問題的是監(jiān)督學(xué)習(xí),并非深度學(xué)習(xí)。但是,其他監(jiān)督學(xué)習(xí)技術(shù)同病相連,無法真正幫助深度學(xué)習(xí)。 所有真理必經(jīng)過三個階段:第一,被嘲笑;第二,被激烈反對;第三,被不證自明地接受?!灞救A(德國哲學(xué)家,1788-1860)在上篇文章中(參見:打響新年第一炮,Gary M...
閱讀 3451·2023-04-26 01:40
閱讀 3156·2021-11-24 09:39
閱讀 1446·2021-10-27 14:19
閱讀 2692·2021-10-12 10:11
閱讀 1355·2021-09-26 09:47
閱讀 1896·2021-09-22 15:21
閱讀 2946·2021-09-06 15:00
閱讀 959·2021-08-10 09:44