摘要:深度學習方法是否已經(jīng)強大到可以使科學分析任務產(chǎn)生最前沿的表現(xiàn)在這篇文章中我們介紹了從不同科學領域中選擇的一系列案例,來展示深度學習方法有能力促進科學發(fā)現(xiàn)。
深度學習在很多商業(yè)應用中取得了前所未有的成功。大約十年以前,很少有從業(yè)者可以預測到深度學習驅(qū)動的系統(tǒng)可以在計算機視覺和語音識別領域超過人類水平。在勞倫斯伯克利國家實驗室(LBNL)里,我們面臨著科學領域中最具挑戰(zhàn)性的數(shù)據(jù)分析問題。雖然商業(yè)應用和科學應用在所有分析任務方面(分類、聚類、異常檢測等)存在著相似之處,但是之前的經(jīng)驗讓我們沒辦法相信科學數(shù)據(jù)集的潛在復雜性會跟ImageNet數(shù)據(jù)集有可比性。深度學習方法是否已經(jīng)強大到可以使科學分析任務產(chǎn)生最前沿的表現(xiàn)?在這篇文章中我們介紹了從不同科學領域中選擇的一系列案例,來展示深度學習方法有能力促進科學發(fā)現(xiàn)。
我最近跟O’Reilly的Jon Bruner在Bots Podcast探討了這些相關話題。我們討論了LBNL超級計算中心的架構,及其推進深度學習庫整合進這一架構中的工作,并探討了一些引人矚目的可擴展到極大數(shù)據(jù)集的深度學習用例,例如對象或模式檢測。下面是我們的采訪音頻:
使用概率自編碼器對星系形狀建模
貢獻者:Jeffrey Regier,Jon McAullife
星系模型在天文學方面有很多應用。例如一個星系外觀輕微的變形可能表示附近有暗有物質(zhì)的引力拉扯。暗物質(zhì)的總量被假定為普通物質(zhì)的五倍,但是對于它是否存在并沒有一個定論。如果沒有一個看起來未變形的星系形狀模型,就沒有推斷星系存在扭曲的基礎。
因為星系形狀有很多共同點,所以適用于星系樣本的模型可以準確地表示整個星系群。這些共享特征包括“螺旋臂”(見下圖1)、“環(huán)”(圖2)和即使是在不規(guī)則的星系中也存在的隨著距離遠離中心降低的亮度(圖3)。這些共同點是高層次的特征,因此不容易在單個像素的級別上描述。
到目前為止,大多數(shù)神經(jīng)網(wǎng)絡已經(jīng)在監(jiān)督學習問題上取得了成功:給定輸入、預測輸出。如果預測的輸出與正確答案不符,則會調(diào)整網(wǎng)絡的權重。而對于星系模型來說則沒有正確的輸出。所以我們在尋求一個將星系圖像賦予高概率的圖像概率模型,同時所有可能圖像的概率總和為一。神經(jīng)網(wǎng)絡在這個模型中指定一個條件概率。
在概率模型中可以從一個多變量標準正態(tài)分布中得到一個不可觀測的隨機向量$z$。神經(jīng)網(wǎng)絡將$z$映射到一個平均值和一個協(xié)方差矩陣,這就參數(shù)化了高維多元正態(tài)分布,星系圖像的每個像素對應一維。這個神經(jīng)網(wǎng)絡可以有盡可能多的有助于表示映射的網(wǎng)絡層和節(jié)點。圖4顯示了某個特定星系圖像的多變量正態(tài)分布的平均值,圖5顯示了協(xié)方差矩陣的對角線。最后,從這個多變量正態(tài)分布中抽樣一個星系圖像。
可以選擇從我們的過程的兩個角度中的任一個來從星系圖像里學習神經(jīng)網(wǎng)絡權重:算法和統(tǒng)計。算法上講,我們的程序訓練了一個自編碼器。輸入是一張圖片,低維向量$z$是添加過噪聲的網(wǎng)絡中間的一個窄層,輸出是輸入圖像的重建。損失測量的是輸入和輸出的差異。不過,我們選擇的損失函數(shù)和添加到自編碼器中的噪聲類型遵循統(tǒng)計模型?;谶@些選擇,訓練自動編碼器相當于通過一種稱為“變分推斷”的技術來學習不可觀測向量$z$的近似后驗分布。一個星系的后驗分布會告訴我們所想知道的:星系最可能出現(xiàn)的樣子(例如后驗的模式)和其外觀不確定性的數(shù)量。它把我們關于星系通??雌饋淼臉幼拥南闰灲?jīng)驗跟我們從星系圖像學習到內(nèi)容相結(jié)合。
我們使用基于Caffe的Julia神經(jīng)網(wǎng)絡框架Mocha.jl來實現(xiàn)了所提出來的變分自編碼器(VAE)。我們使用了43444張星系圖片來訓練我們的模型,每張圖片都基于一個主導的星系裁剪并縮小到69 x 69像素。VAE模型相對于常見的使用雙變量高斯密度的星系模型,會對保留數(shù)據(jù)集里的97.2%的星系圖片賦予更高的概率。
圖1 一個典型的螺旋星系。 資料來源:歐洲航天局與美國航空航天局維基共享資源
圖2 環(huán)形星系。 資料來源:美國航空航天局、歐洲航天局和哈勃遺產(chǎn)團隊(AURA / STScI)的維基共享資料
圖3 不規(guī)則形狀星系。 資料來源:歐洲航天局/哈勃、美國航空航天局、D. Calzetti(馬薩諸塞大學)和LEGUS小組的維基共享資料
圖4 某個特定星系的69×69像素圖像,其中每個像素是平均強度。 來源:由Jeffrey Regier和Jon McAullife生成,并經(jīng)許可使用
圖5 特定星系的69×69像素圖像,其中每個像素是強度的方差。 資料來源:由Jeffrey Regier和Jon McAullife生成,并經(jīng)許可使用
在氣候模擬中尋找極端天氣事件
貢獻者:Evan Racah,Christopher Beckham,Tegan Maharaj,Yunjie Liu,Chris Pal
極端天氣事件對生態(tài)系統(tǒng)、基礎設施和人類健康有著巨大的潛在風險?;谛l(wèi)星和氣象站的觀測記錄來分析極端天氣,以及在未來氣候條件的模擬中描述極端天氣變化是一項重要的任務。通常氣象界是通過手工編碼、多變量閾值條件來指定模式標準。這種標準多是主觀的,氣象界通常對于應該使用的具體算法很少有一致的意見。我們已經(jīng)探索了一個完全不同的范式,也就是訓練一個基于人類真實標注數(shù)據(jù)的深度學習系統(tǒng)來學習模式分類器。
我們的第一步是考慮以熱帶氣旋和大氣河流為中心的剪切圖片集的監(jiān)督分類問題。我們首先確定了5000-10000個剪切圖像,并通過在Speamint中進行超參數(shù)調(diào)優(yōu)來訓練了一個Caffe中的香草卷積神經(jīng)網(wǎng)絡。我們發(fā)現(xiàn)對監(jiān)督分類任務可以獲得90%-99%的分類準確度。下一步就是考慮用一個統(tǒng)一的網(wǎng)絡對多種類型模型(熱帶氣旋、大氣河流、超熱帶氣旋等)同時進行模式分類,并利用包圍盒來定位這些模式。這是對這個問題一個更高級的半監(jiān)督的思路。我們當前的網(wǎng)絡如圖6所示。
圖6 氣候模式定位及分類的半監(jiān)督網(wǎng)絡結(jié)構。圖片由Evan Racah,LBNL友情提供
圖7 天氣模式及其位置的示例結(jié)果(真實狀況:綠色,深度學習預測:紅色)。 圖片由Evan Racah,LBNL友情提供
圖7顯示了通過半監(jiān)督架構獲得的一些示例結(jié)果。雖然對架構的進一步調(diào)整還正在進行中,但是底層群集的t-SNE圖顯示了該方法有能力在數(shù)據(jù)集中發(fā)現(xiàn)新的相干流體流量結(jié)構。目前的架構運行在氣象數(shù)據(jù)的即時快照上,我們正在擴展模型以包含時間來得到更較精確的預測。
學習宇宙質(zhì)量天體圖中的模式
貢獻者:Debbie Bard, Shiwangi Singh, Mayur Mudigonda
即將進行的天文巡天項目會獲得數(shù)百億個星系的測量數(shù)據(jù),從而能夠較精確得到描述暗物質(zhì)特性的參數(shù),這些暗物質(zhì)是加速宇宙擴展的力量。例如可以使用引力透鏡技術用宇宙中的常規(guī)物質(zhì)和暗物質(zhì)來構建天體圖。描繪這些質(zhì)量天體圖讓我們可以區(qū)分不同的暗物質(zhì)理論模型。
我們探索了新型的深度學習技術來找出快速分析宇宙天體圖數(shù)據(jù)的新方法。這些模型提供了識別物質(zhì)天體圖中意想不到的功能的潛力,從而為宇宙的結(jié)構給出了新的見解。我們開發(fā)了一個非監(jiān)督的去噪卷積自編碼模型,用來從我們的數(shù)據(jù)中直接學習一個抽象表示。該模型使用了一個卷積-去卷積架構,它從一個理論宇宙的模擬中獲得輸入數(shù)據(jù)(用二項式噪聲去破壞數(shù)據(jù)以防止過擬合)。我們使用了四層卷積層、兩個瓶頸層和四個去卷積層,并用Lasagne包實現(xiàn)。它使用了10000張質(zhì)量天體圖的圖片進行訓練,每張圖片的大小為128×128像素。我們的模型能夠使用梯度下降有效地最小化輸入和輸出之間的均方誤差,從而產(chǎn)生一個在理論上能夠廣泛解決其他類似結(jié)構化問題的模型。我們使用這個模型成功地重建了模擬的質(zhì)量天體圖并識別它們內(nèi)部的結(jié)構(見圖8)。我們還確定了哪些結(jié)構具有較高的重要性,也就是哪些結(jié)構表達了最典型的數(shù)據(jù),參見圖9。我們注意到在我們的重建模型中最重要的結(jié)構是在高質(zhì)量集中的周圍,這對應于大的星系集群。
圖8 左圖:來自宇宙模擬的質(zhì)量天體圖。右圖:使用我們的卷積自編碼器重建的此天體圖。我們平滑了這個天體圖,因此丟失了小的細節(jié),但天體圖的特征被較精確地復制了。圖片由Shiwangi Singh和 Debbie Bard,LBNL友情提供
圖9 左圖:來自宇宙模擬的質(zhì)量天體圖。右圖:使用卷積自編碼器重建的此天體圖的最重要特征的顯著圖。我們看到高質(zhì)量集中區(qū)域比低質(zhì)量區(qū)域更為重要。圖片由Shiwangi Singh和Debbie Bard友情提供
我們還開發(fā)了一個具有四個隱藏層的監(jiān)督卷積神經(jīng)網(wǎng)絡(CNN)用以基于兩種不同的模擬理論模型來進行宇宙質(zhì)量圖分類。CNN使用softmax分類器最小化估計分布和真實分布之間的二進制交叉熵損失。換句話說,給定一張從未見過的收斂的天體圖,訓練好的CNN模型能夠概率地決定最擬合數(shù)據(jù)集的理論模型。使用兩個理論模型的5000張?zhí)祗w圖(128×128像素)進行訓練,這個初步結(jié)果表明我們可以以80%的精度來分類產(chǎn)生收斂的天體圖的宇宙模型(見圖10)。
圖10 從質(zhì)量天體圖中提取的用2維表示的特征向量t-SNE圖。紅色和藍色分別代表了來自兩種不同的理論宇宙模型中的質(zhì)量天體圖。圖片由Shiwangi Singh和Debbie Bard, LBNL友情提供
從人類神經(jīng)記錄中解碼語音
貢獻者:Jesse Livezey, Edward Chang, Kristofer Bouchard
能夠看似輕松地產(chǎn)生由復雜語法結(jié)構和聲學模式構成的語音的能力是人類所獨有的。Penfield和Boldrey在20世紀30年代的開創(chuàng)性工作表明,人體不同部分(包括聲道)都跟大腦的空間局部區(qū)域相關聯(lián)。大腦是如何跨越一組相關聯(lián)的大腦區(qū)域來協(xié)調(diào)聲道的發(fā)音器,這個神經(jīng)活動的時間模式(諸如圖11里所示的)仍然是一個懸而未決的問題。
圖11 說話過程中人類皮質(zhì)表面的神經(jīng)記錄。第一行顯示了發(fā)出輔音“b”、“d”、“g”時的聲道的圖解示意圖。而中間行顯示了發(fā)出語音“ba”,“da”和“ga”的聲譜(以不同頻率作為時間的函數(shù)的聲功率)。下面的彩色軌跡顯示了在語音中神經(jīng)活動記錄的時空模式。這些語音聲音是通過皮質(zhì)活動的重疊而又獨立的時空模式產(chǎn)生的。圖片由Jesse Livezey and Kris Bouchard友情提供
大腦由非線性處理單元(神經(jīng)元)組成,其表現(xiàn)為一種普通的信號被連續(xù)處理的層次結(jié)構。因此,我們假設深層神經(jīng)網(wǎng)絡(DNN)的分層及非線性處理將會跟語音生成的復雜神經(jīng)動力學相匹配。在有著數(shù)百萬樣本的大且復雜的數(shù)據(jù)集上,DNN已經(jīng)被證明了其性能在許多任務中勝過傳統(tǒng)方法。然而這種先進方法還沒有在神經(jīng)科學分析任務中得到證實,因為它們的數(shù)據(jù)量要小的多(數(shù)千個)。
在最近的工作中,我們發(fā)現(xiàn)即使在通過神經(jīng)科學實驗獲得的相對較小的數(shù)據(jù)集上,DNN方法優(yōu)于傳統(tǒng)的解碼(即翻譯)大腦信號產(chǎn)生語音的方法,達到了較先進的語音分類性能(高達39%的準確度,是隨機瞎猜的25倍多)。此外隨著訓練數(shù)據(jù)集的增大,DNN的表現(xiàn)會比傳統(tǒng)的分類器更好,其在相對有限但非常有價值的數(shù)據(jù)上實現(xiàn)了回報較大化。輸入數(shù)據(jù)集包括85個頻道和250個時間采樣信號,分成了1到57個類別。一個多帶帶主題的數(shù)據(jù)集通常只有2000個訓練樣本,需要大量的超參數(shù)搜索以得到較佳表現(xiàn)。較好的網(wǎng)絡具有一個或兩個具有雙曲正切非線性的隱藏層,并使用Theano庫在GPU和CPU上進行訓練。每個模型訓練相對較快(30分鐘),但是很多模型已經(jīng)在超參數(shù)搜索中訓練好了。這些結(jié)果表明,DNN將來可能成為大腦-機器接口的較先進的方法,這需要更多的工作來找到在小型數(shù)據(jù)集上訓練深度神經(jīng)網(wǎng)絡的較佳實踐。
除了對義肢修復至關重要的大腦信號的解碼能力,我們還研究了DNN用作揭示神經(jīng)科學結(jié)構的分析工具的能力。我們發(fā)現(xiàn)DNN能夠在嘈雜的單次實驗錄音中提取語音組織的一個豐富層次結(jié)構。提取的層次結(jié)構(見圖12)提供了對語音控制的皮質(zhì)基礎的洞察。我們期望應用于神經(jīng)科學中的數(shù)據(jù)分析問題的深度學習能夠隨著更大和更復雜的神經(jīng)數(shù)據(jù)集的發(fā)展而發(fā)展。
圖12 由DNN訓練的音節(jié)之間的混淆(即誤差)構成的樹狀圖,用以分類來自人類大腦活動的語音。我們觀察到的語言特征的層次結(jié)構,提供了對語言運動控制的皮質(zhì)組織的新見解。圖片由Jesse Livezey和Kris Bouchard友情提供
使用去噪自編碼器聚類大亞灣數(shù)據(jù)
貢獻者:Samuel Kohn,Evan Racah,Craig Tull,Wahid Bhimji
大亞灣反應堆的微中子實驗通過測量反微中子的特性和在一個核反應堆中由β-衰變產(chǎn)生的基本的亞原子粒子,來探索能夠超過粒子物理學標準模型的物理模型。物理學家監(jiān)測大容量探測器介質(zhì)(稱為液體閃爍體),并尋找來自反中微子相互作用的特有的雙閃光。其它背景過程也會產(chǎn)生閃光。有些背景閃光(如宇宙射線μ介子)很容易識別,但是其它的閃光(如由μ介子產(chǎn)生的鋰-9同位素的衰變)跟微中子信號非常相似。將反中微子信號跟背景做分離是一項艱巨的任務。這可能會導致系統(tǒng)性的不穩(wěn)定和信號效率降低,因為真正的反微中子事件可能會在無意中被忽略。
目前大亞灣數(shù)據(jù)分析使用時間和總能量來區(qū)分信號與背景。但是在光空間分布上還存在信息,因此這可能會存在更好的區(qū)分方法。通過使用無監(jiān)督的深度學習技術,我們可以學習到識別與鋰-9衰變不同的反微中子信號的特征。利用識別特征的知識,我們可以更新分析模型的分界以增強其識別能力并提高微中子測量的精度。
在一個案例研究中,無監(jiān)督深度學習用于從已知的背景中區(qū)分由兩個不相關的閃光引起的反微中子信號的能力是顯而易見的。在我們的案例研究中,使用真實數(shù)據(jù)而不是模擬數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡。這在監(jiān)督學習中是不常見的,但它在無監(jiān)督制度中發(fā)揮了很好的作用,這是因為它消除了模擬數(shù)據(jù)和實際數(shù)據(jù)之間的差異導致的不確定性和偏差。之前的這個研究使用無監(jiān)督學習來解決大亞灣實驗中有關信號與背景的問題。
我們使用去噪卷積自編碼神經(jīng)網(wǎng)絡(圖13),其分為三個階段:
損壞階段:三分之一的圖像像素被設置為零;
編碼階段:物理事件的圖像被壓縮成編碼;
解碼階段:解壓編碼以嘗試恢復原始物理事件圖像。
為了成功恢復原始的未破壞圖像,自編碼器必須學習如何從所提供的損壞圖像中推斷丟失的信息。當被訓練正確后,自編碼器會創(chuàng)建包含輸入圖像的重要區(qū)分特征信息的編碼。
圖13.用于本研究的去噪自編碼器的架構。圖片由Samuel Kohn, LBNL友情提供
通過使用t-SNE維度縮減算法,我們可以在2維笛卡爾平面上顯示16維編碼。在圖14中,神經(jīng)網(wǎng)絡很明顯地將我們的信號事件跟意外背景區(qū)分開,而不是對單個事件標簽進行訓練。這是一個有前途的進步,它有助于驗證使用無監(jiān)督神經(jīng)網(wǎng)絡來訓練真實數(shù)據(jù)。我們會繼續(xù)使用意外背景事件的實驗數(shù)據(jù)來改進網(wǎng)絡架構,并確定哪些特征對神經(jīng)網(wǎng)絡重要。等技術進一步發(fā)展,我們會將其應用于分離鋰-9背景的物理問題。
圖14 顯示信號事件(藍色)和背景事件(紅色)的編碼的t-SNE圖。藍色與紅色的分離表示神經(jīng)網(wǎng)絡識別出了不在背景中的信號特征,反之亦然。圖由Samuel Kohn,LBNL友情提供
在大型強子對撞機(LHC)上進行新的物理事件的分類
貢獻者:Thorsten Kurth,Wahid Bhimji,Steve Farrell,Evan Racah
大型強子對撞機(LHC)讓質(zhì)子以能獲得的較高能量每秒碰撞4000萬次。每次碰撞會產(chǎn)生能在諸如ATLAS檢測器(圖15)這樣的儀器中檢測到的粒子噴霧,其中電子設備的數(shù)億通道試圖發(fā)現(xiàn)前所未知的新粒子。LHC的高曝光度升級(HL-LHC)版預計會使碰撞速度提高一個數(shù)量級。來自當前檢測器的數(shù)據(jù)已經(jīng)達到數(shù)以百計的千兆字節(jié)。處理這些巨大且復雜的數(shù)據(jù)的方法就是使用檢測器上的“觸發(fā)器”和離線數(shù)據(jù)分析的過濾器來快速過濾掉大部分數(shù)據(jù)。在觸發(fā)器對數(shù)據(jù)進行采樣完成后(大約每秒200個事件),再將其重建為諸如粒子軌跡和能量沉積物的對象,每個事件降低到數(shù)百維。然后進一步采樣得到分析數(shù)據(jù),其具有取決于感興趣的特定物理現(xiàn)象的數(shù)十個維度。圖16展示了一個碰撞事件所展示出的這些檢測器信號和更高級重建對象。
2013年諾貝爾物理學獎頒給了希格斯玻色子理論,是因為其在LHC中直接檢測出這種粒子。希格斯玻色子完成了粒子物理的標準模型,而超越標準模型的新物理學的確切性質(zhì)并不為人所知。因此觸發(fā)器、重建和物理學分析算法的準確性和速度會直接影響到實驗發(fā)現(xiàn)新現(xiàn)象的能力,且比以往任何時候的影響都更多。已經(jīng)清楚的是,當前用于過濾數(shù)據(jù)的方法和算法將難以從計算量方面等比例擴展到LHC的下一階段,并且它們有錯失更多新奇的新物理學信號的風險。因此探索創(chuàng)新的有效的方法來進行數(shù)據(jù)過濾是至關重要的。使用深度學習以初始檢測器信號或原始數(shù)據(jù)的尺寸和速率來進行物理學分析的方法有可能會產(chǎn)生改變我們對基本物理學理解的新發(fā)現(xiàn)。
圖15 LHC的ATLAS檢測器。 圖片由CERN友情提供,經(jīng)許可使用
圖16 ATLAS檢測器中的粒子碰撞,顯示了量熱計中的沉積物和重建的噴設流。 來源:ATLAS實驗,CERN版權所有,經(jīng)許可使用
圖17 作為卷積神經(jīng)網(wǎng)絡的輸入的模擬圖像,其來自于模擬LHC檢測器的“量熱計”部分的信號。模擬器是由仿真包Pythia和Delphes生成的。圖片由Wahid Bhimji友情提供
深度學習提供了學習新型選擇過濾器的可能性,用以提取比現(xiàn)有方法更較精確的稀有的新物理信號,更靈活的可選擇的新物理信號,并可以在大維度的輸入數(shù)據(jù)(對應于檢測器的通道)上運行提取計算。我們正在探索對新物理學的模擬數(shù)據(jù)訓練分類器,以及僅使用背景(已知標準模型)樣本來訓練的異常檢測算法。從粒子物理檢測器中輸出的信號可以被認為是圖像(如圖17),因此我們可以使用卷積架構。我們用于分類的神經(jīng)網(wǎng)絡的示例架構如下圖所示。
圖18 LHC用于數(shù)據(jù)分類的示例架構。圖片由Thorsten Kurth友情提供
我們的方法是新穎的。它首先使用來自檢測器的數(shù)據(jù),然后使用高分辨率圖像(目前為227×227像素)將其重建為高級物理對象。這使我們能夠?qū)W習更多的敏感模式,其可能不會被現(xiàn)有的物理算法所發(fā)現(xiàn)。使用大型模型和數(shù)據(jù)集需要擴展到跨越多個計算節(jié)點進行,這對于科學領域的深度學習也是新穎的。
我們目前實現(xiàn)的分類性能超過了通常用于選擇這種物理對象的高級重建特征的簡單選擇方法,從而證明了這些類型的架構的適用性。我們還將這些架構擴展到大的計算資源,并開始探索不需要模擬新的物理學研究興趣的異常檢測。
存在的挑戰(zhàn)
在回顧了一些深度學習的實際應用之后,我們總結(jié)出了以下挑戰(zhàn)(這些挑戰(zhàn)可能是科學應用領域所特有的):
性能和規(guī)模:深度學習方法在計算方面上是昂貴的。我們目前的實驗能夠處理1到100GB大小的數(shù)據(jù)集,在多核架構上要花費一天到一周的時間進行收斂。這對于超參數(shù)調(diào)優(yōu)來說是不允許的。提高多核架構的單節(jié)點性能并在O(1000)節(jié)點上使用數(shù)據(jù)和模型并行運算來擴展網(wǎng)絡是非常必要的。
復雜的數(shù)據(jù):科學數(shù)據(jù)有許多不同的格式和大小。 2維圖像可以有3-1000個通道,3維結(jié)構化和非結(jié)構化的網(wǎng)格是很常見的,稀疏和密集的數(shù)據(jù)集在某些領域是很普遍的,并且經(jīng)常會遇到編碼了重要關系的圖形結(jié)構。深度學習方法/軟件能夠?qū)@些數(shù)據(jù)集進行操作是很重要的。
缺乏標注過的數(shù)據(jù):科學家們無法輕松的訪問大量的高質(zhì)量的標注過的圖像。即使有些領域自己組織和進行打標簽的活動,我們也不可能擁有高質(zhì)量的像ImageNet風格的包含數(shù)百萬圖像的數(shù)據(jù)庫。許多科學領域?qū)⑹冀K會在無監(jiān)督(也就是沒有標注數(shù)據(jù))或者半監(jiān)督(也就是某些類僅有少量的標注過的數(shù)據(jù))的架構下進行。因此深度學習研究在有限的訓練數(shù)據(jù)的情況下能夠繼續(xù)表現(xiàn)出令人信服的結(jié)果是非常重要的。
超參數(shù)調(diào)優(yōu):各學科領域的科學家對調(diào)整網(wǎng)絡配置(卷積層數(shù)量和深度)、非線性/匯集函數(shù)的類型、學習速率、優(yōu)化方案和訓練體系等他們領域的具體問題的直覺是有限的。為了將深度學習更廣泛地應用于科學領域,打包自動調(diào)整這些超參數(shù)的功能是很重要的。
可解釋性:與可能可以接受一個黑盒子但近乎完美的預測器的商業(yè)應用來說,科學家需要了解并能向本學科的其他成員解釋神經(jīng)網(wǎng)絡學習到的功能。他們需要了解學習了哪些特征、這些特征是否有物理意義或見解,以及學習到的特征的非線性函數(shù)是否跟物理過程類似。在一個理想的情況下,函數(shù)和特征的選擇會受到我們對科學學科理解的約束。目前這個重要環(huán)節(jié)是缺失的,我們希望下一代深度學習研究人員能夠嘗試彌合可解釋性的空缺。
總結(jié)
在勞倫斯伯克利國家實驗室,我們已經(jīng)展現(xiàn)了許多來自不同科學學科成功應用深度學習的案例,以及存在的挑戰(zhàn)。公平地總結(jié),深度學習的實踐經(jīng)驗是非常令人鼓舞的。我們相信深度學習被很多科學學科探究并采納只是一個時間的問題。我們應該注意到一些科學領域?qū)ι疃葘W習網(wǎng)絡的理論基礎和性能提出的更嚴格的要求。我們鼓勵深度學習研究人員來參與研究科學界豐富的和有趣的問題。
這篇博文是由勞倫斯伯克利國家實驗室、加州大學伯克利分校、UCSF和蒙特利爾大學共同合作的結(jié)果。
This article originally appeared in English: "A look at deep learning for science".
Prabhat
Prabhat領導了勞倫斯伯克利國家實驗室和能源部運營的國家能源研究科學計算中心(NERSC)的數(shù)據(jù)和分析服務團隊。他的研究興趣包括數(shù)據(jù)分析(統(tǒng)計學,機器學習)、數(shù)據(jù)管理(并行輸入/輸出、 數(shù)據(jù)格式、數(shù)據(jù)模型)、科學可視化和高性能計算。Prabhat在2001年從布朗大學獲得了計算機科學學士學位,1999年從印度理工學院-德里獲得了計算機科學與工程學士學位。他目前在美國加州大學伯克利分校的地球行星科學系攻讀博士學位。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4556.html
摘要:我們隊年的預測基本正確,當中有些預測趨勢也可以用于新的一年,下面繼續(xù)看到對年數(shù)據(jù)科學機器學習和人工智能領域的預測。 showImg(https://segmentfault.com/img/bVbnqYV?w=1024&h=512); 作者:William VorhiesCDA數(shù)據(jù)分析研究院原創(chuàng)作品, 轉(zhuǎn)載需授權? 2018年剛剛結(jié)束,在2019年到來之際,讓我們一起展望在今年數(shù)據(jù)科學...
摘要:京東更是已經(jīng)實現(xiàn)深度學習的初步運用。目前深度學習推廣的條件已經(jīng)成熟。李成華表示,隨著深度學習的發(fā)展和成熟,的機器學習算法將會被取代。京東研究深度學習的初衷客服對電商發(fā)展的重要性毋庸置疑。隨后深度學習技術的風靡,加深了京東完善的想法。 說深度學習(Deep Learning)算法是當前人工智能皇冠上的明珠并不過分。通過深層神經(jīng)網(wǎng)絡(DNN)模型的運用,深度學習已成為目前最接近人腦的智能學習方法...
摘要:今年月日收購了基于深度學習的計算機視覺創(chuàng)業(yè)公司。這項基于深度學習的計算機視覺技術已經(jīng)開發(fā)完成,正在測試。深度學習的誤區(qū)及產(chǎn)品化浪潮百度首席科學家表示目前圍繞存在著某種程度的夸大,它不單出現(xiàn)于媒體的字里行間,也存在于一些研究者之中。 在過去的三十年,深度學習運動一度被認為是學術界的一個異類,但是現(xiàn)在, Geoff Hinton(如圖1)和他的深度學習同事,包括紐約大學Yann LeCun和蒙特...
閱讀 3360·2021-11-11 11:00
閱讀 2684·2019-08-29 11:23
閱讀 1556·2019-08-29 10:58
閱讀 2463·2019-08-29 10:58
閱讀 3058·2019-08-23 18:26
閱讀 2584·2019-08-23 18:18
閱讀 2117·2019-08-23 16:53
閱讀 3488·2019-08-23 13:13