摘要:今年月,谷歌發(fā)布了。在谷歌內(nèi)部被稱(chēng)為的方法中,一個(gè)控制器神經(jīng)網(wǎng)絡(luò)可以提出一個(gè)子模型架構(gòu),然后可以在特定任務(wù)中對(duì)其進(jìn)行訓(xùn)練和評(píng)估質(zhì)量。對(duì)于整個(gè)領(lǐng)域來(lái)說(shuō),一定是下一個(gè)時(shí)代發(fā)展重點(diǎn),并且極有可能是機(jī)器學(xué)習(xí)的大殺器。
為什么我們需要 AutoML?
在談?wù)撨@個(gè)問(wèn)題之前,我們需要先弄清楚機(jī)器學(xué)習(xí)的一般步驟。
其實(shí),不論是圖像識(shí)別、語(yǔ)音識(shí)別還是其他的機(jī)器學(xué)習(xí)項(xiàng)目,其結(jié)構(gòu)差別是很小的,一個(gè)效果好的模型需要大量的經(jīng)驗(yàn)來(lái)調(diào)優(yōu)。實(shí)現(xiàn)過(guò)程有以下步驟:
數(shù)據(jù)預(yù)處理
特性選擇
模型算法選擇
調(diào)參
上線(xiàn)后模型的再優(yōu)化
效果評(píng)估
在 AI 浪潮再次興起的背景下,許多企業(yè)都對(duì) AI 躍躍欲試,但因?yàn)橄嚓P(guān)人才在全球都呈現(xiàn)稀缺,企業(yè)想招人也不見(jiàn)得招得到,要不就是得重金聘請(qǐng),像是美國(guó)頂尖 AI 科學(xué)家的年薪已經(jīng)達(dá)到美國(guó)國(guó)家美式足球聯(lián)盟(NFL)四分衛(wèi)的水平(平均 270 萬(wàn)美金 / 年),甚至還有的已經(jīng)超過(guò) NBA 球星的平均薪水(2017 年數(shù)據(jù):平均 800 萬(wàn)美金)。因此,對(duì)有意嘗試或?qū)?AI 的企業(yè)來(lái)說(shuō),“讓機(jī)器學(xué)習(xí)得以自動(dòng)化”具有很大的吸引力。
深度學(xué)習(xí)技術(shù)往往比較復(fù)雜,從頭開(kāi)發(fā)的難度較大,有一些公司提供了能幫助開(kāi)發(fā)者輕松使用深度學(xué)習(xí)的自動(dòng)化深度學(xué)習(xí)(ADL)平臺(tái),比如微軟的 CustomVision.AI、谷歌的 Cloud AutoML,國(guó)內(nèi)諸如第四范式、智鈾科技等公司也推出了 AutoML 平臺(tái)。作為 AI 前線(xiàn) AutoML 專(zhuān)題文章的第一篇,本文將重點(diǎn)介紹谷歌的 Cloud AutoML。
谷歌 Cloud AutoML
概況
AutoML 的概念源自 2012 年學(xué)術(shù)界提出一個(gè)新觀念——Programming by Optimization(PbO),字面上的意思是指以最優(yōu)化程序開(kāi)發(fā),乍聽(tīng)之下似乎看不出個(gè)所以然,這卻是一個(gè)相當(dāng)創(chuàng)新的觀念,實(shí)質(zhì)上就是要解決編程時(shí)人工調(diào)校參數(shù)的問(wèn)題。
今年 1 月,谷歌發(fā)布了 Cloud AutoML。北京時(shí)間 1 月 18 日凌晨時(shí)分,李飛飛連發(fā)三條推特,發(fā)布了谷歌 AI 產(chǎn)品——Cloud AutoML Vision,“無(wú)需精通機(jī)器學(xué)習(xí),每個(gè)人都能用這款 AI 產(chǎn)品定制機(jī)器學(xué)習(xí)模型?!?/p>
鏈接:https://cloud.google.com/automl
AutoML Vision 是 Cloud AutoML 這個(gè)大項(xiàng)目推出的第一項(xiàng)服務(wù),提供自定義圖像識(shí)別系統(tǒng)自動(dòng)開(kāi)發(fā)服務(wù)。根據(jù)谷歌介紹,即使是沒(méi)有機(jī)器學(xué)習(xí)專(zhuān)業(yè)知識(shí)的的小白,只需了解模型基本概念,就能借這項(xiàng)服務(wù)輕松搭建定制化的圖像識(shí)別模型。 只需在系統(tǒng)中上傳自己的標(biāo)簽數(shù)據(jù),就能得到一個(gè)訓(xùn)練好的機(jī)器學(xué)習(xí)模型。整個(gè)過(guò)程,從導(dǎo)入數(shù)據(jù)到標(biāo)記到模型訓(xùn)練,都可以通過(guò)拖放式界面完成。
除了圖像識(shí)別,谷歌未來(lái)還計(jì)劃將 AutoML 服務(wù)拓展到翻譯、視頻和自然語(yǔ)言處理等領(lǐng)域。
解析
Google Cloud AutoML 服務(wù)使用了三個(gè)核心技術(shù),分別是:神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search Technology)、 learning2learn 以及遷移學(xué)習(xí) (transfer learning) 。
通過(guò)這些技術(shù)把參數(shù)以及結(jié)構(gòu)的調(diào)整交給機(jī)器。運(yùn)作的概念是機(jī)器利用神經(jīng)架構(gòu)搜索技術(shù)不斷測(cè)試,找出一個(gè)好的參數(shù)+神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的組合,AI 開(kāi)發(fā)人員覺(jué)得這個(gè)組合不錯(cuò),認(rèn)可了之后,機(jī)器就會(huì)記住,下一次就會(huì)做得更快更精準(zhǔn),這就是 learning2learn;或是可以將此組合轉(zhuǎn)移到另外的應(yīng)用場(chǎng)景下使用,這就是遷移學(xué)習(xí)。
AutoML 神經(jīng)架構(gòu)
通常來(lái)說(shuō),機(jī)器學(xué)習(xí)模型是由工程師和科學(xué)家小組精心設(shè)計(jì)的。手動(dòng)設(shè)計(jì)機(jī)器學(xué)習(xí)模型的過(guò)程是很困難的,因?yàn)樗锌赡艿哪P偷乃阉骺臻g可以組合地大,典型的 10 層網(wǎng)絡(luò)一般具有 10^10 個(gè)候選網(wǎng)絡(luò)。出于這個(gè)原因,設(shè)計(jì)網(wǎng)絡(luò)的過(guò)程往往需要大量的時(shí)間和具有重要機(jī)器學(xué)習(xí)專(zhuān)業(yè)知識(shí)的人進(jìn)行實(shí)驗(yàn)。
GoogleNet 架構(gòu)。這個(gè)網(wǎng)絡(luò)的設(shè)計(jì)需要從卷積體系結(jié)構(gòu)的初始版本進(jìn)行多年的仔細(xì)實(shí)驗(yàn)和改進(jìn)。
為了使機(jī)器學(xué)習(xí)模型的設(shè)計(jì)過(guò)程更容易獲得,谷歌一直在探索使機(jī)器學(xué)習(xí)模型的設(shè)計(jì)自動(dòng)化的方法。在他們研究的許多算法中,演化算法和強(qiáng)化學(xué)習(xí)算法表現(xiàn)出了很大的希望。
在谷歌內(nèi)部被稱(chēng)為 Auto ML 的方法中,一個(gè)控制器神經(jīng)網(wǎng)絡(luò)可以提出一個(gè)“子”模型架構(gòu),然后可以在特定任務(wù)中對(duì)其進(jìn)行訓(xùn)練和評(píng)估質(zhì)量。之后,這種反饋被用來(lái)通知控制器如何改進(jìn)其下一輪提案。經(jīng)過(guò)數(shù)千次的重復(fù),新的體系結(jié)構(gòu)生成了。最終,控制器學(xué)習(xí)為空間區(qū)域分配高可能性,以在保持出來(lái)的驗(yàn)證數(shù)據(jù)集上實(shí)現(xiàn)更高的準(zhǔn)確性,并且對(duì)建筑空間區(qū)域得分較低的區(qū)域的可能性低。以下是這一過(guò)程的樣子:
這種方法已經(jīng)被谷歌應(yīng)用于深度學(xué)習(xí)中的兩個(gè)高度基準(zhǔn)測(cè)試數(shù)據(jù)集:使用 CIFAR-10 進(jìn)行圖像識(shí)別以及使用 Penn Treebank 進(jìn)行語(yǔ)言建模。在這兩個(gè)數(shù)據(jù)集上,該方法可以設(shè)計(jì)出與機(jī)器學(xué)習(xí)專(zhuān)家設(shè)計(jì)的較先進(jìn)模型相媲美的模型。
那么,它會(huì)產(chǎn)生什么樣的神經(jīng)網(wǎng)絡(luò)?舉一個(gè)例子:經(jīng)過(guò)訓(xùn)練的經(jīng)常性架構(gòu)可以預(yù)測(cè) Penn Treebank 數(shù)據(jù)集中的下一個(gè)單詞。這里左邊是由專(zhuān)家設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)。右邊是上述方法創(chuàng)建的經(jīng)常性架構(gòu):
機(jī)器選擇的體系結(jié)構(gòu)確實(shí)與人體設(shè)計(jì)共享一些共同特征,例如使用加法將輸入和以前的隱藏狀態(tài)組合在一起。但是,有一些值得注意的新元素 :例如,機(jī)器選擇的體系結(jié)構(gòu)包含乘法組合(右圖中最左邊的藍(lán)色節(jié)點(diǎn),標(biāo)記為“ elem_mult ”)。這種類(lèi)型的組合對(duì)于經(jīng)常性網(wǎng)絡(luò)并不常見(jiàn),這可能是因?yàn)檠芯咳藛T沒(méi)有看到明顯的好處。有趣的是,這種方法最簡(jiǎn)單的形式最近由人類(lèi)設(shè)計(jì)師提出,他們也認(rèn)為這種乘法組合可以實(shí)際上減輕梯度消失 / 爆炸問(wèn)題,這表明機(jī)器選擇的架構(gòu)能夠發(fā)現(xiàn)一種有用的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。
這種方法也可以證明為什么某些類(lèi)型的神經(jīng)網(wǎng)絡(luò)工作得很好。這里右邊的架構(gòu)有很多通道,所以梯度可以倒退,這可能有助于解釋為什么 LSTM RNN 比標(biāo)準(zhǔn) RNN 更好地工作。
遷移學(xué)習(xí)
遷移學(xué)習(xí) (Transfer learning) 顧名思義就是就是把已學(xué)訓(xùn)練好的模型參數(shù)遷移到新的模型來(lái)幫助新模型訓(xùn)練。
考慮到大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的,所以通過(guò)遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識(shí))通過(guò)某種方式來(lái)分享給新模型從而加快并優(yōu)化模型的學(xué)習(xí)效率不用像大多數(shù)網(wǎng)絡(luò)那樣從零學(xué)習(xí)(starting from scratch,tabula rasa)。
Cloud AutoML 通過(guò)遷移學(xué)習(xí)(Transfer Learning)將已訓(xùn)練完成的模型,轉(zhuǎn)移到新的模型訓(xùn)練過(guò)程。這樣,能夠用較少量數(shù)據(jù)訓(xùn)練出機(jī)器學(xué)習(xí)模型。對(duì)于醫(yī)療領(lǐng)域而言,這點(diǎn)尤為重要,因?yàn)樵跒楹币?jiàn)疾病和一些特殊案例建模時(shí),往往無(wú)法取得足夠的訓(xùn)練數(shù)據(jù)。
Learning2learn?
Cloud AutoML 通過(guò) learning2learn 功能自動(dòng)挑選適合的模型,搭配超參數(shù)調(diào)整技術(shù)(Hyperparameter tuning technologies)自動(dòng)調(diào)整參數(shù)。
AutoML 面臨的挑戰(zhàn)
谷歌人工智能部門(mén)的掌門(mén)人 Jeff Dean 對(duì) Auto ML 的出現(xiàn)感到興奮,因?yàn)樗鼛椭?Google“自動(dòng)解決問(wèn)題”,但對(duì) AutoML 的使用也提出了獨(dú)特的問(wèn)題。
Dean 表示:“由于我們使用的是比傳統(tǒng)手工編碼軟件更多的系統(tǒng),我認(rèn)為這給我們帶來(lái)了很多挑戰(zhàn),我們正在處理這些問(wèn)題。如果你從數(shù)據(jù)中學(xué)習(xí)并且數(shù)據(jù)已經(jīng)對(duì)它做出了偏差決定,那么學(xué)習(xí)的機(jī)器學(xué)習(xí)模型本身會(huì)使這些偏見(jiàn)永久化。所以我們正在做很多工作,同機(jī)器學(xué)習(xí)社區(qū)中的其他人一起,努力研究如何培訓(xùn)沒(méi)有偏見(jiàn)形式的機(jī)器學(xué)習(xí)模型。”
另一個(gè)挑戰(zhàn):如何使用 AutoML 正確設(shè)計(jì)安全關(guān)鍵系統(tǒng),為醫(yī)療保健等行業(yè)創(chuàng)建 AI。已經(jīng)建立了數(shù)十年的計(jì)算機(jī)科學(xué)較佳實(shí)踐,以便對(duì)這些系統(tǒng)進(jìn)行手工編碼,機(jī)器制造機(jī)器也必須執(zhí)行相同的步驟。
Dean 表示:在分類(lèi)狗的種類(lèi)時(shí)發(fā)現(xiàn)錯(cuò)誤是一回事,但是在安全關(guān)鍵系統(tǒng)中犯下錯(cuò)誤完全是另一回事。他說(shuō):“我認(rèn)為這對(duì)我們來(lái)說(shuō)是一個(gè)非常有意義且重要的應(yīng)用方向,特別是當(dāng)我們開(kāi)始在更安全的關(guān)鍵系統(tǒng)中進(jìn)行機(jī)器學(xué)習(xí),比如對(duì)醫(yī)療保健或自動(dòng)駕駛汽車(chē)進(jìn)行決策?!?/p>
除了谷歌自家大佬提出的一些問(wèn)題,其他專(zhuān)家也都對(duì) AutoML 發(fā)表過(guò)看法。
一位不愿透露姓名的技術(shù)專(zhuān)家告訴 AI 前線(xiàn),Cloud AutoML 目前推出的第一項(xiàng)服務(wù)是針對(duì) Vision 的,ImageNet 數(shù)據(jù)集夠好夠大,所以大多情況下確實(shí)能夠遷移出不錯(cuò)的效果,而且視覺(jué)現(xiàn)在屬于比較好做的領(lǐng)域了,如果是 NLP、CTR 這些領(lǐng)域,則要難很多。大家現(xiàn)在有點(diǎn)“谷歌做的肯定都是好的”的心理,不得不說(shuō)谷歌 PR 能力確實(shí)厲害。
當(dāng)然,通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn) AutoML 這件事情本身確實(shí)給了從業(yè)者很大的想象空間,可以打破數(shù)據(jù)孤島,更低成本地解決更多問(wèn)題,比如用電商的數(shù)據(jù)去做傳統(tǒng)行業(yè)的推薦,或者一個(gè)新公司沒(méi)有數(shù)據(jù)但可以用其他公司或行業(yè)數(shù)據(jù)來(lái)做事情。
谷歌介紹稱(chēng) AutoML Vision 提供了簡(jiǎn)潔的圖形化用戶(hù)界面,只需導(dǎo)入數(shù)據(jù)和拖拽組件就能打造全新模型,更有媒體報(bào)道直接突出“無(wú)需寫(xiě)一行代碼”,那么真的可以不用寫(xiě)代碼嗎?這位專(zhuān)家諱莫如深地告訴 AI 前線(xiàn):“不寫(xiě)代碼容易做,不寫(xiě)代碼能做出好結(jié)果難呀?!?/p>
What`s Next?
對(duì)于整個(gè) AI 領(lǐng)域來(lái)說(shuō),AutoML 一定是下一個(gè)時(shí)代發(fā)展重點(diǎn),并且極有可能是機(jī)器學(xué)習(xí)的“大殺器”。但是,對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),哪怕是谷歌這樣的大廠(chǎng),AutoML 仍然是一個(gè)新興的領(lǐng)域,所有人都在摸索,誰(shuí)能先人一步搶占技術(shù)先機(jī)就顯得尤為重要。
然而在前不久舉辦的谷歌 I/O 開(kāi)發(fā)者大會(huì)上,除了 Jeff Dean 偶爾提到了 AutoML 以外,并沒(méi)有任何的專(zhuān)題演講來(lái)對(duì) AutoML 的進(jìn)展進(jìn)行講述,更是讓人感覺(jué)到這一新型技術(shù)的神秘和巨大潛力。
除了谷歌,在國(guó)際上如微軟這樣的大廠(chǎng)也已入局,本系列之后的文章也會(huì)提到。當(dāng)然,各位讀者可千萬(wàn)不要以為 AutoML 這樣的服務(wù)只有國(guó)外用戶(hù)才能享受到,在國(guó)內(nèi),也有一批公司推出了自家的 AutoML 平臺(tái),令人驚喜的是,它們當(dāng)中有相當(dāng)一部分是初創(chuàng)公司,在本系列中,我們還會(huì)介紹幾個(gè)國(guó)產(chǎn)的 AutoML 平臺(tái),請(qǐng)拭目以待!
參考鏈接
http://developers.googleblog.cn/2017/11/automl.html
https://zhuanlan.zhihu.com/p/27792859
https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it
http://www.mittrchina.com/news/1582
https://www.zhihu.com/question/41979241/answer/123545914
https://www.jianshu.com/p/1430dcc71d15
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4774.html
摘要:在舊金山舉行的谷歌云計(jì)算業(yè)務(wù)會(huì)議上,展示了其眼鏡技術(shù)。來(lái)自的應(yīng)用程序是利用谷歌云計(jì)算部門(mén)提供的服務(wù)構(gòu)建的,并得到了這家搜索巨頭的支持。貝內(nèi)特說(shuō)你們中很多人可能還記得以前的谷歌眼鏡,現(xiàn)在它回來(lái)了這款眼鏡已經(jīng)成為對(duì)企業(yè)真正有趣的技術(shù)。7月31日,以色列軟件公司Plataine展示了一款針對(duì)谷歌眼鏡的新應(yīng)用。它主要適用于制造業(yè)工人,能夠理解口語(yǔ)并提供口頭回答。在舊金山舉行的谷歌云計(jì)算業(yè)務(wù)會(huì)議上,P...
摘要:谷歌云在其官方博客上公布,確認(rèn)來(lái)自卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)院院長(zhǎng)教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會(huì)上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語(yǔ)言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...
摘要:通過(guò)在中結(jié)合進(jìn)化算法執(zhí)行架構(gòu)搜索,谷歌開(kāi)發(fā)出了當(dāng)前較佳的圖像分類(lèi)模型。本文是谷歌對(duì)該神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法的技術(shù)解讀,其中涉及兩篇論文,分別是和。此外,谷歌還使用其新型芯片來(lái)擴(kuò)大計(jì)算規(guī)模。 通過(guò)在 AutoML 中結(jié)合進(jìn)化算法執(zhí)行架構(gòu)搜索,谷歌開(kāi)發(fā)出了當(dāng)前較佳的圖像分類(lèi)模型 AmoebaNet。本文是谷歌對(duì)該神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法的技術(shù)解讀,其中涉及兩篇論文,分別是《Large-Scale Ev...
摘要:年度大會(huì)于月日到月日在舊金山中心舉行,谷歌云首席科學(xué)家李飛飛谷歌云研發(fā)負(fù)責(zé)人李佳等高管公布了的幾項(xiàng)最新產(chǎn)品。正式進(jìn)入谷歌云在這次的谷歌云大會(huì)上,李飛飛宣布第三代正式進(jìn)入谷歌云,現(xiàn)在是基于云的的版。Google Cloud年度大會(huì)Google Cloud Next 2018于7月24日到7月26日在舊金山Moscone中心舉行,谷歌云首席科學(xué)家李飛飛、谷歌云AI研發(fā)負(fù)責(zé)人李佳等高管公布了Goo...
摘要:據(jù)介紹,在谷歌近期的強(qiáng)化學(xué)習(xí)和基于進(jìn)化的的基礎(chǔ)上構(gòu)建,快速靈活同時(shí)能夠提供學(xué)習(xí)保證。剛剛,谷歌發(fā)布博客,開(kāi)源了基于的輕量級(jí)框架,該框架可以使用少量專(zhuān)家干預(yù)來(lái)自動(dòng)學(xué)習(xí)高質(zhì)量模型。 TensorFlow 是相對(duì)高階的機(jī)器學(xué)習(xí)庫(kù),用戶(hù)可以方便地用它設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而不必為了追求高效率的實(shí)現(xiàn)親自寫(xiě) C++或 CUDA 代碼。它和 Theano 一樣都支持自動(dòng)求導(dǎo),用戶(hù)不需要再通過(guò)反向傳播求解...
閱讀 721·2021-10-09 09:41
閱讀 707·2019-08-30 15:53
閱讀 1139·2019-08-30 15:53
閱讀 1269·2019-08-30 11:01
閱讀 1633·2019-08-29 17:31
閱讀 1057·2019-08-29 14:05
閱讀 1782·2019-08-29 12:49
閱讀 468·2019-08-28 18:17