從Pix2Code到CycleGAN：2017年深度學習重大研究進展全解讀

kuangcaibao 發(fā)布于2019-04-25 18:22 / 3395人閱讀

摘要：文本谷歌神經(jīng)機器翻譯去年，谷歌宣布上線的新模型，并詳細介紹了所使用的網(wǎng)絡架構(gòu)循環(huán)神經(jīng)網(wǎng)絡。目前唇讀的準確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中，谷歌還給出了新的，它包含了大量的復雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡畫畫。

1. 文本

1.1 谷歌神經(jīng)機器翻譯

去年，谷歌宣布上線 Google Translate 的新模型，并詳細介紹了所使用的網(wǎng)絡架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡（RNN）。

關(guān)鍵結(jié)果：與人類翻譯準確率的差距縮小了 55-85%（研究者使用 6 個語言對的評估結(jié)果）。但是該模型如果沒有谷歌的大型數(shù)據(jù)集，則很難復現(xiàn)這么優(yōu)秀的結(jié)果。

1.2 談判會達成嗎？

你或許聽說過「Facebook 因為聊天機器人失控、創(chuàng)造自己語言而關(guān)閉聊天機器人」的消息。這個機器人是用來進行談判的，其目的是與另一個智能體進行文本談判，然后達成協(xié)議：如何把物品（書籍、帽子等）分成兩份。談判中每個智能體都有自己的目標，而對方并不知道。談判不可能出現(xiàn)未達成協(xié)議的情況。

研究者在訓練過程中收集人類談判的數(shù)據(jù)集，訓練監(jiān)督式循環(huán)網(wǎng)絡。然后，讓用強化學習訓練出的智能體自己與自己交流，直到獲得與人類相似的談判模式。

該機器人學會了一種真正的談判策略——對某個交易的特定方面假裝產(chǎn)生興趣，然后再放棄它們，以達到真實目標。這是第一次嘗試此類互動機器人，而且也比較成功。

當然，稱該機器人創(chuàng)造了一種新語言的說法過于夸張了。和同一個智能體進行談判的訓練過程中，研究者無法限制文本與人類語言的相似度，然后算法修改了互動語言。這是很尋常的事。

2. 語音

2.1 WaveNet：一種針對原始語音的生成模型

DeepMind 的研究者基于先前的圖像生成方法構(gòu)建了一種自回歸全卷積模型 WaveNet。該模型是完全概率的和自回歸的（fully probabilistic and autoregressive），其每一個音頻樣本的預測分布的前提是所有先前的樣本；不過研究表明它可以有效地在每秒音頻帶有數(shù)萬個樣本的數(shù)據(jù)上進行訓練。當被應用于文本轉(zhuǎn)語音時，它可以得到當前較佳的表現(xiàn)，人類聽眾評價它在英語和漢語上比當前較好的參數(shù)（parametric）和拼接（concatenative）系統(tǒng)所生成的音頻聽起來都顯著更為自然。

單個 WaveNet 就可以以同等的保真度捕獲許多不同說話者的特點，而且可以通過調(diào)節(jié)說話者身份來在它們之間切換。當訓練該模型對音樂建模時，我們發(fā)現(xiàn)它可以生成全新的、而且往往具有高度真實感的音樂片段。該研究還證明其可以被用作判別模型，可以為音速識別（phoneme recognition）返回很有希望的結(jié)果。

該網(wǎng)絡以端到端的方式進行訓練：文本作為輸入，音頻作為輸出。研究者得到了非常好的結(jié)果，機器合成語音水平與人類差距縮小 50%。

該網(wǎng)絡的主要缺陷是低生產(chǎn)力，因為它使用自回歸，聲音按序列生成，需要 1-2 分鐘的時間才能生成一秒音頻。

2.2 唇讀

唇讀（lipreading）是指根據(jù)說話人的嘴唇運動解碼出文本的任務。傳統(tǒng)的方法是將該問題分成兩步解決：設計或?qū)W習視覺特征、以及預測。最近的深度唇讀方法是可以端到端訓練的（Wand et al., 2016; Chung & Zisserman, 2016a）。目前唇讀的準確度已經(jīng)超過了人類。

Google DeepMind 與牛津大學合作的一篇論文《Lip Reading Sentences in the Wild》介紹了他們的模型經(jīng)過電視數(shù)據(jù)集的訓練后，性能超越 BBC 的專業(yè)唇讀者。

該數(shù)據(jù)集包含 10 萬個音頻、視頻語句。音頻模型：LSTM，視頻模型：CNN + LSTM。這兩個狀態(tài)向量被饋送至最后的 LSTM，然后生成結(jié)果（字符）。

訓練過程中使用不同類型的輸入數(shù)據(jù)：音頻、視頻、音頻+視頻。即，這是一個「多渠道」模型。

2.3 人工合成奧巴馬：嘴唇動作和音頻的同步

華盛頓大學進行了一項研究，生成美國前總統(tǒng)奧巴馬的嘴唇動作。選擇奧巴馬的原因在于網(wǎng)絡上有他大量的視頻（17 小時高清視頻）。

研究者使用了一些技巧來改善該研究的效果。

3. 計算機視覺

3.1. OCR：谷歌地圖與街景

谷歌大腦團隊在其文章中報道了如何把新的 OCR（光學字符識別）引擎引入其地圖中，進而可以識別街頭的標志與商標。

在該技術(shù)的發(fā)展過程中，谷歌還給出了新的 FSNS（French Street Name Signs），它包含了大量的復雜案例。

為了識別標志，網(wǎng)絡最多使用 4 張圖片。特征通過 CNN 提取，在空間注意力（考慮像素坐標）的幫助下縮放，最后結(jié)果被饋送至 LSTM。

相同方法被用于識別廣告牌上店鋪名稱的任務上（存在大量噪音數(shù)據(jù)，網(wǎng)絡本身必須關(guān)注正確的位置）。這一算法被應用到 800 億張圖片之上。

3.2 視覺推理

視覺推理指的是讓神經(jīng)網(wǎng)絡回答根據(jù)照片提出的問題。例如，「照片中有和黃色的金屬圓柱的尺寸相同的橡膠物體嗎？」這樣的問題對于機器是很困難的，直到最近，這類問題的回答準確率才達到了 68.5%。

為了更深入地探索視覺推理的思想，并測試這種能力能否輕松加入目前已有的系統(tǒng)，DeepMind 的研究者們開發(fā)了一種簡單、即插即用的 RN 模塊，它可以加載到目前已有的神經(jīng)網(wǎng)絡架構(gòu)中。具備 RN 模塊的神經(jīng)網(wǎng)絡具有處理非結(jié)構(gòu)化輸入的能力（如一張圖片或一組語句），同時推理出事物其后隱藏的關(guān)系。

使用 RN 的網(wǎng)絡可以處理桌子上的各種形狀（球體、立方體等）物體組成的場景。為了理解這些物體之間的關(guān)系（如球體的體積大于立方體），神經(jīng)網(wǎng)絡必須從圖像中解析非結(jié)構(gòu)化的像素流，找出哪些數(shù)據(jù)代表物體。在訓練時，沒有人明確告訴網(wǎng)絡哪些是真正的物體，它必須自己試圖理解，并將這些物體識別為不同類別（如球體和立方體），隨后通過 RN 模塊對它們進行比較并建立「關(guān)系」（如球體大于立方體）。這些關(guān)系不是硬編碼的，而是必須由 RN 學習——這一模塊會比較所有可能性。最后，系統(tǒng)將所有這些關(guān)系相加，以產(chǎn)生場景中對所有形狀對的輸出。

目前的機器學習系統(tǒng)在 CLEVR 上標準問題架構(gòu)上的回答成功率為 68.5%，而人類的準確率為 92.5%。但是使用了 RN 增強的神經(jīng)網(wǎng)絡，DeepMind 展示了超越人類表現(xiàn)的 95.5% 的準確率。RN 增強網(wǎng)絡在 20 個 bAbI 任務中的 18 個上得分均超過 95％，與現(xiàn)有的較先進的模型相當。值得注意的是，具有 RN 模塊的模型在某些任務上的得分具有優(yōu)勢（如歸納類問題），而已有模型則表現(xiàn)不佳。

下圖為視覺問答的架構(gòu)。問題在經(jīng)過 LSTM 處理后產(chǎn)生一個問題嵌入（question embedding），而圖像被一個 CNN 處理后產(chǎn)生一組可用于 RN 的物體。物體（圖中用黃色、紅色和藍色表示）是在卷積處理后的圖像上使用特征圖向量構(gòu)建的。該 RN 網(wǎng)絡會根據(jù)問題嵌入來考慮所有物體對之間的關(guān)系，然后會整合所有這些關(guān)系來回答問題。

3.3 Pix2Code

哥本哈根的一家初創(chuàng)公司 UIzard Technologies 訓練了一個神經(jīng)網(wǎng)絡，能夠把圖形用戶界面的截圖轉(zhuǎn)譯成代碼行，成功為開發(fā)者們分擔了部分網(wǎng)站設計流程。令人驚嘆的是，同一個模型能跨平臺工作，包括 iOS、Android 和 Web 界面，從目前的研發(fā)水平來看，該算法的準確率達到了 77%。

為了實現(xiàn)這一點，研究者們需要分三個步驟來訓練，首先，通過計算機視覺來理解 GUI 圖像和里面的元素（按鈕、條框等）。接下來模型需要理解計算機代碼，并且能生成在句法上和語義上都正確的樣本。最后的挑戰(zhàn)是把之前的兩步聯(lián)系起來，需要它用推測場景來生成描述文本。

雖然該工作展示了這樣一種能自動生成 GUI 代碼的潛力系統(tǒng)，但該研究只是開發(fā)了這種潛力的皮毛。目前的 Pix2Code 模型由相對較少的參數(shù)組成，并且只能在相對較小的數(shù)據(jù)集上訓練。而構(gòu)建更復雜的模型，并在更大的數(shù)據(jù)集上訓練會顯著地提升代碼生成的質(zhì)量。并且采用各種正則化方法和實現(xiàn)注意力機制（attention mechanism [1]）也能進一步提升生成代碼的質(zhì)量。同時該模型采用的獨熱編碼（one-hot encoding）并不會提供任何符號間關(guān)系的信息，而采用 word2vec [12] 那樣的詞嵌入模型可能會有所好轉(zhuǎn)。因此將圖片轉(zhuǎn)換為 UI 代碼的工作仍處于研究之中，目前尚未投入實際使用。

項目地址：https://github.com/tonybeltramelli/pix2code

3.4 SketchRNN：教機器畫畫

你可能看過谷歌的 Quick, Draw! 數(shù)據(jù)集，其目標是 20 秒內(nèi)繪制不同物體的簡筆畫。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡畫畫。

研究者使用 RNN 訓練序列到序列的變分自編碼器（VAE）作為編解碼機制。

最終，該模型獲取表示原始圖像的隱向量（latent vector）。

解碼器可從該向量中提取圖畫，你可以改變它，生成新的簡筆畫。

甚至使用向量算術(shù)來繪制貓豬（catpig）：

3.5 GAN

GAN 是深度學習領(lǐng)域里的一個熱門話題。目前這種方法大多用于處理圖像，所以本文也主要介紹這一方面。GAN 的全稱為生成對抗網(wǎng)絡，是 2014 年由 Ian Goodfellow 及其蒙特利爾大學的同事們率先提出的。這是一種學習數(shù)據(jù)的基本分布的全新方法，讓生成出的人工對象可以和真實對象之間達到驚人的相似度。

GAN 背后的思想非常直觀：生成器和鑒別器兩個網(wǎng)絡彼此博弈。生成器的目標是生成一個對象（比如人的照片），并使其看起來和真的一樣。而鑒別器的目標就是找到生成出的結(jié)果和真實圖像之間的差異。鑒別器通常會從數(shù)據(jù)集中給出圖像用于對比。

由于很難找出兩個網(wǎng)絡之間的平衡點，訓練通常難以連續(xù)進行。大多數(shù)情況下鑒別器會獲勝，訓練陷入停滯。盡管如此，由于鑒別器的設計可以幫助我們從損失函數(shù)設定這樣的復雜問題中解決出來（例如：提升圖片質(zhì)量），所以 GAN 獲得了眾多研究者的青睞。

典型的 GAN 訓練結(jié)果——臥室和人臉。

在此之前，我們通常會考慮使用自編碼器（Sketch-RNN），讓其將原始數(shù)據(jù)編碼成隱藏表示。這和 GAN 中生成器所做的事情一樣。

你可以在這個項目中（http://carpedm20.github.io/faces/）找到使用向量生成圖片的方法。你可以自行嘗試調(diào)整向量，看看生成的人臉會如何變化。

這種算法在隱空間上同樣適用：「一個戴眼鏡的男人」減去「男人」加上「女人」就等于「一個戴眼鏡的女人」。

3.6 使用 GAN 改變面部年齡

如果在訓練過程中獲得一個可控制的隱向量參數(shù)，我們就可以在推斷階段修改這個向量以控制圖像的生成屬性，這種方法被稱為條件 GAN。

論文 Face Aging With Conditional Generative Adversarial Networks 的作者使用在 IMDB 數(shù)據(jù)集上預訓練模型而獲得年齡的預測方法，然后研究者基于條件 GAN 修改生成圖像的面部年齡。

3.7 專業(yè)攝影作品

谷歌已經(jīng)開發(fā)了另一個非常有意思的 GAN 應用，即攝影作品的選擇和改進。開發(fā)者在專業(yè)攝影作品數(shù)據(jù)集上訓練 GAN，其中生成器試圖改進照片的表現(xiàn)力（如更好的拍攝參數(shù)和減少對濾鏡的依賴等），判別器用于區(qū)分「改進」的照片和真實的作品。

訓練后的算法會通過 Google Street View 搜索較佳構(gòu)圖，獲得了一些專業(yè)級的和半專業(yè)級的作品評分。

3.8 pix2pix

伯克利人工智能研究室（BAIR）在 2016 年非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中，研究人員解決了圖像到圖像的生成問題。例如需要使用衛(wèi)星圖像創(chuàng)建地圖，或使用素描創(chuàng)建逼真的目標紋理等。

這里有另一個非常成功的條件 GAN 應用案例。在該情況下，條件將變?yōu)檎麖垐D像。此外，UNet 在圖像分割中十分受歡迎，經(jīng)常用于生成器的體系結(jié)構(gòu)，且該論文使用了新型 PatchGAN 分類器作為處理模糊圖像的判別器。

該論文的作者還發(fā)布了他們網(wǎng)絡的在線演示：https://affinelayer.com/pixsrv/

源代碼：https://github.com/phillipi/pix2pix

3.9 CycleGAN

為了應用 Pix2Pix，我們需要包含了不同領(lǐng)域圖像對的數(shù)據(jù)集。收集這樣的數(shù)據(jù)集并不困難，但對于更復雜一點的轉(zhuǎn)換目標或風格化目標等操作，原則上是找不到這樣的目標對。

因此，Pix2Pix 的作者為了解決這樣的問題提出了在不同圖像領(lǐng)域之間轉(zhuǎn)換而不需要特定圖像對的 CycleGAN 模型，原論文為《Unpaired Image-to-Image Translation》。

該論文的主要想法是訓練兩對生成器-判別器模型以將圖像從一個領(lǐng)域轉(zhuǎn)換為另一個領(lǐng)域，在這過程中我們要求循環(huán)一致性。即在序列地應用生成器后，我們應該得到一個相似于原始 L1 損失的圖像。因此我們需要一個循環(huán)損失函數(shù)（cyclic loss），它能確保生成器不會將一個領(lǐng)域的圖像轉(zhuǎn)換到另一個和原始圖像完全不相關(guān)的領(lǐng)域。

這個方法允許我們學習將馬映射到斑馬。

這樣的轉(zhuǎn)換通常是不穩(wěn)定的，并且經(jīng)常創(chuàng)建一些不成功的案例：

源代碼：https://github.com/junyanz/CycleGAN

3.10 腫瘤分子學的進展

機器學習正在幫助改善醫(yī)療的手段，它除了在超聲波識別、MPI 和診斷等方面的應用，還能尋找對抗癌癥的性藥物。

簡單來說，在對抗自編碼器（AAE）的幫助下，我們可以學習藥物分子的潛在表征，并用來搜索新的藥物結(jié)構(gòu)。該項研究中，研究者發(fā)現(xiàn)了 69 個分子，且有一半的分子可用來治療癌癥和其它一些比較嚴重的疾病。

3.11 對抗性攻擊

對抗性樣本這一領(lǐng)域也有非常大的活力，研究者希望找到這種令模型不穩(wěn)定的因素而提升識別性能。例如在 ImageNet 中，訓練的模型在識別加了一些噪點的樣本會完全識別錯誤，這樣加了噪點的圖像可能在我們?nèi)搜劭磥硎菦]有問題的。這一問題展現(xiàn)在下圖中，熊貓的圖像加了一點噪聲就會被錯誤識別為長臂猿。

Goodfellow et al. (2014b) 表明，出現(xiàn)這些對抗樣本的主要原因之一是模型過度線性化。神經(jīng)網(wǎng)絡主要是基于線性模塊而構(gòu)建的，因此它們實現(xiàn)的整體函數(shù)被證明是高度線性的。雖然這些線性函數(shù)很容易優(yōu)化，但如果一個線性函數(shù)具有許多輸入，那么它的值可以非常迅速地改變。如果我們用 ? 改變每個輸入，那么權(quán)重為 w 的線性函數(shù)改變可以達到 ?∥w∥_1，如果 w 的維度較高，那么這會是一個非常大的數(shù)值。對抗訓練通過鼓勵網(wǎng)絡在訓練數(shù)據(jù)附近的局部區(qū)域恒定來限制這一高度敏感的局部線性行為。這可以被看作是一種明確地向監(jiān)督神經(jīng)網(wǎng)絡引入局部恒定先驗的方法。

下面一個例子表示特殊的眼鏡可以欺騙人臉識別系統(tǒng)，所以在訓練特定的模型時，我們需要考慮這種對抗性攻擊并使用對抗性樣本提高模型的魯棒性。

這種使用符號的方法也不能被正確地識別。

4 強化學習

強化學習（RL）或使用了強化機制的學習也是機器學習中最有趣和發(fā)展活躍的方法之一。

該方法的本質(zhì)是在一個根據(jù)經(jīng)驗給予獎勵（正如人類的學習方式）的環(huán)境中學習智能體的成功行為。

RL 在游戲、機器人和系統(tǒng)控制（例如，交通）中被廣泛應用。

當然，每個人都已經(jīng)聽說了 AlphaGo 在游戲中擊敗過多個頂尖專業(yè)選手。研究者使用 RL 訓練 AlphaGo 的過程是：讓機器通過自我對弈提升決策能力。

4.1 結(jié)合非受控輔助任務的強化訓練

去年，DeepMind 通過使用 DQN 玩電子游戲取得了超越人類的表現(xiàn)。最近，人們已經(jīng)開發(fā)出了能讓機器玩更加復雜的游戲（如 Doom）的算法。

大多數(shù)研究關(guān)注于學習加速，因為學習智能體與環(huán)境交互的經(jīng)驗需要在現(xiàn)代 GPU 上執(zhí)行很長時間的訓練。

DeepMind 的博客（https://deepmind.com/blog/reinforcement-learning-unsupervised-auxiliary-tasks/）中報告了引入附加損失（輔助任務）的辦法，例如預測幀變化（像素控制）使智能體更充分地理解動作的后果，可以顯著加快學習過程。

4.2 學習機器人

OpenAI 對在虛擬環(huán)境中訓練智能體進行了積極的研究，相比在現(xiàn)實世界中進行實驗要安全得多。

在其中一個研究中（https://blog.openai.com/robots-that-learn/），他們證明了一次性學習（one-shot learning）是可能實現(xiàn)的：在 VR 中的一個人展示如何執(zhí)行任務，并且算法只需要一次展示就能學會然后在實際條件下將其重現(xiàn)。

如果只有人類有這個能力就好了。:)

4.3 學習人類的偏好

這是 OpenAI（https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/）和 DeepMind 都曾研究過的課題。基本目標是智能體有一個任務，算法為人類提供兩個可能的解決方案，并指出那個更好。該過程需要重復迭代，并且算法接收來自學習如何解決問題的人類的 900 比特大小的反饋（二進制標記）。

一如既往，人類必須謹慎判斷，思考他教給機器究竟是什么。例如，評估器得出算法確實想要拿到某個物體，但實際上，人類只是想進行一次模擬實驗。

4.4 在復雜環(huán)境中的運動

這是 DeepMind 的另一項研究（https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/）。為了教會機器人執(zhí)行復雜的行為（行走、跳躍，等），甚至達到類似人體的動作，你需要非常重視損失函數(shù)的選擇，以獲得想要的行為。然而，讓算法自身通過簡單的獎勵機制學習復雜的行為或許會有更好的效果。

為了達到這個目標，研究者通過構(gòu)建一個包含障礙物的復雜環(huán)境教智能體（人體模擬器）執(zhí)行復雜的動作，結(jié)合簡單的獎勵機制提高動作質(zhì)量。

可以通過視頻查看研究取得的令人印象深刻的結(jié)果。

最后，我給出 OpenAI 近日發(fā)布的應用強化學習的算法的鏈接（https://github.com/openai/baselines）。這個解決方案比標準的 DQN 方法更好。

5 其它

5.1 數(shù)據(jù)中心冷卻系統(tǒng)

在 2017 年 7 月，谷歌報告稱他們利用 DeepMind 的機器學習研究成果降低了數(shù)據(jù)中心的能耗。

基于來自數(shù)據(jù)中心的幾千個傳感器的信息，谷歌開發(fā)者訓練一個神經(jīng)網(wǎng)絡集成預測能量利用效率（PUE）以及更高效的數(shù)據(jù)中心管理方法。這是機器學習中非常令人印象深刻和重要的實際應用案例。

5.2 通用模型

如你所知，已訓練模型的任務遷移性能很差，因為每個模型都是為特定的任務而設計的。谷歌大腦的一篇論文（https://arxiv.org/abs/1706.05137）在通用模型的研究上跨出了一小步。

研究者訓練了一個模型，可以執(zhí)行 8 個不同領(lǐng)域（文本、語音和圖像）的任務。例如，不同語言的翻譯、文本解析，以及圖像、語音識別。

為了達到這個目的，他們使用多種不同的模塊構(gòu)建了一個復雜的網(wǎng)絡架構(gòu)以處理不同的輸入數(shù)據(jù)并生成結(jié)果。編碼器/解碼器模塊包含三種類型：卷積、注意和 MoE（https://arxiv.org/abs/1701.06538）。

他們幾乎得到了完美的模型（作者并沒有細調(diào)超參數(shù)）。

模型中存在不同領(lǐng)域知識的遷移，即，相比使用大量數(shù)據(jù)訓練的任務（無遷移），該模型能獲得幾乎相同的性能。并且這個模型在小數(shù)據(jù)任務上表現(xiàn)得更好（例如，文本解析）。

不同任務所需的模塊之間并不會互相干擾，有時甚至能互相輔助，例如，MoE 可以輔助 ImageNet 圖像識別任務。

模型的 GitHub 地址：https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/multimodel.py

5.3. 一小時訓練 ImageNet

Facebook 在其博文中告訴我們其工程師能夠用 1 小時的時間通過 Imagenet 教會 ResNet-50 模型，不過其實現(xiàn)需要 256 塊 GPU (Tesla P100)。

他們通過 Gloo 和 Caffe2 實現(xiàn)分布式學習。為了更有效，采用大批量的學習策略很有必要：梯度平均、特定學習率等。

結(jié)果，當從 8 塊 GPU 擴展到 256 塊時，效率可高達 90%?，F(xiàn)在，F(xiàn)acebook 可以更快地進行實驗。

6. 新聞

6.1. 自動駕駛

自動駕駛領(lǐng)域正密集地發(fā)展，測試也在積極地開展。從最近事件中我們注意到英特爾收購 MobilEye，Uber 從谷歌剽竊自動駕駛技術(shù)的丑聞，以及較早的自動駕駛死亡案例等等。

這里我提醒一件事：谷歌 Waymo 推出了 beta 版。谷歌是該領(lǐng)域的先驅(qū)者，可以假定他們的技術(shù)很好，因為其自動駕駛汽車里程已超過 300 萬英里。

更近的事件則有自動駕駛汽車已在美國所有州允許上路測試。

6.2. 醫(yī)療

就像我說的，現(xiàn)代機器學習正開始應用于醫(yī)療。比如，谷歌與某醫(yī)療中心展開合作提升診斷。DeepMind 甚至還為此成立了一個獨立部門。

在今年的 Data Science Bowl 上，有一個獎金高達 100 萬美元的競賽，根據(jù)標注圖像預測一年之中的肺癌情況。

6.3. 投資

正如之前的大數(shù)據(jù)，機器學習當下也涌入了大量資本。中國在 AI 領(lǐng)域的投資高達 1500 億美元，從而成為行業(yè)領(lǐng)導者之一。

相比之下，百度研究院擁有 1300 名員工，而 Facebook FAIR 則只有 80 名。在今年閉幕的 KDD 2017 上，阿里巴巴介紹了其參數(shù)服務器鯤鵬，它帶有萬億個參數(shù)，并使得運行 1000 億個樣本成為常規(guī)任務。

人工智能仍處于起步階段，入門學習機器學習永遠不嫌晚。不管怎樣，所有開發(fā)者會慢慢用起機器學習，這項技術(shù)會成為程序員的必備技能之一，就像現(xiàn)在每個人都會使用數(shù)據(jù)庫一樣。 ?

原文鏈接：https://blog.statsbot.co/deep-learning-achievements-4c563e034257

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務器云服務器深度學習從入門到精通 2017深度學習深度學習從哪里入手基于深度學習的圖像識別進展

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/4701.html

發(fā)表評論

登陸后可評論

0條評論

kuangcaibao

男|高級講師

我要關(guān)注我要私信

TA的文章

jupyter安裝tensorflow

閱讀 1907·2023-04-25 15:51
SpringBoot集成Redis

閱讀 2554·2021-10-13 09:40
Facebook宣布“元宇宙”相關(guān)部門負責人晉升首席技術(shù)官

閱讀 2235·2021-09-23 11:22
浮動布局錯誤

閱讀 3294·2019-08-30 14:16
一次完整的react hooks實踐

閱讀 2712·2019-08-26 13:35
React Router4.0

閱讀 1905·2019-08-26 13:31
也來探討一下Object.assign

閱讀 920·2019-08-26 11:39
React源碼解析之React.children.map()

閱讀 2798·2019-08-26 10:33

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Pix2Code到CycleGAN：2017年深度學習重大研究進展全解讀

相關(guān)文章

中國數(shù)字產(chǎn)業(yè)迎來發(fā)展黃金期

用GAN去除動作片中的馬賽克和衣服

發(fā)表評論

0條評論

kuangcaibao

男|高級講師

TA的文章

jupyter安裝tensorflow

SpringBoot集成Redis

Facebook宣布“元宇宙”相關(guān)部門負責人晉升首席技術(shù)官

浮動布局錯誤

一次完整的react hooks實踐

React Router4.0

也來探討一下Object.assign

React源碼解析之React.children.map()

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Pix2Code到CycleGAN：2017年深度學習重大研究進展全解讀

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！