摘要:本文著重以人臉識別為例介紹深度學習技術在其中的應用,以及優(yōu)圖團隊經(jīng)過近五年的積累對人臉識別技術乃至整個人工智能領域的一些認識和分享。從年左右,受深度學習在整個機器視覺領域迅猛發(fā)展的影響,人臉識別的深時代正式拉開序幕。
騰訊優(yōu)圖隸屬于騰訊社交網(wǎng)絡事業(yè)群(SNG),團隊整體立足于騰訊社交網(wǎng)絡大平臺,專注于圖像處理、模式識別、機器學習、數(shù)據(jù)挖掘、深度學習、音頻語音分析等領域開展技術研發(fā)和業(yè)務落地。
序言——「弱弱」的人工智能
說到人工智能(Artificial Intelligence, AI)人們總是很容易和全知、全能這樣的詞聯(lián)系起來。大量關于人工智能的科幻電影更給人工智能蒙上一層神秘的色彩。強如《黑客帝國》、《機械公敵》中的AI要翻身做主人統(tǒng)治全人類。稍弱點的《機械姬》里 EVA 懂得利用美貌欺騙中二程序員,殺死主人逃出生天。最不濟也可以蠢萌蠢萌的像 WALL·E 能陪玩、送禮物還能談個戀愛。
其實人工智能這個詞在 1956 年達特茅斯會議上正式誕生時,目標就是想要讓機器的行為看起來像是人所表現(xiàn)出的智能行為一樣的「強」人工智能。然而人工智能的研究是高度技術性和專業(yè)性的,各分支領域都是深入且各不相通的,因而涉及范圍極廣。正是這種復雜屬性,導致人們對人工智能的研究進程總是磕磕碰碰,反復地經(jīng)歷過分樂觀的浪潮與極度悲觀的寒冬。時至今日,想要完成全知、全能的強人工智能仍然只是一個長遠目標。
雖然目前的技術水平還遠不能實現(xiàn)強人工智能,但在一些非常特定的領域里,弱人工智能技術正在經(jīng)歷前所未有的迅猛發(fā)展,達到或已超越人類的較高水平。例如深藍、Alpha Go 分別在國際象棋和圍棋領域擊敗世界冠軍。例如自然語言理解、語音識別和人臉識別接近、達到甚至超越普通人的識別水平。雖然這些弱人工智能技術并不能真正地推理、理解和解決問題,但是面對特定的任務它們所給出的「判斷」看起來是具有智能的。而正是這些看似「弱弱」的人工智能技術,在悄悄的改變人類生活的方方面面。它們以點帶面完成越來越多的「簡單任務」,為人們提供更加簡潔、方便和安全的服務。
人臉識別正是眾多「弱弱」的人工智能技術之一。通過看人的面孔識別其身份,對每一個正常的人來說都是再簡單不過的。如果強行將人臉識別的難度和下圍棋來比,應該沒有人會覺得人臉識別更難。然而從計算機的角度來看,至少在輸入數(shù)據(jù)的復雜度上人臉識別是遠超圍棋單步走子決策的。如圖 1(a) 所示,一張 Angelababy 的圖像在計算機看來,其實就是一個數(shù)字矩陣如圖 1(b)。數(shù)字矩陣的每個元素取值范圍是 0-255 的整數(shù)。通常人臉識別算法所需的輸入圖像至少在以上,大的可能達到。理論上不同的可能輸入共有種(每個像素的取值范圍為 0-255)。而圍棋任意單步走子的可能局面上限為(每個棋盤格只能有黑子,白子,無子三種情況),遠遠小于人臉識別。無論是圍棋還是人臉識別,通過遍歷完整的輸入空間來做出最優(yōu)的決策,就計算復雜度而言都是完全無法接受的。
圖1:數(shù)字化的人臉識別 VS. 圍棋單步?jīng)Q策
其實對幾乎所有人工智能問題,如何通過更高層次的抽象來理解輸入從而更快速的做出決策都是解決問題的關鍵所在。近十年來引領新一波人工智能浪潮的核心技術「深度學習」就是這樣一種方法,它通過少則近幾層多則上百層人工神經(jīng)網(wǎng)絡不斷地對高維的輸入數(shù)據(jù)塊進行抽象與理解并最終做出「智能」的決策。單憑深度學習技術可能仍然難以完成全知全能的「強」人工智能,但它卻是完成任何特定「弱」智能任務的一把牛刀。正是看到深度學習技術如此巨大的潛力,國際互聯(lián)網(wǎng)巨頭 Google,F(xiàn)acebook,Microsoft 紛紛搶先布局,國內互聯(lián)網(wǎng)領袖BAT也不惜資源進行技術儲備,作為騰訊內部較高級的機器學習研發(fā)團隊,優(yōu)圖也投入精英人力專注于深度學習技術的研發(fā)與產(chǎn)品落地。
本文著重以人臉識別為例介紹深度學習技術在其中的應用,以及優(yōu)圖團隊經(jīng)過近五年的積累對人臉識別技術乃至整個人工智能領域的一些認識和分享。
回顧——人臉識別的「淺」時代
在介紹深度學習技術在人臉識別中的應用之前,我們先看看深度學習技術興起前的「淺」時代人臉識別技術。前面提到高維輸入是所有類人工智能問題的一個普遍難題,學界稱之為「維數(shù)災難」(The curse of dimensionality)。其實在機器自動人臉識別技術研究的早期研究者們嘗試過用一些非常簡單的幾何特征來進行人臉識別, 如圖 2 所示(請原諒圖片的質量,摘自 93 年的一篇人臉識別領域奠基之作[1])。
圖2:基于幾何特征的人臉識別
這樣的樸素想法具有特征維數(shù)少的優(yōu)點,所以不會遭遇維數(shù)災難問題。然而由于穩(wěn)定性差、區(qū)分能力弱和難以自動化等原因,這種做法很早就被拋棄。研究人員們發(fā)現(xiàn),設計各種幾何特征,折騰大半天還不如直接比較像素區(qū)域的差別準確,也就是所謂的模板匹配技術。然而,直接比對像素誤差有個很容易想到的缺點,不同人臉區(qū)域對區(qū)分人的身份的重要性并不一樣。事實上研究[2]表明眉毛和眼睛是區(qū)分人身份最重要的區(qū)域,其次是嘴巴,而大片臉頰區(qū)域所包含的身份信息是有限的。如圖 3 所示,人類最難鑒別身份的是去掉眉毛和眼睛的人臉。
圖3:不同區(qū)域對人臉識別的重要性
為了解決這樣的問題,很長時間人臉識別都非常依賴于判別性特征的學習,最有代表性的工作莫過于 fisherfaces[3],所謂判別性信息就是那種獨一無二特征,就好像圖 4 中所示,成龍的大鼻子,姚晨的大嘴,李勇的招牌馬臉,姚明的魔性笑容。總而言之,只要能找到你獨特的「氣質」就能更好的認識你。
?
圖4:具有判別性的人臉
判別性特征的想法非常直觀有效也取得了一定成功,但是由于人臉的像素特征非常不穩(wěn)定,不同拍攝設備和拍攝場景、不同的光照條件和拍攝角度等都會造成相同人臉的像素差異巨大。想要在各種復雜影響因素下找到一張人臉穩(wěn)定且獨特的特征就很難了。為了解決這些問題,研究人員開始研究比簡單像素值更加穩(wěn)定的圖像描述子。其中比較主流的一種描述子 Gabor 描述子借鑒了人類大腦的視覺皮層中對視覺信息進行預處理的過程。大腦皮層中對視覺信息加工處理的操作主要有兩種,一種是在簡單細胞中進行的線性操作,一種是在復雜細胞中進行的非線性匯聚。如圖 5 所示的是 MIT 大腦和認知科學學院人工智能實驗室的主任 Poggio 教授提出的一個叫 HMAX[4] 的類腦視覺信息處理流程:
?
圖5: HMAX 圖像信息處理過程
這其中的簡單單元「S1 units」和「S2 units」進行了一種叫做 Gabor 小波濾波的操作。而復雜單元「C1 units」和「C2 units」進行了一種叫做 Max Pooling 的取局部區(qū)域較大值的操作。事實上除卻直接使用事先設定的 Gabor 濾波器,HMAX 等價于一個四層的神經(jīng)網(wǎng)絡,實際上已經(jīng)初步具備了現(xiàn)代深度模型的雛形。
在深度學習誕生前的「淺」時代,人臉識別研究人員不斷改進預處理過程、使用更好的描述子,提取更有判別性的特征,這些都在慢慢的提高計算機識別人臉的能力。然而直到深度學習橫空出世前,「淺」時代的各種人臉識別方法,對人類本身所具有的人臉識別能力仍然望塵莫及。
擁抱——人臉識別的「深」時代
要賦予計算機完整的人臉識別能力,除了能認識人外其實還有幾步非常重要的預處理過程。如圖 6 所示,完整的人臉自動識別算法需要能自己從圖像里找到哪有人臉,學界稱之為人臉檢測?哪里是眼睛鼻子嘴,學界稱之為人臉特征點定位?最后才是提取前面說到的具有判別性的特征進行身份的識別,即狹義上的人臉識別。
?
圖6:完整的自動人臉識別流程
在深度學習出現(xiàn)以前關于人臉檢測、特征點定位和人臉識別這三個子任務的研究都是相對獨立的展開的。從上個世紀 90 年代開始到 2010 年左右,經(jīng)過不斷的摸索,研究人員們對每個子任務都發(fā)現(xiàn)了一些比較有效的特征與方法的組合來解決問題如圖 7 所示。然而由于研究人員需要根據(jù)每個子任務本身的特點設計不同的特征,選擇不同的機器學習方法,因此技術的發(fā)展相對緩慢。
?
從 2012 年左右,受深度學習在整個機器視覺領域迅猛發(fā)展的影響,人臉識別的「深」時代正式拉開序幕。短短的四年時間里,基于深度卷積神經(jīng)網(wǎng)絡的方法不斷在這三個子任務中刷新人工智能算法的世界記錄。人臉識別「淺」時代讓人眼花繚亂的各種技術和方法仿佛一頁之間成為歷史。人臉識別研究人員,不需要在挖空心思的設計特征,也不需要擔心后面需要什么樣的學習算法。所有的經(jīng)驗的積累過程轉換為了深度神經(jīng)網(wǎng)路算法自動學習過程。這正式深度學習算法較大的優(yōu)點:自動學習對特定任務最有用的特征!
?
圖7:人臉識別 ?
考察一個單項的「弱」人工智能技術是否成熟,達到乃至超過人類的平均水平應該是一個比較通用的準則。說到這里不得不提一個人臉識別的標準評測數(shù)據(jù)庫 LFW(Labeled Face in the Wild)數(shù)據(jù)庫。在 2014 年,F(xiàn)acebook 使用一個叫做 DeepFace 的深度學習方法,第一次在 LFW 數(shù)據(jù)庫上接近人類的識別水平(DeepFace: 97.35% VS. Human: 97.53%),其結果如圖 8 所示:
?
圖8: DeepFace深度學習網(wǎng)絡
「Talk is cheap, show me the code」,自從 DeepFace 在人臉識別領域一戰(zhàn)成名,讓研究人員們看到了超越人類識別能力的曙光。隨著幾大開源深度學習項目(例如 CAFFE,TORCH, TensorFlow)的發(fā)展壯大,基于深度學習的方法真正如雨后春筍般席卷整個人臉識別領域。事實也證明深度學習確實能夠做到,短短一年以后就有很多基于深度學習的方法在 LFW 數(shù)據(jù)庫上超過人類的識別能力,例如優(yōu)圖的人臉識別算法就在 15 年取得當時世界第一的 99.65% 準確率。
?
深度學習為什么如此神奇,能在短短的幾年時間里一統(tǒng)江湖呢?拋開技術細節(jié)不談,原理上來說更為關鍵的兩個因素就是:層級式抽象和端到端可學習。
?
在回顧「淺」時代人臉識別方法歷史時曾經(jīng)介紹了基于幾何特征的方法(圖2)和基于判別性特征的方法(圖4)。下圖這些特征無疑都是針對人臉的某種抽象。由于原始圖像輸入的搜索空間巨大,只有通過恰當?shù)某橄罂s小搜索范圍,才能最終做出合理的決策。對一個復雜的概念想要通過一層的抽象就將所有結構梳理清楚會是很難甚至不可能的,而深度神經(jīng)網(wǎng)絡這種多層結構給自底向上的逐級抽象提供了天然的模具。只要將足夠多的數(shù)據(jù)輸入到具有多層結構的深度神經(jīng)網(wǎng)絡并告知它你想要的輸出結果,網(wǎng)絡可以自動的學習中間層的抽象概念,如圖 9 所示,好奇的研究人員將一個能夠識別 1000 類物體的神經(jīng)網(wǎng)絡中的特征進行了可視化:
?
圖9:深度神經(jīng)網(wǎng)絡特征可視化結果
從圖中可以看到在深度神經(jīng)網(wǎng)絡的第一層有點類似人類科學家積累多年經(jīng)驗找到的 Gabor 特征。第二層學習到的是更復雜的紋理特征。第三層的特征更加復雜,已經(jīng)開始出現(xiàn)一些簡單的結構,例如車輪、蜂窩、人頭。到了第四、五層機器輸出的表現(xiàn)已經(jīng)足以讓人誤以為它具備一定的智能,能夠對一些明確的抽象概念例如狗、花、鐘表、甚至鍵盤做出特別的響應。研究人員們積累幾年甚至十幾年設計出來的特征例如 Gabor、SIFT,其實可以通過深度神經(jīng)網(wǎng)絡自動的學習出來(如圖9中「Layer 1」),甚至自動學習出它的人類「爸爸」難以言喻的更高層次抽象。從某種意義上來說,人工智能科學家就是機器的父母,需要「教」機器寶寶認識這個世界。誰都希望自己有個聰明寶寶,只用教它「知其然」,它自己慢慢總結消化然后「知其所以然」。深度神經(jīng)網(wǎng)絡就像個聰明的機器寶寶自己會學習、會抽象、會總結。
?
端到端可學習,乍一聽這個名詞可能覺得頭有點「方」,其實可以簡單理解為全局最優(yōu)。圖 7 中總結了在「淺」時代,人臉識別的各個子問題都需要通過兩個甚至更多個步驟來完成,而多個步驟之間完全獨立的進行優(yōu)化。這是典型貪心規(guī)則,很難達到全局最優(yōu)。事實上,受限于優(yōu)化算法深度神經(jīng)網(wǎng)絡也很難達到全局最優(yōu)解,但是它的優(yōu)化目標是全局最優(yōu)的。近幾年深度學習在各種任務上的成功經(jīng)驗,表明機器寶寶也是需要有夢想的,直接對準「遠方」的全局最優(yōu)目標進行學習,即使得不到最優(yōu)解也也遠遠好過小碎步的局部貪心算法。想要達到真正的「強」人工智能,深度神經(jīng)網(wǎng)絡還有很長的路要走,星爺?shù)拿詫ι窠?jīng)寶寶同樣適用,做人沒有夢想和咸魚有什么分別。
進擊——優(yōu)圖祖母模型的「進化」
隨著深度神經(jīng)網(wǎng)絡的機器學習技術的發(fā)展,在 LFW 人臉數(shù)據(jù)庫上,三、四年前讓所有機器學習算法寶寶們望塵莫及的人類識別能力早已被超越。雖然優(yōu)圖也曾在 LFW 上取得 99.65% 超越人類平均水平的好成績,但是我們清楚的明白刷庫還遠遠不夠,在實際場景中的應用更重要也更具挑戰(zhàn)性,在實踐中優(yōu)圖已經(jīng)根據(jù)落地需求對各種應用場景和應用類型做出了細分,以便實現(xiàn)各種場景下人臉識別任務的各個擊破。目前在落地應用中,常見的照片場景類型有生活照,自拍照、監(jiān)控視頻、門禁閘機、西方人及其他人種照片,如圖 10 所示。
圖10:常見人臉識別場景類型
互聯(lián)網(wǎng)上有海量的人臉照片,通過搜索引擎優(yōu)圖也積累了海量帶身份標注的互聯(lián)網(wǎng)人臉數(shù)據(jù)。這部分數(shù)據(jù)無論從人數(shù),圖像數(shù)、數(shù)據(jù)多樣性上都是較好的,為優(yōu)圖人臉識別技術的研發(fā)提供了基礎條件。隨著人臉識別技術的日漸成熟,實際業(yè)務中涌現(xiàn)出大量新場景下的應用需求,例如微眾銀行的核身業(yè)務,會議簽到業(yè)務都涉及證件照和手機自拍照的比對,公安的監(jiān)控需要視頻監(jiān)控數(shù)據(jù)與證件照的比對。不同場景下獲取的人臉圖像存在巨大差異,如何對人臉識別模型進行快速調整,在各個不同場景下快速落地就成為一個非常具有挑戰(zhàn)性的問題。
為了在日趨白熱化的市場競爭中占得先機,優(yōu)圖在三年深耕人臉識別和深度學習的基礎上建立了自己在場景遷移與適應上的一整套方法論。這個方法論可以用一句話來概括:祖母模型的「進化」。這句話有兩個關鍵點。首先我們需要建立適用于一般場景的、功能強大的人臉識別模型,也就是祖母模型。其次祖母模型通過「進化」來適應新場景下的人臉識別。
建立祖母模型家族
祖母模型并不特指一個深度神經(jīng)網(wǎng)絡模型,而是具有某種結構特點的一類神經(jīng)網(wǎng)絡模型,因此更為合適的叫法應該是祖母模型族。不同業(yè)務場景下的應用,用戶對人臉識別的速度和精度可能有不一樣的需求。祖母模型族必須像一個兵器庫,既包含能夠快速發(fā)射的機關槍也需要殺傷力強大冷卻時間長的原子彈。
圖11:深度神經(jīng)網(wǎng)絡局部結構分類
目前更為流行的深度神經(jīng)網(wǎng)絡結構大致可以歸為三類:1.直線型(如AlexNet,VGGNet);2.局部雙分支型(ResNet);3.局部多分支型(GoogleNet)。其中直線型網(wǎng)絡結構設計更為簡單,但是當網(wǎng)絡深度超過 20 后這種結構的網(wǎng)絡將變的難以優(yōu)化。局部多分支型網(wǎng)絡模型能力強,計算效率更高,但是設計也更為復雜。在建立祖母模型家族的初期,我們選擇了模型能力相對較強設計又相對簡單的局部雙分支型網(wǎng)絡 ResNet 來構建優(yōu)圖人臉識別的祖母模型族。一方面 ResNet 本身具有強大的學習能力,是去年深度學習領域的研究進展。MSRA 憑借一個 152 層的 ResNet 深度網(wǎng)絡摘取了圖像識別領域最具影響力的 ImageNet2015 競賽多個單項的第一名。另一方面 ResNet 設計相對簡單,一個較大的特點就是識別能力基本與神經(jīng)網(wǎng)絡深度成正比。神經(jīng)網(wǎng)絡的深度又與計算復雜度直接相關,這就為訓練不同識別精度與運行速度的多個模型從而建立祖母模型族提供了極大的方便。當選定了祖母模型的網(wǎng)絡結構后,我們將其在數(shù)據(jù)量較大的互聯(lián)網(wǎng)生活照數(shù)據(jù)集上訓練,以保證祖母模型的通用人臉識別能力,圖12所示。
圖12:優(yōu)圖人臉識別祖母模型
在基于局部雙分支模型族建立完成后,我們也開始嘗試使用更復雜的局部多分支組件來進一步提高模型效率,豐富我們的祖母模型族。
祖母模型的「進化」
遷移學習是近些年來在人工智能領域提出的處理不同場景下識別問題的主流方法。相比于淺時代的簡單方法,深度神經(jīng)網(wǎng)絡模型具備更加優(yōu)秀的遷移學習能力。并有一套簡單有效的遷移方法,概括來說就是在復雜任務上進行基礎模型的預訓練(pre-train),在特定任務上對模型進行精細化調整(fine-tune)。套用在人臉識別問題上,只需要將訓練好的優(yōu)圖祖母模型在新場景的新數(shù)據(jù)上進行精細化調整。
圖13:優(yōu)圖祖母模型的進化
這種傳統(tǒng)的遷移學習方法確實能幫助祖母模型更好的完成新場景下的人臉識別任務。但這只能算特異化,無法將遷移學習中學到的新信息反饋給祖母模型。遷移之后的特異化模型只能應用在特定場景,在原集合上的性能甚至可能會大幅下降。在沒有深度學習的「淺」時代,模型沒有同時處理多個場景的能力,這可能是較好的適應新場景的方法。然而在實踐中我們發(fā)現(xiàn),由于深度神經(jīng)網(wǎng)絡的強大表達能力,完全可以在遷移學習過程中保持祖母模型的通用性能。采用增量學習的方式進行新場景的適應,在完成新場景下識別的同時也能保持其他場景下的能力,從而得到通用性更好的優(yōu)圖祖母模型,即優(yōu)圖祖母模型的「進化」。
?
隨著各個場景下的數(shù)據(jù)不斷積累,優(yōu)圖祖母模型將不斷進化,變的更加強大。
后續(xù)我們將根據(jù)業(yè)務需求,繼續(xù)積累在新場景下的人臉識別能力。并嘗試將這種深度神經(jīng)網(wǎng)絡的神奇「進化」能力推廣到更多的問題上。通過不斷進化,祖母模型變的越來越聰明,也許有一天我們真的能創(chuàng)造出全知全能的「優(yōu)圖大腦」!
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://www.ezyhdfw.cn/yun/4367.html
摘要:摘要本文主要講了神經(jīng)進化是深度學習的未來,以及如何用進化計算方法優(yōu)化深度學習。揭示了神經(jīng)進化的突破性研究深度學習的大部分取決于網(wǎng)絡的規(guī)模和復雜性。在這三個例子中,使用神經(jīng)進化成功地超越了最先進的基準。 摘要: 本文主要講了神經(jīng)進化是深度學習的未來,以及如何用進化計算方法(EC)優(yōu)化深度學習(DL)。 過去幾年時間里,我們有一個完整的團隊致力于人工智能研究和實驗。該團隊專注于開發(fā)新的進化...
摘要:老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。深度學習的主要目的和功能之一就是從數(shù)據(jù)中學習隱藏的流形結構和流形上的概率分布。 (最近,哈佛大學丘成桐先生領導的團隊,大連理工大學羅鐘鉉教授、雷娜教授領導的團隊應用幾何方法研究深度學習。老顧受邀在一些大學和科研機構做了題為深度學習的幾何觀點的報告,匯報了這方面的進展情況。這里是報告的簡要記錄,具體內容見【1...
摘要:近幾年以卷積神經(jīng)網(wǎng)絡有什么問題為主題做了多場報道,提出了他的計劃。最初提出就成為了人工智能火熱的研究方向。展現(xiàn)了和玻爾茲曼分布間驚人的聯(lián)系其在論文中多次稱,其背后的內涵引人遐想。 Hinton 以深度學習之父 和 神經(jīng)網(wǎng)絡先驅 聞名于世,其對深度學習及神經(jīng)網(wǎng)絡的諸多核心算法和結構(包括深度學習這個名稱本身,反向傳播算法,受限玻爾茲曼機,深度置信網(wǎng)絡,對比散度算法,ReLU激活單元,Dropo...
閱讀 5516·2021-09-22 15:59
閱讀 2070·2021-08-23 09:42
閱讀 2702·2019-08-29 18:42
閱讀 3586·2019-08-29 10:55
閱讀 2236·2019-08-27 10:57
閱讀 1887·2019-08-26 18:27
閱讀 2853·2019-08-23 18:26
閱讀 3114·2019-08-23 14:40