亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

ECCV 2018 | CornerNet:目標(biāo)檢測(cè)算法新思路

awkj / 2421人閱讀

摘要:表示類別為,坐標(biāo)是的預(yù)測(cè)熱點(diǎn)圖,表示相應(yīng)位置的,論文提出變體表示檢測(cè)目標(biāo)的損失函數(shù)由于下采樣,模型生成的熱點(diǎn)圖相比輸入圖像分辨率低。模型訓(xùn)練損失函數(shù)使同一目標(biāo)的頂點(diǎn)進(jìn)行分組,損失函數(shù)用于分離不同目標(biāo)的頂點(diǎn)。

本文由極市博客原創(chuàng),作者陳泰紅。
1.目標(biāo)檢測(cè)算法概述

CornerNet(https://arxiv.org/abs/1808.01244)是密歇根大學(xué)Hei Law等人在發(fā)表ECCV2018的一篇論文,主要實(shí)現(xiàn)目標(biāo)檢測(cè)。在開始介紹CornerNet論文之前,先復(fù)習(xí)一下目標(biāo)檢測(cè)領(lǐng)域的主流算法,因?yàn)樽髡咛岢龅乃惴ê椭髁魉惴ê芏嗖灰粯印?br>

深度方法主要分為one-stage(e.g. SSD, YOLO)和two-stage(e.g. RCNN系列)兩種。single-stage直接在圖片上經(jīng)過(guò)計(jì)算生成detections。two-stage先提取proposal, 再基于proposal做二次修正。相對(duì)來(lái)說(shuō)single-stage速度快, 精度低. 而two-stage精度高, 速度慢。


2012年, 基于深度學(xué)習(xí)CNN網(wǎng)絡(luò)的AlexNet在ILSVRC競(jìng)賽的ImageNet上大放異彩, 2014年Ross Girshick利用CNN成功取代了HOG、DPM等特征提取, ross等人把目標(biāo)檢測(cè)分成了三個(gè)步驟,首先是對(duì)圖像提取detection proposal,其實(shí)就是圖像中一些可能是檢測(cè)物體的區(qū)域,然后使用cnn對(duì)這些proposal進(jìn)行特征提取,最后用svm對(duì)這些提取到的特征進(jìn)行分類,從而完成檢測(cè)的任務(wù),這是 Two-stage object detectors鼻祖。


從RCNN、SPPNet到fast RCNN,再到Faster RCNN,目標(biāo)檢測(cè)的三個(gè)步驟(區(qū)域選擇,特征提取,分類回歸)被統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架之內(nèi),大大提高了運(yùn)行速度。FCN,F(xiàn)PN, RoI Align, Mask Branch等技術(shù)把Faster R-CNN往前極大的推進(jìn)。之后又出現(xiàn)了FCN, IoU, NMS,ION,FPN, RoI Align和Mask Branch等技術(shù)淵源和YOLO, SSD, AttratioNet, G-CNN, R-FCN, Mask R-CNN, Mask ^X R-CNN等的進(jìn)化關(guān)系!



圖 1 Faster RCNN算法框架

one-stage檢測(cè)算法,其不需要region proposal階段,直接產(chǎn)生物體的類別概率和位置坐標(biāo)值,經(jīng)過(guò)單次檢測(cè)即可直接得到最終的檢測(cè)結(jié)果,因此有著更快的檢測(cè)速度,比較典型的算法如YOLO,SSD,Retina-Net。YOLO 使用了分治思想,將輸入圖片分為 SxS 的網(wǎng)格,不同網(wǎng)格用性能優(yōu)良的分類器去分類。SSD 將 YOLO 和 Anchor 思想融合起來(lái),并創(chuàng)新使用 Feature Pyramid 結(jié)構(gòu)。YOLO, YOLO-v2, YOLO-v3, SSD、DSSD等實(shí)時(shí)模型的推出, 讓目標(biāo)檢測(cè)變得更快。


2 Motivation

CornerNet認(rèn)為Two-stage目標(biāo)檢測(cè)最明顯的缺點(diǎn)是 Region Proposal 階段需要提取的anchor boxes。(1)、提取的anchor boxes數(shù)量較多,比如DSSD使用40k, RetinaNet使用100k,anchor boxes眾多造成anchor boxes征服樣本均衡。(2)、anchor boxes需要調(diào)整很多超參數(shù),比如anchor boxes數(shù)量、尺寸、比率,影響模型的訓(xùn)練和推斷速率。



論文提出one-stage的檢測(cè)方法,舍棄傳統(tǒng)的 anchor boxes思路,提出CornerNet模型預(yù)測(cè)目標(biāo)邊界框的左上角和右下角一對(duì)頂點(diǎn),即 使用單一卷積模型生成熱點(diǎn)圖和連接矢量:所有目標(biāo)的左上角和所有目標(biāo)的右下角熱點(diǎn)圖,每個(gè)頂點(diǎn)的連接矢量(embedding vector)。



圖 2 CornerNet框架

作者的思路其實(shí)來(lái)源于一篇多人姿態(tài)估計(jì)的論文[1]?;贑NN的2D多人姿態(tài)估計(jì)方法,通常有2個(gè)思路(Bottom-Up Approaches和Top-Down Approaches):

(1)Top-Down framework,就是先進(jìn)行行人檢測(cè),得到邊界框,然后在每一個(gè)邊界框中檢測(cè)人體關(guān)鍵點(diǎn),連接成每個(gè)人的姿態(tài),缺點(diǎn)是受人體檢測(cè)框影響較大,代表算法有RMPE。

(2)Bottom-Up framework,就是先對(duì)整個(gè)圖片進(jìn)行每個(gè)人體關(guān)鍵點(diǎn)部件的檢測(cè),再將檢測(cè)到的人體部位拼接成每個(gè)人的姿態(tài),代表方法就是openpose。

論文的第一個(gè)創(chuàng)新是講目標(biāo)檢測(cè)上升到方法論,基于多人姿態(tài)估計(jì)的Bottom-Up思想,首先同時(shí)預(yù)測(cè)定位框的頂點(diǎn)對(duì)(左上角和右下角)熱點(diǎn)圖和embedding vector,根據(jù)embedding vector對(duì)頂點(diǎn)進(jìn)行分組。


論文第二個(gè)創(chuàng)新是提出了corner pooling用于定位頂點(diǎn)。自然界的大部分目標(biāo)是沒(méi)有邊界框也不會(huì)有矩形的頂點(diǎn),依top-left corner pooling 為例,對(duì)每個(gè)channel,分別提取特征圖的水平和垂直方向的最大值,然后求和。




圖 3 corner pooling計(jì)算方式

論文認(rèn)為corner pooling之所以有效,是因?yàn)椋?)目標(biāo)定位框的中心難以確定,和邊界框的4條邊相關(guān),但是每個(gè)頂點(diǎn)只與邊界框的兩條邊相關(guān),所以corner 更容易提取。(2)頂點(diǎn)更有效提供離散的邊界空間,實(shí)用O(wh)頂點(diǎn)可以表示O(w2h2) anchor boxes。


論文的第三個(gè)創(chuàng)新是模型基于hourglass架構(gòu),使用focal loss[5]的變體訓(xùn)練神經(jīng)網(wǎng)絡(luò)。


論文提出的CornerNet在MS COCO測(cè)試驗(yàn)證,達(dá)到42.1% AP,完勝所有的one-stage目標(biāo)檢測(cè)方法,同時(shí)在git公布基于PyTorch源碼:

https://github.com/umich-vl/C...

3 Architecture

3.1 Overview

圖 4CornerNet模型架構(gòu)

如圖 4所示,CornerNet模型架構(gòu)包含三部分,Hourglass[7] Network,Bottom-right corners&Top-left Corners Heatmaps和Prediction Module。


Hourglass Network是人體姿態(tài)估計(jì)的典型架構(gòu),論文堆疊兩個(gè)Hourglass Network生成Top-left和Bottom-right corners,每一個(gè)corners都包括corners Pooling,以及對(duì)應(yīng)的Heatmaps, Embeddings vector和offsets。embedding vector使相同目標(biāo)的兩個(gè)頂點(diǎn)(左上角和右下角)距離最短, offsets用于調(diào)整生成更加緊密的邊界定位框。



3.2 Detecting Corners
論文模型生成的heatmaps包含C channels(C是目標(biāo)的類別,沒(méi)有background channel),每個(gè)channel是二進(jìn)制掩膜,表示相應(yīng)類別的頂點(diǎn)位置。


對(duì)于每個(gè)頂點(diǎn),只有一個(gè)ground-truth,其他位置都是負(fù)樣本。在訓(xùn)練過(guò)程,模型減少負(fù)樣本,在每個(gè)ground-truth頂點(diǎn)設(shè)定半徑r區(qū)域內(nèi)都是正樣本,這是因?yàn)槁湓诎霃絩區(qū)域內(nèi)的頂點(diǎn)依然可以生成有效的邊界定位框,論文中設(shè)置IoU=0.7。


pcij表示類別為c,坐標(biāo)是(i,j)的預(yù)測(cè)熱點(diǎn)圖,ycij表示相應(yīng)位置的ground-truth,論文提出變體Focal loss表示檢測(cè)目標(biāo)的損失函數(shù):


由于下采樣,模型生成的熱點(diǎn)圖相比輸入圖像分辨率低。論文提出偏移的損失函數(shù),用于微調(diào)corner和ground-truth偏移。



3.3 Grouping Corners
輸入圖像會(huì)有多個(gè)目標(biāo),相應(yīng)生成多個(gè)目標(biāo)的左上角和右下角頂點(diǎn)。對(duì)頂點(diǎn)進(jìn)行分組,論文引入[1] Associative Embedding的思想,模型在訓(xùn)練階段為每個(gè)corner預(yù)測(cè)相應(yīng)的embedding vector,通過(guò)embedding vector使同一目標(biāo)的頂點(diǎn)對(duì)距離最短,既模型可以通過(guò)embedding vector為每個(gè)頂點(diǎn)分組。

模型訓(xùn)練Lpull損失函數(shù)使同一目標(biāo)的頂點(diǎn)進(jìn)行分組, Lpush損失函數(shù)用于分離不同目標(biāo)的頂點(diǎn)。


3.4 Hourglass Network
Hourglass Network同時(shí)包含了bottom-up(from high resolutions to low resolutions)和top-down (from low resolutions to high resolutions)。而且,整個(gè)網(wǎng)絡(luò)有多個(gè)bottom-up和top-down過(guò)程。這樣設(shè)計(jì)的目的是在各個(gè)尺度下抓取信息。針對(duì)目標(biāo)檢測(cè)任務(wù),論文調(diào)整了Hourglass一些策略。

4.Experiments

論文的訓(xùn)練損失函數(shù)包含了第三部分介紹的4個(gè)損失函數(shù),α, β 和γ用于調(diào)整相應(yīng)損失函數(shù)的權(quán)重:



模型訓(xùn)練過(guò)程中使用10個(gè)Titan X (PASCAL) GPUs,詳細(xì)的訓(xùn)練參數(shù)可參考原論文。模型的推斷時(shí)間是244ms/ image (Titan XPASCAL GPU)。



CornerNet相比其它one-stage目標(biāo)檢測(cè)算法,MS COCO數(shù)據(jù)集測(cè)試AP有明顯提高,雖然性能接近于Two-stage檢測(cè)算法,但是推斷時(shí)間無(wú)明顯優(yōu)勢(shì)。


Table 4MS COCO test-dev數(shù)據(jù)集性能對(duì)比


5.Discussion

個(gè)人觀點(diǎn):CornerNet創(chuàng)新來(lái)自于多人姿態(tài)估計(jì)的Bottom-Up思路,預(yù)測(cè)corner的heatmps,根據(jù)Embeddings vector對(duì)corner進(jìn)行分組,其主干網(wǎng)絡(luò)也來(lái)自于姿態(tài)估計(jì)的Hourglass Network。模型的源碼在github已經(jīng)公布,可以放心大膽的研究測(cè)試。


CV的很多任務(wù)之間是相通的,CVPR2018 best paper [8]也印證這一觀點(diǎn),在不同的子領(lǐng)域?qū)ふ蚁嗨菩?,遷移不同領(lǐng)域的算法,是CV行業(yè)一個(gè)趨勢(shì)。


多人姿態(tài)估計(jì)的Hourglass Network算法也不斷改進(jìn)中,其實(shí)論文模型的推斷速率受限于Hourglass Network的特征提取,有志青年也可以沿著這個(gè)思路取得更好的性能。


以上僅為個(gè)人閱讀論文后的理解、總結(jié)和思考。觀點(diǎn)難免偏差,望讀者以懷疑批判態(tài)度閱讀,歡迎交流指正。

6.參考文獻(xiàn):
Newell, A., Huang, Z., Deng, J.: Associative embedding: End-to-end learning for joint detection and grouping. In: Advances in Neural Information Processing Systems. pp. 2274{2284 (2017)
Hei Law, Jia Deng :CornerNet: Detecting Objects as Paired Keypoints.ECCV2018
Girshick, R.: Fast r-cnn. arXiv preprint arXiv:1504.08083 (2015)
Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 580{587 (2014)
Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll′ar, P.: Focal loss for dense object detection. arXiv preprint arXiv:1708.02002 (2017)
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.:SSD: Single shot multibox detector. In: European conference on computer vision.pp. 21{37. Springer (2016)
Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. In: European Conference on Computer Vision. pp. 483{499. Springer (2016)
Amir R. Zamir , Alexander Sax Taskonomy: Disentangling Task Transfer Learning.CVPR2018

本文為極市平臺(tái)原創(chuàng)文章,更多技術(shù)分享和項(xiàng)目需求合作請(qǐng)關(guān)注極市平臺(tái)微信號(hào)(extrememart)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19794.html

相關(guān)文章

  • ECCV-2018最佼佼者的目標(biāo)檢測(cè)算法

    摘要:表示類別為,坐標(biāo)是的預(yù)測(cè)熱點(diǎn)圖,表示相應(yīng)位置的,論文提出變體表示檢測(cè)目標(biāo)的損失函數(shù)由于下采樣,模型生成的熱點(diǎn)圖相比輸入圖像分辨率低。模型訓(xùn)練損失函數(shù)使同一目標(biāo)的頂點(diǎn)進(jìn)行分組,損失函數(shù)用于分離不同目標(biāo)的頂點(diǎn)。 好久沒(méi)有將較好的干貨分享給大家,那今天我給大家?guī)?lái)ECCV-2018年最優(yōu)paper之一,也是目標(biāo)檢測(cè)里的佼佼者,值得我們?nèi)ド钔冢W(xué)習(xí)!目標(biāo)檢測(cè)算法概述CornerNet可以說(shuō)是今年E...

    goji 評(píng)論0 收藏0
  • 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)引用量最高的20篇論文(2014-2017)

    摘要:機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的研究進(jìn)展正深刻變革著人類的技術(shù),本文列出了自年以來(lái)這兩個(gè)領(lǐng)域發(fā)表的最重要被引用次數(shù)最多的篇科學(xué)論文,以饗讀者。注意第篇論文去年才發(fā)表要了解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的進(jìn)展,這些論文一定不能錯(cuò)過(guò)。 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的研究進(jìn)展正深刻變革著人類的技術(shù),本文列出了自 2014 年以來(lái)這兩個(gè)領(lǐng)域發(fā)表的最重要(被引用次數(shù)最多)的 20 篇科學(xué)論文,以饗讀者。機(jī)器學(xué)習(xí),尤其是其子領(lǐng)域深度學(xué)習(xí)...

    jollywing 評(píng)論0 收藏0
  • 何愷明終結(jié)ImageNet預(yù)訓(xùn)練時(shí)代:從0訓(xùn)練模型效果比肩COCO冠軍

    摘要:為了探索多種訓(xùn)練方案,何愷明等人嘗試了在不同的迭代周期降低學(xué)習(xí)率。實(shí)驗(yàn)中,何愷明等人還用預(yù)訓(xùn)練了同樣的模型,再進(jìn)行微調(diào),成績(jī)沒(méi)有任何提升。何愷明在論文中用來(lái)形容這個(gè)結(jié)果。 何愷明,RBG,Piotr Dollár。三位從Mask R-CNN就開始合作的大神搭檔,剛剛再次聯(lián)手,一文終結(jié)了ImageNet預(yù)訓(xùn)練時(shí)代。他們所針對(duì)的是當(dāng)前計(jì)算機(jī)視覺(jué)研究中的一種常規(guī)操作:管它什么任務(wù),拿來(lái)ImageN...

    freecode 評(píng)論0 收藏0
  • AI技術(shù)在智能海報(bào)設(shè)計(jì)中的應(yīng)用

    摘要:所以,我們美團(tuán)外賣技術(shù)團(tuán)隊(duì)嘗試結(jié)合技術(shù),來(lái)協(xié)助設(shè)計(jì)師避免這種低收益高重復(fù)的任務(wù),同時(shí)低成本高效率高質(zhì)量地完成海報(bào)圖片的生成。圖封面配色布局設(shè)計(jì)在設(shè)計(jì)領(lǐng)域的一些子問(wèn)題上,可以用算法來(lái)挖掘出數(shù)據(jù)背后的規(guī)律如圖所示。 背景 在視覺(jué)設(shè)計(jì)領(lǐng)域中,設(shè)計(jì)師們往往會(huì)因?yàn)橐恍┖?jiǎn)單需求付出相當(dāng)多的時(shí)間,比如修改文案內(nèi)容,設(shè)計(jì)簡(jiǎn)單的海報(bào)版式,針對(duì)不同機(jī)型、展位的多尺寸拓展等。這些工作需要耗費(fèi)大量的時(shí)間、人力...

    wums 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

awkj

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<