亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

【論文閱讀】Beyond OCR + VQA: 將OCR融入TextVQA的執(zhí)行流程中形成更魯棒更準(zhǔn)

不知名網(wǎng)友 / 1325人閱讀

摘要:模塊基于預(yù)訓(xùn)練模型進(jìn)行識(shí)別,識(shí)別出的結(jié)果與一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與進(jìn)行組合。五六結(jié)論將融入的前向處理流程,構(gòu)建了一個(gè)魯棒且準(zhǔn)確的模型參考博客

?論文題目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

?論文鏈接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606

?

一、任務(wù)概述

  1. ?視覺(jué)問(wèn)答任務(wù)(VQA):將圖像和關(guān)于圖像的自然語(yǔ)言問(wèn)題作為輸入,生成自然語(yǔ)言答案作為輸出。
  2. ?文本視覺(jué)問(wèn)答任務(wù)(TextVQA):面向文字識(shí)別的問(wèn)答任務(wù)。

?二、Baseline

? 2.1 Baseline 1:?Look, Read, Reason & Answer (LoRRA):

  • 2019年提出,推出標(biāo)準(zhǔn)數(shù)據(jù)集,原文地址:https://arxiv.org/abs/1904.08920v2
  • 典型的TextVQA:將問(wèn)題回答建模為分類任務(wù),需要給定答案空間。

  • 多模態(tài)嵌入:?jiǎn)栴}embedding、圖像中的物體進(jìn)行embedding、OCR的結(jié)果進(jìn)行embedding(FastText做pre-train)
  • 嵌入方式
    • 對(duì)問(wèn)題進(jìn)行GloVe Embedding,再通過(guò)LSTM得到問(wèn)題嵌入 fQ(q),用于后續(xù)對(duì)圖片特征以及OCR樣本進(jìn)行注意力加權(quán)平均。
    • 將圖像進(jìn)行特征提取,提取的特征fI(v)與fQ(q)一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與fQ(q)進(jìn)行組合。

    • OCR模塊基于預(yù)訓(xùn)練模型(Faster RCNN + CTC)進(jìn)行識(shí)別,識(shí)別出的結(jié)果fO(s)與fQ(q)一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與fQ(q)進(jìn)行組合。

    • contact一起之后過(guò)分類器(MLP),分類的類別為問(wèn)題空間a1……an 加上 OCR是識(shí)別出的詞

? 2.2 Baseline 2:M4C

  • 主貢獻(xiàn):提出了迭代預(yù)測(cè)的解碼方式,但我們更關(guān)注特征表示的部分

  • Question embedding:BERT-base模型的encoder,但只用前3層,得到矩陣shape=(K, d)
  • Detected object embedding:Faster-RCNN + Position,shape=(M, d)
  • 融合方式:Linear + LayerNorm
  • OCR token embedding?由四部分組成:
    • : 300維的FastText文本特征
    • : Faster RCNN特征,和detected object的獲取方式一樣
    • : 604維的Pyramidal Histogram of Characters(PHOC)特征
    • : 4維的位置特征,計(jì)算方式和detected object一樣
    • 融合方式:前三個(gè)特征過(guò)linear后做layernorm,position多帶帶融合,再加起來(lái)

三、Motivation

  1. OCR的錯(cuò)誤識(shí)別會(huì)較大程度影響多模態(tài)信息之間的交互(即fA的過(guò)程)
  2. 因?yàn)樵诒碚骺臻g中需要copy OCR識(shí)別的token,OCR的錯(cuò)誤會(huì)較嚴(yán)重的影響解碼器的性能(哪怕另兩個(gè)分支完全準(zhǔn)確也沒(méi)法正確的輸出)

四、Method

? ?4.1 Contribution

  1. 增強(qiáng)特征表示的魯棒性:減小OCR錯(cuò)誤和物體識(shí)別錯(cuò)誤對(duì)推理的影響
  2. 增強(qiáng)解碼器的魯棒性:在答案預(yù)測(cè)模塊提出一個(gè)上下文感知的答案修正模塊(CRM)對(duì)“復(fù)制”的答案詞進(jìn)行校正。

? ?4.2 Architectural Details—— 視覺(jué)增強(qiáng)的文字表征模塊 TVS (OCR增強(qiáng))

  1. method
    • 文字圖像矯正模塊
    • 編碼模塊:45層ResNet+ 2層Bi-LSTM
    • 解碼模塊:?jiǎn)螌?注意力機(jī)制的GRU
    • 中間語(yǔ)義模塊:根據(jù)文字視覺(jué)信息預(yù)測(cè)語(yǔ)義信息
  2. train:利用外部數(shù)據(jù)集訓(xùn)練(SynthText + Synth90K)
  3. loss: OCR識(shí)別損失+語(yǔ)義損失
    • 語(yǔ)義損失由真實(shí)和預(yù)測(cè)的語(yǔ)義特征向量間的余弦距離計(jì)算得到
  4. 優(yōu)勢(shì)
    • 通過(guò)語(yǔ)義損失的監(jiān)督,編碼模塊能產(chǎn)生與文字解碼更相關(guān)的視覺(jué)特征
    • TVS為直接由文字圖像的視覺(jué)特性獲得語(yǔ)義表示提供可能。
  1. 整網(wǎng)中推理,OCR token details(n個(gè)文本框):
    • :? TVS的視覺(jué)特征
    • : FastText文本特征
    • : Faster RCNN特征
    • :? Pyramidal Histogram of Characters(PHOC)特征
    • :? 4維的位置bounding box特征
    • 融合方式:

??4.3 Architectural Details—— 語(yǔ)義導(dǎo)向的物體表征 SEO-FRCN(Visual增強(qiáng))

?

  • method:傳統(tǒng)的Faster RCNN,在解碼環(huán)節(jié)增加一個(gè)分支來(lái) 預(yù)測(cè)物體類別的embedding
    • 物體類別embedding的gt 時(shí)物體類別名稱的語(yǔ)義特征。
  • train:使用Visual Genome數(shù)據(jù)集,backbone resnet101 預(yù)訓(xùn)練,新分支fine tune
  • loss:RPN loss + 四分支loss

  • 優(yōu)勢(shì):能夠拉近相似物體的圖像相似度(例如 traffic light和traffic sign)
  • 整網(wǎng)中推理,Visual token details(m個(gè)物體):
    • :視覺(jué)特征
    • 位置特征
    • :預(yù)測(cè)的物體類別嵌入向量
    • 特征融合:

? 4.3 Architectural Details——上下文感知的答案修正 CRM (解碼結(jié)果增強(qiáng))

  • method:在推理階段,對(duì)于”直接復(fù)制OCR結(jié)果”進(jìn)行改進(jìn)。
    • 如果解碼的輸出指向圖像中的文字,則將它視作一個(gè)候選詞,利用輸入的問(wèn)題、其他文字信息和相關(guān)物體信息進(jìn)行文字修正。
    • 使用多個(gè)OCR模塊輸出多個(gè)預(yù)測(cè)結(jié)果作為候選集,選出得分最高的結(jié)果作為最后的輸出。
    • 組成:Transformer進(jìn)行上下文信息融合 + linear&sigmoid 二分類器
  • training:如果候選集的結(jié)果與gt相同則為1,不同則為0,構(gòu)建訓(xùn)練數(shù)據(jù)。二分類預(yù)測(cè)一個(gè)相關(guān)分?jǐn)?shù),最小化交叉熵?fù)p失進(jìn)行訓(xùn)練。

?五、Experiment

?

?六、結(jié)論?

  1. 將OCR融入TextVQA的前向處理流程,構(gòu)建了一個(gè)魯棒且準(zhǔn)確的TextVQA模型

參考博客

[1] https://zhuanlan.zhihu.com/p/250951251
[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

?

?

E-mail:hithongming@163.com

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/125370.html

相關(guān)文章

  • 深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎?

    摘要:因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)任何一層的微分都是公平的,那么或許我們應(yīng)該使用存儲(chǔ)多種變體的復(fù)分析。 深度學(xué)習(xí)只能使用實(shí)數(shù)嗎?本文簡(jiǎn)要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究,并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)...

    qianfeng 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<