【論文閱讀】Beyond OCR + VQA: 將OCR融入TextVQA的執(zhí)行流程中形成更魯棒更準(zhǔn)

不知名網(wǎng)友發(fā)布于2021-11-26 11:11 / 1325人閱讀

摘要：模塊基于預(yù)訓(xùn)練模型進(jìn)行識(shí)別，識(shí)別出的結(jié)果與一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力，得到的結(jié)果與進(jìn)行組合。五六結(jié)論將融入的前向處理流程，構(gòu)建了一個(gè)魯棒且準(zhǔn)確的模型參考博客

?論文題目：Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA
?論文鏈接：https://dl.acm.org/doi/abs/10.1145/3474085.3475606

?

一、任務(wù)概述

?視覺(jué)問(wèn)答任務(wù)(VQA)：將圖像和關(guān)于圖像的自然語(yǔ)言問(wèn)題作為輸入，生成自然語(yǔ)言答案作為輸出。
?文本視覺(jué)問(wèn)答任務(wù)(TextVQA)：面向文字識(shí)別的問(wèn)答任務(wù)。

?二、Baseline

? 2.1 Baseline 1：?Look, Read, Reason & Answer (LoRRA)：

2019年提出，推出標(biāo)準(zhǔn)數(shù)據(jù)集，原文地址：https://arxiv.org/abs/1904.08920v2
典型的TextVQA：將問(wèn)題回答建模為分類任務(wù)，需要給定答案空間。

多模態(tài)嵌入：?jiǎn)栴}embedding、圖像中的物體進(jìn)行embedding、OCR的結(jié)果進(jìn)行embedding(FastText做pre-train)
嵌入方式：
- 對(duì)問(wèn)題進(jìn)行GloVe Embedding，再通過(guò)LSTM得到問(wèn)題嵌入 fQ(q)，用于后續(xù)對(duì)圖片特征以及OCR樣本進(jìn)行注意力加權(quán)平均。
- 將圖像進(jìn)行特征提取，提取的特征fI(v)與fQ(q)一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力，得到的結(jié)果與fQ(q)進(jìn)行組合。

- OCR模塊基于預(yù)訓(xùn)練模型(Faster RCNN + CTC)進(jìn)行識(shí)別，識(shí)別出的結(jié)果fO(s)與fQ(q)一起經(jīng)過(guò)注意力機(jī)制得到加權(quán)的空間注意力，得到的結(jié)果與fQ(q)進(jìn)行組合。

- contact一起之后過(guò)分類器(MLP)，分類的類別為問(wèn)題空間a1……an 加上 OCR是識(shí)別出的詞

? 2.2 Baseline 2：M4C

主貢獻(xiàn)：提出了迭代預(yù)測(cè)的解碼方式，但我們更關(guān)注特征表示的部分

Question embedding：BERT-base模型的encoder，但只用前3層，得到矩陣shape=(K, d)
Detected object embedding：Faster-RCNN + Position，shape=(M, d)
融合方式：Linear + LayerNorm

OCR token embedding?由四部分組成：
- $x_n^{ft}$ : 300維的FastText文本特征
- $x_n^{fr}$ : Faster RCNN特征，和detected object的獲取方式一樣
- $x_n^{p}$ : 604維的Pyramidal Histogram of Characters（PHOC）特征
- $x_n^$ : 4維的位置特征，計(jì)算方式和detected object一樣
- 融合方式：前三個(gè)特征過(guò)linear后做layernorm，position多帶帶融合，再加起來(lái)

三、Motivation

OCR的錯(cuò)誤識(shí)別會(huì)較大程度影響多模態(tài)信息之間的交互(即fA的過(guò)程)
因?yàn)樵诒碚骺臻g中需要copy OCR識(shí)別的token，OCR的錯(cuò)誤會(huì)較嚴(yán)重的影響解碼器的性能（哪怕另兩個(gè)分支完全準(zhǔn)確也沒(méi)法正確的輸出）

四、Method

? ?4.1 Contribution

增強(qiáng)特征表示的魯棒性：減小OCR錯(cuò)誤和物體識(shí)別錯(cuò)誤對(duì)推理的影響
增強(qiáng)解碼器的魯棒性：在答案預(yù)測(cè)模塊提出一個(gè)上下文感知的答案修正模塊（CRM）對(duì)“復(fù)制”的答案詞進(jìn)行校正。

? ?4.2 Architectural Details—— 視覺(jué)增強(qiáng)的文字表征模塊 TVS (OCR增強(qiáng))

method：
- 文字圖像矯正模塊
- 編碼模塊：45層ResNet+ 2層Bi-LSTM
- 解碼模塊：?jiǎn)螌?注意力機(jī)制的GRU
- 中間語(yǔ)義模塊：根據(jù)文字視覺(jué)信息預(yù)測(cè)語(yǔ)義信息
train：利用外部數(shù)據(jù)集訓(xùn)練(SynthText + Synth90K)
loss： OCR識(shí)別損失+語(yǔ)義損失
- 語(yǔ)義損失由真實(shí)和預(yù)測(cè)的語(yǔ)義特征向量間的余弦距離計(jì)算得到
優(yōu)勢(shì)：
- 通過(guò)語(yǔ)義損失的監(jiān)督，編碼模塊能產(chǎn)生與文字解碼更相關(guān)的視覺(jué)特征
- TVS為直接由文字圖像的視覺(jué)特性獲得語(yǔ)義表示提供可能。

整網(wǎng)中推理，OCR token details(n個(gè)文本框)：

- $x_n^{v}$ :? TVS的視覺(jué)特征
- $x_n^{ft}$ : FastText文本特征
- $x_n^{fr}$ : Faster RCNN特征
- $x_n^{p}$ :? Pyramidal Histogram of Characters（PHOC）特征
- $x_n^$ :? 4維的位置bounding box特征
- 融合方式：

??4.3 Architectural Details—— 語(yǔ)義導(dǎo)向的物體表征 SEO-FRCN（Visual增強(qiáng)）

method：傳統(tǒng)的Faster RCNN，在解碼環(huán)節(jié)增加一個(gè)分支來(lái) 預(yù)測(cè)物體類別的embedding
- 物體類別embedding的gt 時(shí)物體類別名稱的語(yǔ)義特征。
train：使用Visual Genome數(shù)據(jù)集，backbone resnet101 預(yù)訓(xùn)練，新分支fine tune
loss：RPN loss + 四分支loss

優(yōu)勢(shì)：能夠拉近相似物體的圖像相似度(例如 traffic light和traffic sign)
整網(wǎng)中推理，Visual token details(m個(gè)物體)：
- $x_m^{fr}$ ：視覺(jué)特征
- $x_m^{fr}$ ：位置特征
- $x_m^{l}$ ：預(yù)測(cè)的物體類別嵌入向量
- 特征融合：

? 4.3 Architectural Details——上下文感知的答案修正 CRM (解碼結(jié)果增強(qiáng))

method：在推理階段，對(duì)于”直接復(fù)制OCR結(jié)果”進(jìn)行改進(jìn)。
- 如果解碼的輸出指向圖像中的文字，則將它視作一個(gè)候選詞，利用輸入的問(wèn)題、其他文字信息和相關(guān)物體信息進(jìn)行文字修正。
- 使用多個(gè)OCR模塊輸出多個(gè)預(yù)測(cè)結(jié)果作為候選集，選出得分最高的結(jié)果作為最后的輸出。
- 組成：Transformer進(jìn)行上下文信息融合 + linear&sigmoid 二分類器
training：如果候選集的結(jié)果與gt相同則為1，不同則為0，構(gòu)建訓(xùn)練數(shù)據(jù)。二分類預(yù)測(cè)一個(gè)相關(guān)分?jǐn)?shù)，最小化交叉熵?fù)p失進(jìn)行訓(xùn)練。

?五、Experiment

?六、結(jié)論?

將OCR融入TextVQA的前向處理流程，構(gòu)建了一個(gè)魯棒且準(zhǔn)確的TextVQA模型

參考博客

[1] https://zhuanlan.zhihu.com/p/250951251

[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

E-mail：hithongming@163.com

GPU云服務(wù)器云服務(wù)器 ocr圖像識(shí)別技術(shù)論文最全的ocr圖像識(shí)別技術(shù)源碼 OCR 谷歌 ocr

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/125370.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

不知名網(wǎng)友

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Oracle數(shù)據(jù)庫(kù)4031故障分析

閱讀 3981·2023-01-11 11:02
Oceanbase新版本復(fù)合分區(qū)添加分區(qū)操作

閱讀 4487·2023-01-11 11:02
VRRP高可用

閱讀 3365·2023-01-11 11:02
Docker技術(shù)之構(gòu)建鏡像和網(wǎng)絡(luò)模式解析

閱讀 5386·2023-01-11 11:02
?CISCO 4500 主引擎版故障處理

閱讀 4947·2023-01-11 11:02
大數(shù)據(jù)開(kāi)發(fā)系列五：kafka& zookeeper 配置kerberos認(rèn)證

閱讀 5877·2023-01-11 11:02
自研實(shí)時(shí)計(jì)算模塊介紹及運(yùn)維數(shù)據(jù)應(yīng)用場(chǎng)景實(shí)施

閱讀 5562·2023-01-11 11:02
DataX的限速與調(diào)優(yōu)

閱讀 4382·2023-01-11 11:02

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【論文閱讀】Beyond OCR + VQA: 將OCR融入TextVQA的執(zhí)行流程中形成更魯棒更準(zhǔn)

?

一、任務(wù)概述

?二、Baseline