pg電子娛樂平臺 50億圖文中提取中文跨模態(tài)基準(zhǔn),奇虎360預(yù)訓(xùn)練框架超越多項SOTA
對于中文社區(qū)來說,本文提出的大規(guī)??缒B(tài)基準(zhǔn)數(shù)據(jù)集無疑是有價值的
視覺語言預(yù)訓(xùn)練(VLP)主要學(xué)習(xí)視覺與自然語言之間的語義對應(yīng)關(guān)系。得益于海量數(shù)據(jù)、Transformer等優(yōu)秀架構(gòu)、CLIP等跨模態(tài)模型以及硬件設(shè)備的支持,一系列開創(chuàng)性的工作對VLP模型進行了探索,并在各種視覺語言任務(wù)上取得了重大進展。
通過大規(guī)模訓(xùn)練語料庫(主要是英語),眾多 VLP 模型已被證明對下游任務(wù)有益。然而,中文視覺語言數(shù)據(jù)集非常少,并且存在各種局限性。對于大規(guī)模預(yù)訓(xùn)練模型和下游任務(wù)微調(diào)的經(jīng)典模型,中國跨模態(tài)領(lǐng)域缺乏包含大量高質(zhì)量數(shù)據(jù)并完整定義預(yù)訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)基準(zhǔn),多個下游任務(wù)訓(xùn)練集,以及下游任務(wù)測試集。
如何構(gòu)建完整、公正、高質(zhì)量的文本描述中文跨模態(tài)基準(zhǔn)已成為迫切需要解決的問題。
近日,奇虎360人工智能研究院和清華大學(xué)的研究人員在最新論文中重點關(guān)注了大規(guī)模視覺語言數(shù)據(jù)集和跨模態(tài)表示學(xué)習(xí)模型。研究人員提出了大規(guī)模中文跨模態(tài)基準(zhǔn)數(shù)據(jù)集 Zero,其中包含兩個稱為 Zero-Corpus 的預(yù)訓(xùn)練數(shù)據(jù)集和五個下游任務(wù)數(shù)據(jù)集,在一定程度上填補了中文圖文跨模態(tài)的空白。模態(tài)數(shù)據(jù)集。州域數(shù)據(jù)集中的差距。此外,研究人員還提出了一種用于大規(guī)??缒B(tài)學(xué)習(xí)的視覺語言預(yù)訓(xùn)練框架R2D2。它基于所提出的零語料庫數(shù)據(jù)集進行了預(yù)訓(xùn)練,并在多個下游任務(wù)上進行了測試。 R2D2取得了多項超越SOTA的成果。以上數(shù)據(jù)集和模型均開源。
研究人員還嘗試使用 2.5 億個更大的內(nèi)部數(shù)據(jù)集來訓(xùn)練 R2D2 模型。與2300萬數(shù)據(jù)相比,模型效果還是有明顯提升。尤其是在零樣本任務(wù)上,與之前的SOTA相比,在Flickr30k-CN數(shù)據(jù)集上,R@M提升到了85.6%(提升了4.7%),在COCO-CN數(shù)據(jù)集上,R@M提升了至 80.5%。 (增長了5.4%),而在MUGE數(shù)據(jù)集上,R@M增長到了69.5%(增長了6.3%)。
論文地址:
零語料庫預(yù)訓(xùn)練數(shù)據(jù)集由包含 2300 萬個圖像文本對的完整版本和包含 230 萬個圖像文本對的較小子集版本組成。其中,完整的預(yù)訓(xùn)練數(shù)據(jù)集是從搜索引擎收集的,包含圖像和相應(yīng)的文本描述,并根據(jù)用戶點擊率(CTR)從50億張圖像和文本中過濾出來。在完整版本上訓(xùn)練VLP模型可能需要大量的GPU資源,因此為了方便學(xué)術(shù)研究,研究人員還提供了230萬個版本的子集,其中包含完整版本的10%的圖文對。
除了兩個預(yù)訓(xùn)練數(shù)據(jù)集之外,研究人員還提供了五個高質(zhì)量的下游數(shù)據(jù)集,用于長短文本的圖文檢索和圖文匹配任務(wù)。特別值得一提的是Flickr30k-CNA,這是一個手動翻譯的數(shù)據(jù)集,比Flickr30k-CN更準(zhǔn)確。可以用來比較中英文跨模態(tài)模型的效果,也可以用來研究翻譯語料質(zhì)量對結(jié)果的影響。
對于VLP模型,研究人員提出了一種新的跨模態(tài)學(xué)習(xí)預(yù)訓(xùn)練框架R2D2。該框架結(jié)合了雙塔模型和單塔模型。它基于圖像模態(tài)表示和文本模態(tài)表示,采用交叉注意力機制來融合圖像和文本信息,受到推薦系統(tǒng)和在線廣告等技術(shù)的啟發(fā)。使用全局對比預(yù)排序(GCPR)來獲得跨模態(tài)表示,最后使用細粒度排序(FGR)來進一步提高模型性能。
此外,研究人員還介紹了一種雙向蒸餾方法,包括目標(biāo)引導(dǎo)蒸餾(TgD)和特征引導(dǎo)蒸餾(Feature-guided Distillation,F(xiàn)gD)。其中,面向目標(biāo)的蒸餾提高了從噪聲標(biāo)簽中學(xué)習(xí)的魯棒性,面向特征的蒸餾旨在提高R2D2的泛化能力。
數(shù)據(jù)集概述
預(yù)訓(xùn)練數(shù)據(jù)集零語料庫
現(xiàn)有的數(shù)據(jù)收集方法有兩個主要限制。首先,僅通過爬行采集到的圖像與文本的對應(yīng)關(guān)系較弱,噪聲較多;其次,圖像往往只包含一個對應(yīng)的文本,文本數(shù)據(jù)缺乏多樣性。
為了克服上述限制,研究人員創(chuàng)建了一個新的中文圖像和文本預(yù)訓(xùn)練數(shù)據(jù)集——零語料庫。他們根據(jù)用戶點擊對圖像搜索引擎中的 50 億張圖像進行排序。排名靠前的圖像表示用戶在查詢時點擊次數(shù)最多,表明該圖像與搜索查詢文本最相關(guān)。此外,研究人員還刪除了不恰當(dāng)和有害的文字描述,并過濾掉了有害的圖像。上述過程最大化了圖像和文本數(shù)據(jù)之間的對應(yīng)關(guān)系,并過濾出高質(zhì)量的圖像。研究人員按照上述方法總共處理了約 2.5 億個最相關(guān)、高質(zhì)量的圖文對,最終隨機選擇其中 2300 萬個構(gòu)建公共預(yù)訓(xùn)練數(shù)據(jù)集。
研究人員還為每張圖像提供了多樣化的文本描述,包括標(biāo)題(Title)、內(nèi)容(Content)和圖像查詢術(shù)語(ImageQuery)。這些信息(包括多個文本)可用于構(gòu)建不同的跨模態(tài)任務(wù),以促進對圖像和文本之間的跨模態(tài)關(guān)系進行更全面的建模和研究。下圖顯示了一些具體示例。
零語料庫圖像文本對示例。
下游數(shù)據(jù)集
為了評估預(yù)訓(xùn)練模型的性能,大多數(shù)工作都會在各種下游數(shù)據(jù)集上進行實驗。與現(xiàn)有的英文描述的下游數(shù)據(jù)集相比,帶有中文文本的下游數(shù)據(jù)集很少。
為此,研究人員構(gòu)建了四個中文圖文數(shù)據(jù)集,分別是ICM、IQM、ICR和IQR。在預(yù)訓(xùn)練數(shù)據(jù)處理的基礎(chǔ)上(按點擊排序并過濾優(yōu)質(zhì)內(nèi)容后),我們進一步手動標(biāo)記這些下游任務(wù)的標(biāo)簽pg電子娛樂平臺,以保證數(shù)據(jù)的準(zhǔn)確性。對于每個下游任務(wù)數(shù)據(jù)集,將訓(xùn)練集、驗證集、測試集按照8:1:1的比例劃分為訓(xùn)練集、驗證集、測試集。與預(yù)訓(xùn)練數(shù)據(jù)不同,這些下游任務(wù)的數(shù)據(jù)集只為每張圖像保留一個對應(yīng)的文本。
圖像標(biāo)題匹配數(shù)據(jù)集(ICM)用于長文本圖像文本匹配和分類任務(wù)。每個圖像都有相應(yīng)的標(biāo)題文本,詳細描述該圖像。研究人員首先使用 CTR 選擇最相關(guān)的對,然后通過手動注釋對其進行校準(zhǔn)。總共獲得了40萬個圖文對,其中正樣本20萬個,負樣本20萬個。
圖像查詢匹配數(shù)據(jù)集(IQM)用于短文本圖像文本匹配和分類任務(wù)。數(shù)據(jù)收集的方法與ICM類似,只不過使用搜索查詢而不是詳細描述文本。 IQM還包含20萬個正樣本和20萬個負樣本
圖像字幕檢索數(shù)據(jù)集(ICR)用于長文本圖像-文本互檢任務(wù)。研究人員使用與 ICM 相同的規(guī)則收集了 200,000 個圖像文本對。
圖像查詢檢索數(shù)據(jù)集(IQR)用于短文本圖像-文本互檢任務(wù)。研究人員使用與 IQM 相同的規(guī)則收集了 200,000 個圖像文本對。
從左到右是來自 ICM、IQM、ICR 和 IQR 數(shù)據(jù)集的圖形和文本示例。
之前的Flickr30k-CN使用機器翻譯來翻譯Flickr30k的訓(xùn)練集和驗證集,但是機器翻譯的結(jié)果有兩類常見的問題。一方面,部分句子存在一定的翻譯錯誤;另一方面,有些句子的中文語義不順暢。
因此,研究人員邀請了六名中英文語言學(xué)專業(yè)人士對所有 Flickr30k 數(shù)據(jù)進行了重新翻譯,并對每個句子進行了仔細檢查,最終生成了新的數(shù)據(jù)集 Flickr30k-Chinese All(Flickr30k-CNA),用于進行圖文交叉評價。模態(tài)任務(wù)。
本文提出的 Flickr30k、Flickr30k-CN 和 Flickr30k-CNA 的示例比較。
方法概述
模型架構(gòu)
下圖1是R2D2預(yù)訓(xùn)練框架的架構(gòu)概述,其中包含一個文本編碼器、一個圖像編碼器和兩個交叉編碼器。其中,文本編碼器和圖像編碼器分別將文本和圖像轉(zhuǎn)換為隱藏狀態(tài)序列。然后,文本和圖像隱藏狀態(tài)通過交叉注意力在兩個交叉編碼器中進行交互。
研究人員使用 RoBERTa 作為文本編碼器。給定一個文本序列,首先使用 RoBERTa-wwm-ext 的分詞器對它們進行分詞。在這里,一個特殊的 [CLS] 標(biāo)記被附加到標(biāo)記化文本的頭部,而 [SEP] 標(biāo)記被附加到尾部。然后將標(biāo)記化的文本輸入文本編碼器。
研究人員使用 ViT 作為圖像編碼器。他們首先將輸入圖像縮放到標(biāo)準(zhǔn)尺寸,并將圖像劃分為多個塊。然后對每個補丁進行線性映射并添加位置嵌入。此外pg麻將胡了試玩平臺,可學(xué)習(xí)的 [CLS] 標(biāo)記與補丁向量連接起來。最后將序列向量輸入到標(biāo)準(zhǔn)Transformer模型中,得到圖像隱藏狀態(tài)向量。
研究人員融合了圖像和文本潛在向量,并將它們輸入交叉編碼器。具體來說,他們使用線性映射層來改變每個文本特征和圖像特征的尺寸,使它們保持一致。多層Transformer使用交叉注意力來融合兩種模態(tài)的特征信息并生成最終的跨模態(tài)輸出。
預(yù)訓(xùn)練方法
為了探索圖像和文本對之間的匹配關(guān)系,研究人員設(shè)計了預(yù)排序+排序機制,即全局比較預(yù)排序(GCPR)和細粒度排序(FGR)。他們還采用掩碼語言建模(MLM)來有效學(xué)習(xí)跨模態(tài)模型的表示。
首先是全局比較預(yù)排序。傳統(tǒng)的對比學(xué)習(xí)旨在對齊多模態(tài)數(shù)據(jù)的表示(例如圖像和文本對),從而最大化正對的相似度分數(shù)并最小化負對的分數(shù)。研究人員使用全局對比學(xué)習(xí)來完成預(yù)排序任務(wù),他們在 k 個 GPU 上執(zhí)行完整的反向傳播。對于每個圖像 I_i 和對應(yīng)的文本 T_i,圖像和文本的 softmax 歸一化相似度分數(shù)可以定義如下:
全局對比預(yù)排序損失由交叉熵損失L_c(·)計算,如下式(2)所示:
然后是細粒度排序。如上所述,我們使用全局對比預(yù)排序來獲得圖像和文本的單一表示?;谶@些表示,進一步利用細粒度排名損失來執(zhí)行細粒度排名任務(wù)。這是一個二元分類任務(wù),旨在預(yù)測圖像和文本是否匹配。
研究人員將h_I_[CLS]和h_T_[CLS]作為兩個交錯編碼器的輸出表示。給定圖像表示 h_I_[CLS] 和文本表示 h_T_[CLS],研究人員將它們輸入全連接層 g(·) 以獲得它們各自的預(yù)測概率。令 y 代表二元分類的真實標(biāo)簽,研究人員計算細粒度排名損失如下。
研究人員將屏蔽語言建模損失應(yīng)用于文本-圖像交叉編碼器,以提高在標(biāo)記級別對文本和圖像之間的關(guān)系進行建模的能力。 15% 的文本標(biāo)記在輸入中被屏蔽,并且所有這些標(biāo)記都被替換為 [MASK] 標(biāo)記。
在研究人員的模型中,屏蔽語言建模任務(wù)使用屏蔽文本和相應(yīng)的圖像一起去噪,從而增強文本和圖像之間的交互。由于細粒度排序嚴重依賴這種交互能力,因此研究人員提出了增強訓(xùn)練(ET),將屏蔽語言建模任務(wù)集成到前向圖像文本對的細粒度排序的前向操作中。
雙向蒸餾
大多數(shù)圖像和文本預(yù)訓(xùn)練數(shù)據(jù)都是由半自動化程序收集的,導(dǎo)致數(shù)據(jù)充滿噪聲。不準(zhǔn)確的標(biāo)簽可能會誤導(dǎo)模型訓(xùn)練。為此,研究人員提出了目標(biāo)導(dǎo)向蒸餾(TgD),一種基于師生的軟目標(biāo)蒸餾。為了進一步提高預(yù)訓(xùn)練模型的泛化性能,研究人員引入了特征引導(dǎo)蒸餾(FgD)。為了方便起見,他們將這兩種蒸餾的組合稱為雙向蒸餾(TwD)。
目標(biāo)導(dǎo)向蒸餾:為了降低從噪聲標(biāo)簽中學(xué)習(xí)的風(fēng)險,研究人員建議使用動量更新編碼器生成的軟目標(biāo)。這里,動量更新編碼器充當(dāng)通過指數(shù)移動平均權(quán)重獲得的蒸餾教師模型。
研究人員通過系數(shù)α將相似度得分s(·,·)與one-hot標(biāo)簽y(·,·)結(jié)合起來生成最終的軟標(biāo)簽。將要
表示為最終的軟標(biāo)簽。經(jīng)過
例如,它可以定義為:
考慮到隊列中特征的有效性隨著時間步長的增加而降低,研究人員還維護了一個加權(quán)隊列w來標(biāo)記相應(yīng)位置特征的可靠性。具體來說,該研究每次迭代都會將隊列中的每個元素衰減 0.99,新傳入的項目除外。因此,研究人員將
替換為等式 2 中的加權(quán)交叉熵損失
。使用目標(biāo)導(dǎo)向蒸餾,
定義為:
面向特征的蒸餾:與TgD類似,研究人員使用師生范式進行面向特征的蒸餾。以文本編碼器為例,學(xué)生模型是文本編碼器,教師模型是通過動量更新的編碼器。
為了進一步提高模型性能,研究人員對輸入采用了掩蔽策略。在具體實現(xiàn)中,將完整的輸入提供給教師模型,并將屏蔽的輸入提供給學(xué)生。依托動力機制,目標(biāo)是讓學(xué)生的特點更加接近老師的特點。形式上pg電子麻將胡了,教師模型和學(xué)生模型的預(yù)測分布分別定義如下:
研究人員利用交叉熵損失進行面向特征的蒸餾,損失L_FgD定義為:
最后用總體預(yù)訓(xùn)練目標(biāo)進行模型訓(xùn)練:
實驗結(jié)果
從下面的表2可以看出,研究人員提出的模型在大多數(shù)任務(wù)中都超越了之前的SOTA,即使只使用2.3M樣本(約占悟空數(shù)據(jù)量的2.3%)進行訓(xùn)練。在 23M 個樣本上進行預(yù)訓(xùn)練時,結(jié)果更好。在模型層面,R2D2ViT-L在所有數(shù)據(jù)集上也優(yōu)于R2D2ViT-B,表明隨著預(yù)訓(xùn)練模型變大,算法效果會變得更好。
研究人員還在提議的下游數(shù)據(jù)集上進行了實驗,這些實驗的結(jié)果成為了提議數(shù)據(jù)集的基線。特別是,在Flickr30k-CNA上進行實驗時,研究人員使用Flickr30k-CNA的訓(xùn)練集對預(yù)訓(xùn)練模型進行微調(diào),并在Flickr30k-CN的測試集上進行測試,以進行公平比較。從表2可以看出,在Flickr30k-CNA上微調(diào)的R2D2優(yōu)于在Flickr30k-CN上微調(diào)的R2D2,因為人工翻譯的Flickr30k-CNA的質(zhì)量遠高于機器翻譯的Flickr30k-CN。
與圖文檢索不同,中文圖文匹配(ITM)任務(wù)的數(shù)據(jù)集很少。研究人員針對中文ITM任務(wù)提出了圖像標(biāo)題匹配數(shù)據(jù)集(ICM)和圖像查詢匹配數(shù)據(jù)集(IQM),并給出了相應(yīng)的結(jié)果。
研究人員使用AUC作為評價指標(biāo)。從下表1可以看出,R2D2ViT-L取得了比R2D2ViT-B更好的結(jié)果。此外,R2D2ViT-L(23M)在ICM和IQM上的性能分別比R2D2ViT-L(2.3M)高出約4.97%和5.68%。這意味著更多高質(zhì)量的中文數(shù)據(jù)可以提高R2D2的泛化能力。
為了進一步提高性能,研究人員使用了從 50 億個樣本中提取的 2.5 億個圖文對進行預(yù)訓(xùn)練。從表2可以看出,以最綜合評價指標(biāo)R@M衡量,該模型在Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR等所有結(jié)果中均表現(xiàn)良好數(shù)據(jù)集。均超過了用23M數(shù)據(jù)訓(xùn)練的模型,這意味著增加數(shù)據(jù)量可以增強預(yù)訓(xùn)練模型的能力。同時,這些成績也大幅超越了已公開披露成績的文瀾2.0和悟空的成績,成為最新的SOTA。下面表1的數(shù)據(jù)表明,在圖文匹配任務(wù)ICM和IQM中,用更大數(shù)據(jù)量訓(xùn)練的預(yù)訓(xùn)練模型會取得更好的結(jié)果。
為了演示每種機制的作用,研究人員對零語料庫的子集(230 萬圖像和文本預(yù)訓(xùn)練數(shù)據(jù))進行了消融實驗。為了方便起見,研究人員在消融實驗中將R2D2ViT-L定義為R2D2。
細粒度排序(FGR)的效果。首先,研究人員使用全局對比預(yù)排序(GCPR)和雙向蒸餾(TwD)來訓(xùn)練模型,將其定義為 PRD2。 PRD2 的設(shè)置與 CLIP 類似。從下面表3的第一行和第二行可以看出,R2D2在圖像和文本檢索任務(wù)上的表現(xiàn)明顯優(yōu)于PRD2??梢酝茢?,結(jié)果明顯優(yōu)于CLIP,這說明了所提出的全局對比預(yù)排序+細粒度排序框架的有效性。
強化訓(xùn)練(ET)的效果。研究人員比較了取消增強式訓(xùn)練后的結(jié)果。從下面表3的第三行可以看出,R2D2(帶有ET)在圖像和文本檢索任務(wù)上將recall@1提高了0.95%,AUC從80.27%提高到80.51%。 R2D2 的另一個優(yōu)點是它比沒有 ET 的 R2D2 使用更少的計算資源。 R2D2 需要 154.0 GFLOPs 的計算量,可以每秒 1.4 次迭代的速度運行,而沒有增強訓(xùn)練的 R2D2 需要 168.8 GFLOPs 的計算量,只能以每秒 1.1 次迭代的速度運行。上述結(jié)果證明了增強式訓(xùn)練的有效性。
雙向蒸餾的效果。研究人員提出的雙向蒸餾包括面向目標(biāo)的蒸餾和面向特征的蒸餾。當(dāng)去除雙向蒸餾(TwD)時,R@M從74.06%下降到73.10%,AUC從80.51%下降到80.31%。當(dāng)去除特征引導(dǎo)蒸餾(FgD)時,R@M從74.06%下降到73.29%,性能明顯下降,這表明訓(xùn)練期間的特征對齊很重要。同時,去除目標(biāo)導(dǎo)向蒸餾(TgD)也會導(dǎo)致模型性能下降。上述結(jié)果表明,雙向蒸餾是提高預(yù)訓(xùn)練模型泛化能力的有效方法。
零樣本任務(wù)。為了證明模型的泛化性能,研究人員還進行了零樣本遷移實驗。從下面表4可以看出,與目前的SOTA性能WukongViT-L相比,R2D2ViT-L(23M)僅使用了不到1/4的數(shù)據(jù),但在Flickr30k-CN和COCO-CN上取得了更好的效果。更好的性能。當(dāng)引入2.5億級預(yù)訓(xùn)練數(shù)據(jù)后,R2D2的準(zhǔn)確率進一步提升。與 WukongViT-L 相比,在 Flickr30k-CN 數(shù)據(jù)集上,R@M 提升至 85.6%(提升了 4.7%),在 COCO-CN 數(shù)據(jù) MUGE 數(shù)據(jù)集上,R@M 提升至 80.5%(增長了5.4%)。在MUGE數(shù)據(jù)集上,R@M提升至69.5%(提升了6.3%)。
基于實體的圖像注意力可視化。在這個實驗中,研究人員試圖將圖像在COCO-CN上的注意力可視化。具體來說,他們首先從中文文本中提取一個實體,并計算圖像實體對的注意力分數(shù)。下面的圖 2 顯示了圖像上四個不同實體的視覺解釋。這表明 R2D2 已經(jīng)很好地學(xué)會了將文本與圖像中的正確內(nèi)容對齊。
我要評論