咨詢熱線：18593013815

pg電子娛樂平臺 50億圖文中提取中文跨模態(tài)基準(zhǔn)，奇虎360預(yù)訓(xùn)練框架超越多項SOTA

時間：2025-01-01 編輯：admin 瀏覽：26

對于中文社區(qū)來說，本文提出的大規(guī)?？缒B(tài)基準(zhǔn)數(shù)據(jù)集無疑是有價值的

視覺語言預(yù)訓(xùn)練（VLP）主要學(xué)習(xí)視覺與自然語言之間的語義對應(yīng)關(guān)系。得益于海量數(shù)據(jù)、Transformer等優(yōu)秀架構(gòu)、CLIP等跨模態(tài)模型以及硬件設(shè)備的支持，一系列開創(chuàng)性的工作對VLP模型進行了探索，并在各種視覺語言任務(wù)上取得了重大進展。

通過大規(guī)模訓(xùn)練語料庫（主要是英語），眾多 VLP 模型已被證明對下游任務(wù)有益。然而，中文視覺語言數(shù)據(jù)集非常少，并且存在各種局限性。對于大規(guī)模預(yù)訓(xùn)練模型和下游任務(wù)微調(diào)的經(jīng)典模型，中國跨模態(tài)領(lǐng)域缺乏包含大量高質(zhì)量數(shù)據(jù)并完整定義預(yù)訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)基準(zhǔn)，多個下游任務(wù)訓(xùn)練集，以及下游任務(wù)測試集。

如何構(gòu)建完整、公正、高質(zhì)量的文本描述中文跨模態(tài)基準(zhǔn)已成為迫切需要解決的問題。

近日，奇虎360人工智能研究院和清華大學(xué)的研究人員在最新論文中重點關(guān)注了大規(guī)模視覺語言數(shù)據(jù)集和跨模態(tài)表示學(xué)習(xí)模型。研究人員提出了大規(guī)模中文跨模態(tài)基準(zhǔn)數(shù)據(jù)集 Zero，其中包含兩個稱為 Zero-Corpus 的預(yù)訓(xùn)練數(shù)據(jù)集和五個下游任務(wù)數(shù)據(jù)集，在一定程度上填補了中文圖文跨模態(tài)的空白。模態(tài)數(shù)據(jù)集。州域數(shù)據(jù)集中的差距。此外，研究人員還提出了一種用于大規(guī)?？缒B(tài)學(xué)習(xí)的視覺語言預(yù)訓(xùn)練框架R2D2。它基于所提出的零語料庫數(shù)據(jù)集進行了預(yù)訓(xùn)練，并在多個下游任務(wù)上進行了測試。 R2D2取得了多項超越SOTA的成果。以上數(shù)據(jù)集和模型均開源。

研究人員還嘗試使用 2.5 億個更大的內(nèi)部數(shù)據(jù)集來訓(xùn)練 R2D2 模型。與2300萬數(shù)據(jù)相比，模型效果還是有明顯提升。尤其是在零樣本任務(wù)上，與之前的SOTA相比，在Flickr30k-CN數(shù)據(jù)集上，R@M提升到了85.6%（提升了4.7%），在COCO-CN數(shù)據(jù)集上，R@M提升了至 80.5%。（增長了5.4%），而在MUGE數(shù)據(jù)集上，R@M增長到了69.5%（增長了6.3%）。

360綜合訓(xùn)練器_綜合訓(xùn)練器訓(xùn)練計劃_訓(xùn)練器的使用方法

論文地址：

零語料庫預(yù)訓(xùn)練數(shù)據(jù)集由包含 2300 萬個圖像文本對的完整版本和包含 230 萬個圖像文本對的較小子集版本組成。其中，完整的預(yù)訓(xùn)練數(shù)據(jù)集是從搜索引擎收集的，包含圖像和相應(yīng)的文本描述，并根據(jù)用戶點擊率（CTR）從50億張圖像和文本中過濾出來。在完整版本上訓(xùn)練VLP模型可能需要大量的GPU資源，因此為了方便學(xué)術(shù)研究，研究人員還提供了230萬個版本的子集，其中包含完整版本的10%的圖文對。

除了兩個預(yù)訓(xùn)練數(shù)據(jù)集之外，研究人員還提供了五個高質(zhì)量的下游數(shù)據(jù)集，用于長短文本的圖文檢索和圖文匹配任務(wù)。特別值得一提的是Flickr30k-CNA，這是一個手動翻譯的數(shù)據(jù)集，比Flickr30k-CN更準(zhǔn)確。可以用來比較中英文跨模態(tài)模型的效果，也可以用來研究翻譯語料質(zhì)量對結(jié)果的影響。

對于VLP模型，研究人員提出了一種新的跨模態(tài)學(xué)習(xí)預(yù)訓(xùn)練框架R2D2。該框架結(jié)合了雙塔模型和單塔模型。它基于圖像模態(tài)表示和文本模態(tài)表示，采用交叉注意力機制來融合圖像和文本信息，受到推薦系統(tǒng)和在線廣告等技術(shù)的啟發(fā)。使用全局對比預(yù)排序（GCPR）來獲得跨模態(tài)表示，最后使用細粒度排序（FGR）來進一步提高模型性能。

此外，研究人員還介紹了一種雙向蒸餾方法，包括目標(biāo)引導(dǎo)蒸餾（TgD）和特征引導(dǎo)蒸餾（Feature-guided Distillation，F(xiàn)gD）。其中，面向目標(biāo)的蒸餾提高了從噪聲標(biāo)簽中學(xué)習(xí)的魯棒性，面向特征的蒸餾旨在提高R2D2的泛化能力。

數(shù)據(jù)集概述

預(yù)訓(xùn)練數(shù)據(jù)集零語料庫

現(xiàn)有的數(shù)據(jù)收集方法有兩個主要限制。首先，僅通過爬行采集到的圖像與文本的對應(yīng)關(guān)系較弱，噪聲較多；其次，圖像往往只包含一個對應(yīng)的文本，文本數(shù)據(jù)缺乏多樣性。

為了克服上述限制，研究人員創(chuàng)建了一個新的中文圖像和文本預(yù)訓(xùn)練數(shù)據(jù)集——零語料庫。他們根據(jù)用戶點擊對圖像搜索引擎中的 50 億張圖像進行排序。排名靠前的圖像表示用戶在查詢時點擊次數(shù)最多，表明該圖像與搜索查詢文本最相關(guān)。此外，研究人員還刪除了不恰當(dāng)和有害的文字描述，并過濾掉了有害的圖像。上述過程最大化了圖像和文本數(shù)據(jù)之間的對應(yīng)關(guān)系，并過濾出高質(zhì)量的圖像。研究人員按照上述方法總共處理了約 2.5 億個最相關(guān)、高質(zhì)量的圖文對，最終隨機選擇其中 2300 萬個構(gòu)建公共預(yù)訓(xùn)練數(shù)據(jù)集。

研究人員還為每張圖像提供了多樣化的文本描述，包括標(biāo)題（Title）、內(nèi)容（Content）和圖像查詢術(shù)語（ImageQuery）。這些信息（包括多個文本）可用于構(gòu)建不同的跨模態(tài)任務(wù)，以促進對圖像和文本之間的跨模態(tài)關(guān)系進行更全面的建模和研究。下圖顯示了一些具體示例。

訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃_360綜合訓(xùn)練器

零語料庫圖像文本對示例。

下游數(shù)據(jù)集

為了評估預(yù)訓(xùn)練模型的性能，大多數(shù)工作都會在各種下游數(shù)據(jù)集上進行實驗。與現(xiàn)有的英文描述的下游數(shù)據(jù)集相比，帶有中文文本的下游數(shù)據(jù)集很少。

為此，研究人員構(gòu)建了四個中文圖文數(shù)據(jù)集，分別是ICM、IQM、ICR和IQR。在預(yù)訓(xùn)練數(shù)據(jù)處理的基礎(chǔ)上（按點擊排序并過濾優(yōu)質(zhì)內(nèi)容后），我們進一步手動標(biāo)記這些下游任務(wù)的標(biāo)簽pg電子娛樂平臺，以保證數(shù)據(jù)的準(zhǔn)確性。對于每個下游任務(wù)數(shù)據(jù)集，將訓(xùn)練集、驗證集、測試集按照8:1:1的比例劃分為訓(xùn)練集、驗證集、測試集。與預(yù)訓(xùn)練數(shù)據(jù)不同，這些下游任務(wù)的數(shù)據(jù)集只為每張圖像保留一個對應(yīng)的文本。

圖像標(biāo)題匹配數(shù)據(jù)集（ICM）用于長文本圖像文本匹配和分類任務(wù)。每個圖像都有相應(yīng)的標(biāo)題文本，詳細描述該圖像。研究人員首先使用 CTR 選擇最相關(guān)的對，然后通過手動注釋對其進行校準(zhǔn)。總共獲得了40萬個圖文對，其中正樣本20萬個，負樣本20萬個。

圖像查詢匹配數(shù)據(jù)集（IQM）用于短文本圖像文本匹配和分類任務(wù)。數(shù)據(jù)收集的方法與ICM類似，只不過使用搜索查詢而不是詳細描述文本。 IQM還包含20萬個正樣本和20萬個負樣本

圖像字幕檢索數(shù)據(jù)集（ICR）用于長文本圖像-文本互檢任務(wù)。研究人員使用與 ICM 相同的規(guī)則收集了 200,000 個圖像文本對。

圖像查詢檢索數(shù)據(jù)集（IQR）用于短文本圖像-文本互檢任務(wù)。研究人員使用與 IQM 相同的規(guī)則收集了 200,000 個圖像文本對。

訓(xùn)練器的使用方法_360綜合訓(xùn)練器_綜合訓(xùn)練器訓(xùn)練計劃

從左到右是來自 ICM、IQM、ICR 和 IQR 數(shù)據(jù)集的圖形和文本示例。

之前的Flickr30k-CN使用機器翻譯來翻譯Flickr30k的訓(xùn)練集和驗證集，但是機器翻譯的結(jié)果有兩類常見的問題。一方面，部分句子存在一定的翻譯錯誤；另一方面，有些句子的中文語義不順暢。

因此，研究人員邀請了六名中英文語言學(xué)專業(yè)人士對所有 Flickr30k 數(shù)據(jù)進行了重新翻譯，并對每個句子進行了仔細檢查，最終生成了新的數(shù)據(jù)集 Flickr30k-Chinese All（Flickr30k-CNA），用于進行圖文交叉評價。模態(tài)任務(wù)。

360綜合訓(xùn)練器_訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃

本文提出的 Flickr30k、Flickr30k-CN 和 Flickr30k-CNA 的示例比較。

方法概述

模型架構(gòu)

下圖1是R2D2預(yù)訓(xùn)練框架的架構(gòu)概述，其中包含一個文本編碼器、一個圖像編碼器和兩個交叉編碼器。其中，文本編碼器和圖像編碼器分別將文本和圖像轉(zhuǎn)換為隱藏狀態(tài)序列。然后，文本和圖像隱藏狀態(tài)通過交叉注意力在兩個交叉編碼器中進行交互。

綜合訓(xùn)練器訓(xùn)練計劃_360綜合訓(xùn)練器_訓(xùn)練器的使用方法

研究人員使用 RoBERTa 作為文本編碼器。給定一個文本序列，首先使用 RoBERTa-wwm-ext 的分詞器對它們進行分詞。在這里，一個特殊的 [CLS] 標(biāo)記被附加到標(biāo)記化文本的頭部，而 [SEP] 標(biāo)記被附加到尾部。然后將標(biāo)記化的文本輸入文本編碼器。

研究人員使用 ViT 作為圖像編碼器。他們首先將輸入圖像縮放到標(biāo)準(zhǔn)尺寸，并將圖像劃分為多個塊。然后對每個補丁進行線性映射并添加位置嵌入。此外pg麻將胡了試玩平臺，可學(xué)習(xí)的 [CLS] 標(biāo)記與補丁向量連接起來。最后將序列向量輸入到標(biāo)準(zhǔn)Transformer模型中，得到圖像隱藏狀態(tài)向量。

研究人員融合了圖像和文本潛在向量，并將它們輸入交叉編碼器。具體來說，他們使用線性映射層來改變每個文本特征和圖像特征的尺寸，使它們保持一致。多層Transformer使用交叉注意力來融合兩種模態(tài)的特征信息并生成最終的跨模態(tài)輸出。

預(yù)訓(xùn)練方法

為了探索圖像和文本對之間的匹配關(guān)系，研究人員設(shè)計了預(yù)排序+排序機制，即全局比較預(yù)排序（GCPR）和細粒度排序（FGR）。他們還采用掩碼語言建模（MLM）來有效學(xué)習(xí)跨模態(tài)模型的表示。

首先是全局比較預(yù)排序。傳統(tǒng)的對比學(xué)習(xí)旨在對齊多模態(tài)數(shù)據(jù)的表示（例如圖像和文本對），從而最大化正對的相似度分數(shù)并最小化負對的分數(shù)。研究人員使用全局對比學(xué)習(xí)來完成預(yù)排序任務(wù)，他們在 k 個 GPU 上執(zhí)行完整的反向傳播。對于每個圖像 I_i 和對應(yīng)的文本 T_i，圖像和文本的 softmax 歸一化相似度分數(shù)可以定義如下：

全局對比預(yù)排序損失由交叉熵損失L_c(·)計算，如下式(2)所示：

然后是細粒度排序。如上所述，我們使用全局對比預(yù)排序來獲得圖像和文本的單一表示?；谶@些表示，進一步利用細粒度排名損失來執(zhí)行細粒度排名任務(wù)。這是一個二元分類任務(wù)，旨在預(yù)測圖像和文本是否匹配。

研究人員將h_I_[CLS]和h_T_[CLS]作為兩個交錯編碼器的輸出表示。給定圖像表示 h_I_[CLS] 和文本表示 h_T_[CLS]，研究人員將它們輸入全連接層 g(·) 以獲得它們各自的預(yù)測概率。令 y 代表二元分類的真實標(biāo)簽，研究人員計算細粒度排名損失如下。

研究人員將屏蔽語言建模損失應(yīng)用于文本-圖像交叉編碼器，以提高在標(biāo)記級別對文本和圖像之間的關(guān)系進行建模的能力。 15% 的文本標(biāo)記在輸入中被屏蔽，并且所有這些標(biāo)記都被替換為 [MASK] 標(biāo)記。

在研究人員的模型中，屏蔽語言建模任務(wù)使用屏蔽文本和相應(yīng)的圖像一起去噪，從而增強文本和圖像之間的交互。由于細粒度排序嚴重依賴這種交互能力，因此研究人員提出了增強訓(xùn)練（ET），將屏蔽語言建模任務(wù)集成到前向圖像文本對的細粒度排序的前向操作中。

雙向蒸餾

大多數(shù)圖像和文本預(yù)訓(xùn)練數(shù)據(jù)都是由半自動化程序收集的，導(dǎo)致數(shù)據(jù)充滿噪聲。不準(zhǔn)確的標(biāo)簽可能會誤導(dǎo)模型訓(xùn)練。為此，研究人員提出了目標(biāo)導(dǎo)向蒸餾（TgD），一種基于師生的軟目標(biāo)蒸餾。為了進一步提高預(yù)訓(xùn)練模型的泛化性能，研究人員引入了特征引導(dǎo)蒸餾（FgD）。為了方便起見，他們將這兩種蒸餾的組合稱為雙向蒸餾（TwD）。

目標(biāo)導(dǎo)向蒸餾：為了降低從噪聲標(biāo)簽中學(xué)習(xí)的風(fēng)險，研究人員建議使用動量更新編碼器生成的軟目標(biāo)。這里，動量更新編碼器充當(dāng)通過指數(shù)移動平均權(quán)重獲得的蒸餾教師模型。

研究人員通過系數(shù)α將相似度得分s(·,·)與one-hot標(biāo)簽y(·,·)結(jié)合起來生成最終的軟標(biāo)簽。將要

表示為最終的軟標(biāo)簽。經(jīng)過

例如，它可以定義為：

考慮到隊列中特征的有效性隨著時間步長的增加而降低，研究人員還維護了一個加權(quán)隊列w來標(biāo)記相應(yīng)位置特征的可靠性。具體來說，該研究每次迭代都會將隊列中的每個元素衰減 0.99，新傳入的項目除外。因此，研究人員將

替換為等式 2 中的加權(quán)交叉熵損失

。使用目標(biāo)導(dǎo)向蒸餾，

定義為：

面向特征的蒸餾：與TgD類似，研究人員使用師生范式進行面向特征的蒸餾。以文本編碼器為例，學(xué)生模型是文本編碼器，教師模型是通過動量更新的編碼器。

為了進一步提高模型性能，研究人員對輸入采用了掩蔽策略。在具體實現(xiàn)中，將完整的輸入提供給教師模型，并將屏蔽的輸入提供給學(xué)生。依托動力機制，目標(biāo)是讓學(xué)生的特點更加接近老師的特點。形式上pg電子麻將胡了，教師模型和學(xué)生模型的預(yù)測分布分別定義如下：

研究人員利用交叉熵損失進行面向特征的蒸餾，損失L_FgD定義為：

最后用總體預(yù)訓(xùn)練目標(biāo)進行模型訓(xùn)練：

實驗結(jié)果

從下面的表2可以看出，研究人員提出的模型在大多數(shù)任務(wù)中都超越了之前的SOTA，即使只使用2.3M樣本（約占悟空數(shù)據(jù)量的2.3%）進行訓(xùn)練。在 23M 個樣本上進行預(yù)訓(xùn)練時，結(jié)果更好。在模型層面，R2D2ViT-L在所有數(shù)據(jù)集上也優(yōu)于R2D2ViT-B，表明隨著預(yù)訓(xùn)練模型變大，算法效果會變得更好。

訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃_360綜合訓(xùn)練器

研究人員還在提議的下游數(shù)據(jù)集上進行了實驗，這些實驗的結(jié)果成為了提議數(shù)據(jù)集的基線。特別是，在Flickr30k-CNA上進行實驗時，研究人員使用Flickr30k-CNA的訓(xùn)練集對預(yù)訓(xùn)練模型進行微調(diào)，并在Flickr30k-CN的測試集上進行測試，以進行公平比較。從表2可以看出，在Flickr30k-CNA上微調(diào)的R2D2優(yōu)于在Flickr30k-CN上微調(diào)的R2D2，因為人工翻譯的Flickr30k-CNA的質(zhì)量遠高于機器翻譯的Flickr30k-CN。

與圖文檢索不同，中文圖文匹配（ITM）任務(wù)的數(shù)據(jù)集很少。研究人員針對中文ITM任務(wù)提出了圖像標(biāo)題匹配數(shù)據(jù)集（ICM）和圖像查詢匹配數(shù)據(jù)集（IQM），并給出了相應(yīng)的結(jié)果。

研究人員使用AUC作為評價指標(biāo)。從下表1可以看出，R2D2ViT-L取得了比R2D2ViT-B更好的結(jié)果。此外，R2D2ViT-L（23M）在ICM和IQM上的性能分別比R2D2ViT-L（2.3M）高出約4.97％和5.68％。這意味著更多高質(zhì)量的中文數(shù)據(jù)可以提高R2D2的泛化能力。

為了進一步提高性能，研究人員使用了從 50 億個樣本中提取的 2.5 億個圖文對進行預(yù)訓(xùn)練。從表2可以看出，以最綜合評價指標(biāo)R@M衡量，該模型在Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR等所有結(jié)果中均表現(xiàn)良好數(shù)據(jù)集。均超過了用23M數(shù)據(jù)訓(xùn)練的模型，這意味著增加數(shù)據(jù)量可以增強預(yù)訓(xùn)練模型的能力。同時，這些成績也大幅超越了已公開披露成績的文瀾2.0和悟空的成績，成為最新的SOTA。下面表1的數(shù)據(jù)表明，在圖文匹配任務(wù)ICM和IQM中，用更大數(shù)據(jù)量訓(xùn)練的預(yù)訓(xùn)練模型會取得更好的結(jié)果。

360綜合訓(xùn)練器_訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃

為了演示每種機制的作用，研究人員對零語料庫的子集（230 萬圖像和文本預(yù)訓(xùn)練數(shù)據(jù)）進行了消融實驗。為了方便起見，研究人員在消融實驗中將R2D2ViT-L定義為R2D2。

細粒度排序（FGR）的效果。首先，研究人員使用全局對比預(yù)排序（GCPR）和雙向蒸餾（TwD）來訓(xùn)練模型，將其定義為 PRD2。 PRD2 的設(shè)置與 CLIP 類似。從下面表3的第一行和第二行可以看出，R2D2在圖像和文本檢索任務(wù)上的表現(xiàn)明顯優(yōu)于PRD2?？梢酝茢?，結(jié)果明顯優(yōu)于CLIP，這說明了所提出的全局對比預(yù)排序+細粒度排序框架的有效性。

強化訓(xùn)練（ET）的效果。研究人員比較了取消增強式訓(xùn)練后的結(jié)果。從下面表3的第三行可以看出，R2D2（帶有ET）在圖像和文本檢索任務(wù)上將recall@1提高了0.95%，AUC從80.27%提高到80.51%。 R2D2 的另一個優(yōu)點是它比沒有 ET 的 R2D2 使用更少的計算資源。 R2D2 需要 154.0 GFLOPs 的計算量，可以每秒 1.4 次迭代的速度運行，而沒有增強訓(xùn)練的 R2D2 需要 168.8 GFLOPs 的計算量，只能以每秒 1.1 次迭代的速度運行。上述結(jié)果證明了增強式訓(xùn)練的有效性。

雙向蒸餾的效果。研究人員提出的雙向蒸餾包括面向目標(biāo)的蒸餾和面向特征的蒸餾。當(dāng)去除雙向蒸餾（TwD）時，R@M從74.06%下降到73.10%，AUC從80.51%下降到80.31%。當(dāng)去除特征引導(dǎo)蒸餾（FgD）時，R@M從74.06%下降到73.29%，性能明顯下降，這表明訓(xùn)練期間的特征對齊很重要。同時，去除目標(biāo)導(dǎo)向蒸餾（TgD）也會導(dǎo)致模型性能下降。上述結(jié)果表明，雙向蒸餾是提高預(yù)訓(xùn)練模型泛化能力的有效方法。

360綜合訓(xùn)練器_綜合訓(xùn)練器訓(xùn)練計劃_訓(xùn)練器的使用方法

零樣本任務(wù)。為了證明模型的泛化性能，研究人員還進行了零樣本遷移實驗。從下面表4可以看出，與目前的SOTA性能WukongViT-L相比，R2D2ViT-L（23M）僅使用了不到1/4的數(shù)據(jù)，但在Flickr30k-CN和COCO-CN上取得了更好的效果。更好的性能。當(dāng)引入2.5億級預(yù)訓(xùn)練數(shù)據(jù)后，R2D2的準(zhǔn)確率進一步提升。與 WukongViT-L 相比，在 Flickr30k-CN 數(shù)據(jù)集上，R@M 提升至 85.6%（提升了 4.7%），在 COCO-CN 數(shù)據(jù) MUGE 數(shù)據(jù)集上，R@M 提升至 80.5%（增長了5.4%）。在MUGE數(shù)據(jù)集上，R@M提升至69.5%（提升了6.3%）。

360綜合訓(xùn)練器_訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃

基于實體的圖像注意力可視化。在這個實驗中，研究人員試圖將圖像在COCO-CN上的注意力可視化。具體來說，他們首先從中文文本中提取一個實體，并計算圖像實體對的注意力分數(shù)。下面的圖 2 顯示了圖像上四個不同實體的視覺解釋。這表明 R2D2 已經(jīng)很好地學(xué)會了將文本與圖像中的正確內(nèi)容對齊。

訓(xùn)練器的使用方法_綜合訓(xùn)練器訓(xùn)練計劃_360綜合訓(xùn)練器