91人人爽人人澡人人爽人人精品_久久久久久网站精品免费_色婷婷狠狠躁日日躁夜夜躁_一个人在线日本www_99久久精品在_综合狠狠久久_久久久久久精品精品夜免费啦 _精品久久影院国产

咨詢熱線:021-80392549

多模態(tài)視頻理解模型新標桿!微軟黃學東團隊發(fā)布 i-Code

放大字體  縮小字體 發(fā)布日期:2022-05-11     來源:雷鋒網(wǎng)     瀏覽次數(shù):1333
核心提示:真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的,引入來自所有可用模式的信號。在許多實際的數(shù)據(jù)體系
真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的,引入來自所有可用模式的信號。在許多實際的數(shù)據(jù)體系中,我們可以利用視覺(V)、語言(L)和語音/音頻(S)模態(tài)的數(shù)據(jù)。目前,研究者們在建立理解單模態(tài)、雙模太的模型方面取得了巨大的進展,然而將這些工作推廣到能夠同時解譯視覺、語言、語音的三模態(tài)系統(tǒng)上仍然是一項艱巨的任務(wù)。
圖像
三模態(tài)訓(xùn)練需要大量的三模態(tài)數(shù)據(jù)(例如,帶文字描述的視頻),而此類數(shù)據(jù)的規(guī)模往往比可用的單模態(tài)或雙模態(tài)數(shù)據(jù)小好幾個數(shù)量級。例如,目前最大的帶標注的視頻數(shù)據(jù)集由 1.8 億段視頻組成,而最大的圖像描述數(shù)據(jù)集則包含高達 9 億個圖文對。

為了解決該問題,本文提出了兩種解決方案。首先,除了三模態(tài)視頻,我們還利用了大規(guī)模的雙模態(tài)數(shù)據(jù),例如:帶有文本描述的圖像(V+L)、帶有轉(zhuǎn)寫文本的語音(S+L)和視頻描述(V+S)。這極大地擴展了模型輸入數(shù)據(jù)的規(guī)模和多樣性,同時涵蓋了全部三種目標模式。其次,我們提出了一種融合架構(gòu),可以采用研究社區(qū)提出的最先進的單模態(tài)編碼器的上下文輸出,而非從頭開始構(gòu)建一個獨立的模型。

本文提出了「i-Code」,其中 i 代表集成多模態(tài)學習。我們開發(fā)了一個有效的融合模塊,該模塊集成了單模態(tài)編碼器的輸出,進行跨模態(tài)理解,從而獲得最終的預(yù)測結(jié)果。為了設(shè)計最佳的融合架構(gòu),我們試驗了多種 Transformer 架構(gòu)內(nèi)的自注意機制的變體,包括交叉和合并不同模態(tài)的注意力得分的機制。

接著,我們使用各種自監(jiān)督目標利用雙模態(tài)和三模態(tài)數(shù)據(jù)對 i-Code 進行預(yù)訓(xùn)練。這些目標包括:(1)掩碼單元建模。其中所有輸入信號都被轉(zhuǎn)換為離散的詞例(Token),旨在預(yù)測各模態(tài)下的被遮蔽的單元的正確詞例。(2)對比學習。給定兩種輸入模態(tài),模型預(yù)測給定的信號是否來自訓(xùn)練數(shù)據(jù)中的同一個三元組(或數(shù)據(jù)對)。

我們在多個多模態(tài)對比基準上徹底評估了 i-Code。實驗結(jié)果證明了所提出的多模態(tài)預(yù)訓(xùn)練框架的有效性。對 i-Code 進行微調(diào),相較目前最先進,我們可以在 6 個多模態(tài)數(shù)據(jù)集和 GLUE NLP 基準測試中的算法獲得 11% 的性能提升。 
工博士工業(yè)品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與商城(rz-tex.com)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話:021-31666777
新聞、技術(shù)文章投稿QQ:3267146135  投稿郵箱:syy@gongboshi.com
推薦文章
最新更新
點擊排行
中方县| 阿城市| 嘉禾县| 马公市| 象山县| 蓝山县| 滨州市| 商河县| 巫溪县| 望奎县| 兴安县| 井陉县| 武宁县| 英超| 明光市| 伊吾县| 湖南省| 福安市| 明光市| 施秉县| 阜宁县| 会宁县| 宝丰县| 桐柏县| 铁岭县| 麻江县| 武隆县| 通江县| 南江县| 峨边| 永和县| 乌兰县| 黎川县| 康马县| 赫章县| 元谋县| 遂平县| 酉阳| 义马市| 富宁县| 从江县|