久久天天躁夜夜躁狠狠躁2024,精品一区二区久久久久久无码小说

推廣技巧

刷新五項(xiàng)SOTA，百度ActBERT：基于動(dòng)作和局部物體的視頻文本特征學(xué)習(xí)模型

百度推廣 2021-03-23 16:11:14 2848

機(jī)器之心公布

全世界電子計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2 上，百度搜索總共有 22 篇畢業(yè)論文被接受。這篇 Oral 畢業(yè)論文中，百度搜索明確提出了 ActBERT，該實(shí)體模型能夠?qū)W習(xí)培訓(xùn)抒情性視頻開展無(wú)監(jiān)管視頻文字關(guān)聯(lián)，并明確提出糾纏不清伺服電機(jī)對(duì)部分地區(qū)、全局動(dòng)作與規(guī)范字開展編號(hào)。*后在 5 項(xiàng)有關(guān)評(píng)測(cè)每日任務(wù)上獲得了 SOTA 結(jié)果。

全世界電子計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2 上，百度搜索總共有 22 篇畢業(yè)論文被接受。這篇 Oral 畢業(yè)論文中，百度搜索明確提出了 ActBERT，該實(shí)體模型能夠?qū)W習(xí)培訓(xùn)抒情性視頻開展無(wú)監(jiān)管視頻文字關(guān)聯(lián)，并明確提出糾纏不清伺服電機(jī)對(duì)部分地區(qū)、全局動(dòng)作與規(guī)范字開展編號(hào)。*后在 5 項(xiàng)有關(guān)評(píng)測(cè)每日任務(wù)上獲得了 SOTA 結(jié)果。

ActBERT 在中下游視頻和語(yǔ)言表達(dá)每日任務(wù)上，即文字視頻精彩片段查找、視頻敘述轉(zhuǎn)化成、視頻話題討論、動(dòng)作流程精準(zhǔn)定位等每日任務(wù)上顯著好于別的技術(shù)性，展現(xiàn)了其在視頻文字表明層面的自學(xué)能力。

畢業(yè)論文：《ActBERT: Learning Global-Local Video-Text Representations》

畢業(yè)論文連接：

目前運(yùn)用 BERT 訓(xùn)煉方法開展視頻語(yǔ)言表達(dá)建模一般通過(guò)量化分析視頻幀特點(diǎn)的方法，根據(jù)聚類算法離散化將視覺(jué)特點(diǎn)轉(zhuǎn)換為視覺(jué)英語(yǔ)單詞?？墒?，詳盡的部分信息，比如，互動(dòng)交流目標(biāo)，在聚類算法全過(guò)程中很有可能會(huì)遺失，避免實(shí)體模型進(jìn)一步發(fā)覺(jué)粗粒度的視頻和文本對(duì)應(yīng)關(guān)系。文中明確提出 ActBERT 從匹配視頻編碼序列中發(fā)掘全局和部分視覺(jué)案件線索和文字說(shuō)明，它運(yùn)用豐富多彩的前后文信息和粗粒度的關(guān)聯(lián)開展視頻 - 文字協(xié)同建模，其奉獻(xiàn)有三點(diǎn)：

*先，ActBERT 融合了全局動(dòng)作，部分地區(qū)與文字?jǐn)⑹?。例如「裁切」、「切成片」這類的動(dòng)作針對(duì)各種各樣視頻有關(guān)的中下游每日任務(wù)是有好處的。除開全局動(dòng)作信息，融合當(dāng)?shù)氐貐^(qū)信息以出示粗粒度的視覺(jué)提醒，地區(qū)出示相關(guān)全部情景的詳盡視覺(jué)案件線索，包含地區(qū)目標(biāo)特點(diǎn)，目標(biāo)的部位。語(yǔ)言模型能夠從地區(qū)信息中獲益以得到更強(qiáng)的語(yǔ)言表達(dá)和視覺(jué)一致性。

次之，糾纏不清伺服電機(jī)控制模塊對(duì)來(lái)源于三個(gè)因素開展編號(hào)，即全局動(dòng)作，部分地區(qū)和語(yǔ)言表達(dá)敘述。新的糾纏不清編號(hào)控制模塊從三個(gè)來(lái)源于開展多模態(tài)特點(diǎn)學(xué)習(xí)培訓(xùn)，以提高2個(gè)視覺(jué)提醒和語(yǔ)言表達(dá)中間的互動(dòng)交流作用。在全局動(dòng)作信息的具體指導(dǎo)下，對(duì)語(yǔ)言模型引入了視覺(jué)信息，并將語(yǔ)言表達(dá)信息融合到視覺(jué)實(shí)體模型中。糾纏不清伺服電機(jī)動(dòng)態(tài)性挑選適合的前后文以推動(dòng)總體目標(biāo)預(yù)測(cè)分析。

除此之外，明確提出四個(gè)訓(xùn)練科目來(lái)學(xué)習(xí)培訓(xùn) ActBERT。預(yù)訓(xùn)煉后的 ActBERT 被遷移到五個(gè)與視頻有關(guān)的中下游每日任務(wù)，并定量分析地表明 ActBERT 做到了*優(yōu)秀的特性。

優(yōu)化算法

糾纏不清伺服電機(jī)

糾纏不清伺服電機(jī)包含三個(gè)伺服電機(jī)，三個(gè)伺服電機(jī)的鍵入來(lái)源于三個(gè)來(lái)源于。為了更好地提升視覺(jué)和語(yǔ)言表達(dá)特點(diǎn)中間的互動(dòng)交流，糾纏不清伺服電機(jī)將視覺(jué)信息引入語(yǔ)言表達(dá)伺服電機(jī)，并將語(yǔ)言表達(dá)信息融合到視覺(jué)伺服電機(jī)中。從總體上，糾纏不清伺服電機(jī)運(yùn)用動(dòng)作信息催化反應(yīng)互相溝通交流。

C_w 是混和后的語(yǔ)言表達(dá)表明方式，而 C_r 是正確引導(dǎo)后的區(qū)域特征。隨后，C_w 應(yīng)用一個(gè)線形層得到新的鍵值對(duì)。造成的鍵值對(duì)與初始的 a 伺服電機(jī)和 r 伺服電機(jī)鍵值對(duì)層疊在一起。根據(jù)這類方法，視覺(jué)和語(yǔ)言表達(dá)特點(diǎn)更進(jìn)一步聯(lián)絡(luò)在一起。

訓(xùn)煉方法

文中明確提出四個(gè)訓(xùn)煉方法開展實(shí)體模型學(xué)習(xí)培訓(xùn)。第一、有掩碼的語(yǔ)言表達(dá)建模每日任務(wù)。文中運(yùn)用地區(qū)物件和全局動(dòng)作中的視覺(jué)數(shù)據(jù)信號(hào)，發(fā)覺(jué)視覺(jué)和語(yǔ)言表達(dá)實(shí)體線中間的關(guān)聯(lián)。該每日任務(wù)驅(qū)使實(shí)體模型從前后文敘述中學(xué)習(xí)培訓(xùn)，另外獲取有關(guān)的視覺(jué)特點(diǎn)以幫助文字預(yù)測(cè)分析。當(dāng)形容詞被除去時(shí)，實(shí)體模型應(yīng)當(dāng)運(yùn)用動(dòng)作特點(diǎn)來(lái)更精確預(yù)測(cè)分析。當(dāng)敘述部分的專有名詞被除去時(shí)，當(dāng)?shù)貐^(qū)域特征能夠出示大量的前后文信息。

第二、有掩碼的動(dòng)作歸類每日任務(wù)。這一每日任務(wù)是依據(jù)語(yǔ)言表達(dá)和物件特點(diǎn)，預(yù)測(cè)分析被除去的動(dòng)作標(biāo)識(shí)。確立的動(dòng)作預(yù)測(cè)分析能夠有兩層面的益處。1）長(zhǎng)階段動(dòng)作編碼序列案件線索能夠被發(fā)掘，該每日任務(wù)能夠能夠更好地辨別實(shí)行動(dòng)作時(shí)的先后順序；2）運(yùn)用地區(qū)物件和語(yǔ)言表達(dá)文字能夠得到更強(qiáng)的跨多形式建模，該每日任務(wù)能夠提高預(yù)訓(xùn)練模型中的動(dòng)作鑒別工作能力，能夠進(jìn)一步營(yíng)銷推廣到很多中下游每日任務(wù)。

第三、有掩碼的物件歸類每日任務(wù)。在該每日任務(wù)中，部分地區(qū)目標(biāo)特點(diǎn)被任意除去。其總體目標(biāo)遍布為將該地區(qū)鍵入到同樣的目標(biāo)檢測(cè)實(shí)體模型獲得的激話值。提升總體目標(biāo)是降到*低二種遍布中間的 KL 差別。

第四、跨匹配算法。與下一個(gè)語(yǔ)句預(yù)測(cè)分析（NSP）每日任務(wù)相近，在第一個(gè)標(biāo)記 [CLS] 的輸出后添加了一個(gè)線形支持向量機(jī)，用于標(biāo)示語(yǔ)言表達(dá)與視覺(jué)特點(diǎn)的關(guān)聯(lián)性。假如成績(jī)較高，說(shuō)明文字非常好地?cái)⑹隽艘曨l視頻剪輯。

試驗(yàn)

試驗(yàn)設(shè)定

ActBERT 在 HowTo100M 數(shù)據(jù)上開展預(yù)訓(xùn)煉。該數(shù)據(jù)包含了累計(jì) 23,611 項(xiàng)每日任務(wù)，比如維護(hù)保養(yǎng)和維修、小動(dòng)物解救、提前準(zhǔn)備食物等。在五個(gè)每日任務(wù)上測(cè)評(píng)了 ActBERT 的特性。

視頻敘述轉(zhuǎn)化成試驗(yàn)結(jié)果

ActBERT 在全部指標(biāo)值上均好于 VideoBERT，說(shuō)明預(yù)訓(xùn)煉學(xué)習(xí)培訓(xùn)到更強(qiáng)的視頻表明，也說(shuō)明 ActBERT 對(duì)視頻編碼序列建模的實(shí)效性。

動(dòng)作切分試驗(yàn)結(jié)果

ActBERT 顯著好于標(biāo)準(zhǔn)方式。它說(shuō)明預(yù)訓(xùn)煉的 ActBERT 能夠僅解決視覺(jué)。當(dāng)刪掉地區(qū)信息時(shí)，能夠觀查到特性降低了，說(shuō)明詳盡的部分案件線索針對(duì)聚集視頻幀標(biāo)識(shí)每日任務(wù)有關(guān)鍵功效。

動(dòng)作流程精準(zhǔn)定位試驗(yàn)結(jié)果

ActBERT 的主要表現(xiàn)顯著好于 TVJE，即均值提高有 7％。這一結(jié)果乃至比無(wú)監(jiān)督學(xué)習(xí)的特性也要好。為了更好地與 TVJE 有公平公正的比照，文中刪除了部分地區(qū)信息，這一結(jié)果也顯著好于 TVJE，證實(shí) ActBERT 預(yù)訓(xùn)煉的實(shí)效性。詳細(xì) ActBERT 實(shí)體模型進(jìn)一步提高了 4％。

文字視頻精彩片段查找與視頻話題討論試驗(yàn)結(jié)果

不用繁雜的協(xié)同視頻文字建模，ActBERT 顯著好于目前別的方式。說(shuō)明 ActBERT 在規(guī)模性數(shù)據(jù)上的強(qiáng)勁自學(xué)能力。

結(jié)果

ActBERT 以一種自身監(jiān)管的方法開展協(xié)同視頻文字建模。該方式立即為全局和部分視覺(jué)信息建模，以開展粗粒度的視覺(jué)和語(yǔ)言表達(dá)關(guān)聯(lián)學(xué)習(xí)培訓(xùn)。ActBERT 將信息的三個(gè)來(lái)源于做為鍵入，并應(yīng)用了新奇的糾纏不清伺服電機(jī)進(jìn)一步提高三個(gè)源中間的互動(dòng)。五個(gè)視頻文字標(biāo)準(zhǔn)檢測(cè)的定量分析結(jié)果證實(shí)了 ActBERT 的實(shí)效性。將來(lái)能夠根據(jù)設(shè)計(jì)方案更強(qiáng)勁的視頻和文字學(xué)習(xí)培訓(xùn)控制模塊來(lái)提高 ActBERT，并將其運(yùn)用到視頻動(dòng)作鑒別和檢測(cè)中。

論文參考文獻(xiàn)：

Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2.

Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.

Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019

Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.

本文為機(jī)器之心公布，轉(zhuǎn)截請(qǐng)聯(lián)絡(luò)本微信公眾號(hào)得到受權(quán) 。

?------------------------------------------------

添加機(jī)器之心（全職的新聞?dòng)浾?/ 見習(xí)生）：

文章投稿或?qū)ふ覉?bào)導(dǎo)：content@jiqizhixin.com

廣告宣傳 & 招商合作：

在沿海旅游城市開了家會(huì)展服務(wù)公司，請(qǐng)問(wèn)除了百度推廣還有哪些營(yíng)銷方式？

你想免費(fèi)體驗(yàn)百度無(wú)人車嗎？