
視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域的前沿熱點問題,從處理類型單一的數(shù)據(jù)到跨媒體認知、學習和推理的“跨媒體智能”被認為是五大智能方向。
近日,騰訊微視視頻理解團隊在多模態(tài)理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機構的模型效果,一舉成為單、多模型的三項指標第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,并深度應用到短視頻領域。
VisualCommonsense Reasoning (VCR)任務于2018年由華盛頓大學的研究人員首次提出,任務旨在將圖像和自然語言理解二者結合,驗證多模態(tài)模型高階認知和常識推理的能力,讓機器擁有“看圖說話”的能力,例如VCR能夠通過圖片中人物的行為,進一步推理出其動機、情緒等信息。VCR榜單是多模態(tài)理解領域最權威的排行榜之一,也是當前圖像理解和多模態(tài)領域?qū)哟巫钌睢㈤T檻最高的任務之一,吸引了微軟、谷歌、Facebook、百度、UCLA等國內(nèi)外公司和研究機構紛紛參與。
據(jù)相關負責人介紹,BLENDer模型賦予了平臺更強大的認知能力,使得包含文本、音頻、視頻等多種媒體信息在內(nèi)的短視頻內(nèi)容,能夠更好的做到分類和識別,更加精準理解和挖掘這些海量的跨媒體信息。
在BLENDer模型中,第一階段以NLP中的Bert模型為起點,結合海量數(shù)據(jù)中抽取得到的數(shù)百萬張圖片和對應描述文本作為BLENDer的輸入進行多模態(tài)訓練;第二階段,在視覺常識推理數(shù)據(jù)集上學習電影中的場景和情節(jié),使模型在新數(shù)據(jù)上獲得更好的遷移能力;第三階段,引入最終問答任務,讓BLENDer利用已有的知識和常識對現(xiàn)有問題進行人物-人物、人物-場景之間關系的挖掘和關聯(lián)進行推理,得到最終的答案。
未來,人工智能將具備更加多元、深度的交流學習能力,而技術的創(chuàng)新和精進將進一步推動AI技術在短視頻業(yè)務中智能交互場景的落地。(張銘陽)
網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 m.baiwanxiang.net.cn All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 黄色国产一级片 | 欧美男人亚洲天堂 | 一区二区三区视频免费看 | 婷婷狠狠操 | 精品一区二区三区日韩 | 欧美一及片 | 日韩欧美久久久 | 午夜激情成人 | 黄视频免费看在线 | 五月婷婷在线播放 | 国产做受入口竹菊 | 亚洲 欧美 日韩 综合 | 国产精品伊人 | 中国三级视频 | 免费污片在线观看 | 亚洲精品9 | 伊人青草| 亚洲天堂2024| 亚洲一二三四在线 | 亚洲视频二 | 丁香婷婷久久久综合精品国产 | 亚洲国产精品视频 | 精品久久国产 | 粗大黑人巨茎大战欧美成人免费看 | 国产精品网站视频 | 亚洲精品一二三 | av网站入口 | 亚洲男人av | 热99在线观看 | 精品视频专区 | 四虎永久网址 | 精品国产乱码久久久 | 四虎色播 | 久久精品国产99 | 日韩一区二区久久 | 天堂av影院 | 亚洲美女一区二区三区 | 黄色免费小网站 | 9i看片成人免费看片 | 久久综合久 | 色综合一区二区 |