九九艹视频免费观看,国产日韩a欧美在线人成视频,日韩精品久久久久久久

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

2019-10-16 10:27

近幾年，視頻行業(yè)迎來(lái)了井噴式爆發(fā)，隨著人工智能技術(shù)的逐漸成熟，用戶體驗(yàn)不斷升級(jí)。

在觀看影視劇、綜藝等視頻時(shí)，我們總能在畫面中看到跟視頻場(chǎng)景相關(guān)的廣告，比如當(dāng)出現(xiàn)地標(biāo)性建筑時(shí)，會(huì)出現(xiàn)旅游相關(guān)廣告；當(dāng)觀看明星真人秀節(jié)目，會(huì)有同款服飾的購(gòu)物鏈接。在這背后，是智能視頻識(shí)別技術(shù)發(fā)展的成果。

近期，極鏈科技AI研究院資深研究員張奕在公開課上進(jìn)行了主題為《消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用》的講解，從視聯(lián)網(wǎng)產(chǎn)業(yè)簡(jiǎn)介、智能視頻技術(shù)應(yīng)用于消費(fèi)級(jí)視頻的挑戰(zhàn)、數(shù)據(jù)的重要性與VideoNet視頻數(shù)據(jù)集、視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用四大模塊進(jìn)行了分享。

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

以下為分享實(shí)錄：

在5G和AI的加持下，互聯(lián)網(wǎng)演進(jìn)出三大形態(tài)，物聯(lián)網(wǎng)，視聯(lián)網(wǎng)和車聯(lián)網(wǎng)。目前視頻占據(jù)了全網(wǎng)數(shù)據(jù)的80％，且仍在不斷提高。視頻將成為互聯(lián)網(wǎng)最重要的入口，承擔(dān)起信息傳遞介質(zhì)和互聯(lián)網(wǎng)功能載體的作用，進(jìn)而形成以視頻作為主要信息傳遞介質(zhì)和功能載體的互聯(lián)網(wǎng)形態(tài)，視聯(lián)網(wǎng)。龐大的消費(fèi)級(jí)視頻是視聯(lián)網(wǎng)的首個(gè)落地場(chǎng)景。

作為「AI＋視頻」行業(yè)獨(dú)角獸企業(yè)，全球視聯(lián)網(wǎng)開源操作系統(tǒng)構(gòu)建者，極鏈科技專注于消費(fèi)級(jí)視頻AI技術(shù)研發(fā)和商業(yè)應(yīng)用，聚焦以視頻作為信息和功能核心載體的新互聯(lián)網(wǎng)形態(tài)——視聯(lián)網(wǎng)。以AI技術(shù)賦能視頻中的信息，鏈接互聯(lián)網(wǎng)信息、服務(wù)、購(gòu)物、社交、游戲五大模式，實(shí)現(xiàn)基于視頻的新互聯(lián)網(wǎng)經(jīng)濟(jì)體。極鏈科技自主研發(fā)的VideoAI是視聯(lián)網(wǎng)整個(gè)生態(tài)的底層引擎，VideoOS為視聯(lián)網(wǎng)底層操作系統(tǒng)，是繼PC時(shí)代Linux系統(tǒng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代安卓系統(tǒng)之后的第三大操作系統(tǒng)。以VideoAI、VideoOS為基礎(chǔ)，開發(fā)出廣告、電商等各類視聯(lián)網(wǎng)應(yīng)用。

視聯(lián)網(wǎng)的基礎(chǔ)數(shù)據(jù)即視頻，尤其是消費(fèi)級(jí)視頻。區(qū)別于工業(yè)級(jí)視頻是利用專業(yè)設(shè)備在固定條件、固定場(chǎng)景下拍攝的視頻，如監(jiān)控視頻。消費(fèi)級(jí)視頻是指用戶用手機(jī)等便攜式圖像采集設(shè)備生成的視頻。消費(fèi)級(jí)視頻有三大特點(diǎn)。一，消費(fèi)級(jí)視頻數(shù)據(jù)體量巨大；二，消費(fèi)級(jí)視頻的類別多樣，如電影、綜藝、體育、短視頻等；三，消費(fèi)級(jí)視頻場(chǎng)景復(fù)雜，如場(chǎng)景內(nèi)的特效、切換、淡入淡出和字幕，都會(huì)對(duì)整體或局部產(chǎn)生模糊。以上特點(diǎn)對(duì)視頻識(shí)別算法提出了更高的挑戰(zhàn)。

視頻識(shí)別算法本身有較長(zhǎng)的歷史，然而受到計(jì)算能力的限制，算法各項(xiàng)性能與產(chǎn)品商業(yè)化要求間還存在較大的差距。直到2012年，深度學(xué)習(xí)技術(shù)、大數(shù)據(jù)及GPU算力的結(jié)合極大提升了算法準(zhǔn)確率和運(yùn)算效率，拉低了與產(chǎn)品商業(yè)化要求的差距。

眾所周知，深度學(xué)習(xí)的成功建立在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上�，F(xiàn)有視頻數(shù)據(jù)集從規(guī)模、維度和標(biāo)注方式上都與深度學(xué)習(xí)算法的要求存在很大差距。今年，極鏈科技與復(fù)旦大學(xué)聯(lián)合推出了全新的VideoNet視頻數(shù)據(jù)集，具備規(guī)模大、多維度標(biāo)注、標(biāo)注細(xì)三大特點(diǎn)。

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

第一，規(guī)模大。VideoNet數(shù)據(jù)集包含逾9萬(wàn)段視頻，總時(shí)長(zhǎng)達(dá)4000余小時(shí)。

第二，多維度標(biāo)注。視頻中存在著大量的物體、場(chǎng)景等多維度內(nèi)容信息，這些維度內(nèi)容之間又存在著廣泛的語(yǔ)義聯(lián)系。近年來(lái)涌現(xiàn)出大量針對(duì)物體、場(chǎng)景、人臉等維度的識(shí)別技術(shù)，在各自的目標(biāo)維度上取得了明顯的進(jìn)步。但各視頻識(shí)別算法基本針對(duì)單一維度來(lái)設(shè)計(jì)的，無(wú)法利用各維度之間存在的豐富的語(yǔ)義關(guān)聯(lián)建立模型，提高識(shí)別準(zhǔn)確度。VideoNet數(shù)據(jù)集從事件、物體、場(chǎng)景三個(gè)維度進(jìn)行了聯(lián)合標(biāo)注，為多維度視頻識(shí)別算法研提供支持。

第三，標(biāo)注細(xì)。視頻標(biāo)注工作量非常巨大，當(dāng)前大部分視頻僅針對(duì)整段視頻打標(biāo)簽。而VideoNet數(shù)據(jù)集對(duì)視頻進(jìn)行了事件分類標(biāo)注，并針對(duì)每個(gè)鏡頭的關(guān)鍵幀進(jìn)行了場(chǎng)景和物體兩個(gè)維度的共同標(biāo)注，充分體現(xiàn)了多維度內(nèi)容之間的語(yǔ)義聯(lián)系。

那么，VideoNet數(shù)據(jù)集是如何進(jìn)行標(biāo)注的？首先，對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理，即鏡頭分割，并根據(jù)清晰度對(duì)鏡頭單元進(jìn)行關(guān)鍵幀提取。之后從三個(gè)維度進(jìn)行視頻標(biāo)注，事件維度上對(duì)整個(gè)視頻標(biāo)注類別標(biāo)簽，物體維度上對(duì)鏡頭關(guān)鍵幀標(biāo)注類別和位置框，場(chǎng)景維度上對(duì)鏡頭關(guān)鍵幀標(biāo)注類別標(biāo)簽。目前，VideoNet數(shù)據(jù)集包含353類事件，超過(guò)200類場(chǎng)景和200類物體，總視頻數(shù)達(dá)到9萬(wàn)。其中60％作為訓(xùn)練集，20％作為驗(yàn)證集，20％作為測(cè)試集。

自6月18日「VideoNet視頻內(nèi)容識(shí)別挑戰(zhàn)賽」公布訓(xùn)練和驗(yàn)證數(shù)據(jù)集以來(lái)，截止到8月12日，注冊(cè)報(bào)名的隊(duì)伍已超過(guò)360支，其中參賽隊(duì)伍當(dāng)中有來(lái)自中科院、北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)等頂尖高校隊(duì)伍以及來(lái)自阿里巴巴、京東、華為、騰訊、大華等眾多知名企業(yè)隊(duì)伍。預(yù)計(jì)明年，極鏈科技將會(huì)繼續(xù)增加VideoNet數(shù)據(jù)集的規(guī)模和標(biāo)注維度。

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

消費(fèi)級(jí)視頻的數(shù)據(jù)特點(diǎn)，對(duì)算法系統(tǒng)的處理速度、效率和準(zhǔn)確率提出了較高的要求。消費(fèi)級(jí)視頻算法的總體框架分為五層：1、視頻輸入層進(jìn)行視頻源的管理；2、視頻處理層進(jìn)行鏡頭分割、采樣、增強(qiáng)和去噪等工作；3、內(nèi)容提取層主要分析視頻中內(nèi)容、語(yǔ)義等信息，進(jìn)行目標(biāo)檢測(cè)、跟蹤和識(shí)別等來(lái)檢測(cè)目標(biāo)在視頻中的時(shí)間、空間、位置等維度；4、語(yǔ)義融合層進(jìn)行目標(biāo)軌跡融合、識(shí)別結(jié)果融合、特征表示融合、高層語(yǔ)義融合等；5、在數(shù)據(jù)輸出層，進(jìn)行結(jié)構(gòu)化數(shù)據(jù)管理，方便后續(xù)數(shù)據(jù)檢索與應(yīng)用。

視頻內(nèi)容識(shí)別維度多樣，包括場(chǎng)景、物體、人臉、地標(biāo)、Logo、情緒、動(dòng)作、聲音等。不同維度的算法結(jié)構(gòu)有所區(qū)別。人臉識(shí)別算法結(jié)構(gòu)為：輸入視頻后進(jìn)行鏡頭分割，在進(jìn)行人臉檢測(cè)、跟蹤、人臉對(duì)齊，根據(jù)質(zhì)量評(píng)估過(guò)濾，進(jìn)行特征提取和特征比對(duì)識(shí)別，最后進(jìn)行識(shí)別結(jié)果融合，輸入最終識(shí)別結(jié)果。

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

在場(chǎng)景識(shí)別算法結(jié)構(gòu)中，首先對(duì)輸入視頻進(jìn)行鏡頭分割采樣，有所不同的是只需進(jìn)行時(shí)間間隔分割的采樣，再對(duì)視頻進(jìn)行場(chǎng)景類別的初分類，預(yù)處理之后進(jìn)入卷積神經(jīng)網(wǎng)合階段，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)不同的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，得到不同的特征和描述，將這些特征進(jìn)行融合、降維處理得到特征表示后，對(duì)不同場(chǎng)景如高頻場(chǎng)景、次級(jí)場(chǎng)景和新增場(chǎng)景，進(jìn)行分類處理，最終對(duì)識(shí)別結(jié)果進(jìn)行融合。

在物體、Logo識(shí)別算法結(jié)構(gòu)中，有所不同的是需要多尺度提取特征，跟蹤識(shí)別物體軌跡，并關(guān)注物體類別，對(duì)結(jié)果進(jìn)行優(yōu)化。

在地標(biāo)識(shí)別算法結(jié)構(gòu)中，分為三步，第一，通過(guò)基礎(chǔ)網(wǎng)絡(luò)（VGG，ResNet等）獲得特征圖（一般為最后一層卷積或池化層）；第二，從特征圖中提取特征（例如R－Mac，SPoC，CroW，GeM等）并用ROI Pooling，PCA 白化，L2－歸一化等方式處理，一般最終維度為256，512，1024，或2048；用kNN，MR，DBA，QE，Diffusion等方式將得到的特征對(duì)數(shù)據(jù)庫(kù)內(nèi)的特征進(jìn)行后處理獲得最終特征；訓(xùn)練模型一般損失函數(shù)采用contrastive loss或triplet loss，最終比對(duì)一般采用余弦或歐式距離。

我們自主研發(fā)的算法主要做了以下優(yōu)化：1．對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行多層的特征提�。ǘ痪窒抻谌B接的前一層）并融合，降維等。2．采用CroW算法的核心思想對(duì)特征圖的不同空間點(diǎn)以及channel增加權(quán)重，不同于CroW算法，我們的權(quán)重是通過(guò)端到端方式學(xué)習(xí)所獲得。在2018、2019年Google地標(biāo)識(shí)別挑戰(zhàn)賽中，極鏈科技AI研究院蟬聯(lián)了兩屆全球冠軍。

下面，介紹一下視頻檢索，也就是以圖搜視頻的流程。以圖搜視頻可以分為兩部分，一部分是通過(guò)視頻深度圖像檢索構(gòu)建視頻數(shù)據(jù)庫(kù)，另一部分是用戶檢索時(shí)，輸入圖像到第一部分的視頻庫(kù)中進(jìn)行檢索。

具體來(lái)看，首先通過(guò)視頻下載、視頻數(shù)據(jù)庫(kù)檢索、特征提取、特征排序等生成一個(gè)特征表述數(shù)據(jù)庫(kù)，當(dāng)用戶需求輸入后進(jìn)行特征提取、比對(duì)、排序和結(jié)構(gòu)展示。這是標(biāo)準(zhǔn)的檢索流程。在算法結(jié)構(gòu)方面，用戶輸入后會(huì)經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)和索引得出粗檢索結(jié)果，再通過(guò)細(xì)檢索進(jìn)行排序、查詢，最后輸出鏡頭信息，另外也可以通過(guò)劇目信息進(jìn)行子部檢索減少搜索任務(wù)的壓力，同時(shí)提高算法的準(zhǔn)確率。

極鏈科技張奕：消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用

以圖搜視頻的核心在于我們自研的深度圖像檢索模型VDIR，由視頻任務(wù)調(diào)度系統(tǒng)派發(fā)的視頻分片，經(jīng)過(guò)鏡頭檢測(cè)分割成片段，片段信息經(jīng)過(guò)VDIR會(huì)生成視頻信息庫(kù)、視頻特征庫(kù)以及哈希索引庫(kù)。用戶輸入一張或者多張圖像，同時(shí)可以指定劇目信息，比如古裝劇、玄幻劇等，輸入的圖像經(jīng)過(guò)VDIR算法提取到哈希編碼和特征，首先會(huì)去歷史檢索庫(kù)中查找是否有相似的檢索，如果有直接使用特征即進(jìn)行細(xì)匹配，沒有就會(huì)先通過(guò)哈希編碼到哈希索引庫(kù)中檢索，然后進(jìn)行細(xì)匹配，根據(jù)匹配相似度進(jìn)行排序后，從視頻信息庫(kù)中查詢到視頻片段信息，配合截圖輸出到界面。

深度圖像檢索模型VDIR會(huì)輸出兩部分內(nèi)容，分別是用于快速檢索的哈希編碼以及用來(lái)細(xì)匹配的特征，一個(gè)片段的幾個(gè)幀特征或者相鄰片段的幀特征并不是都需要，因?yàn)槲覀冊(cè)O(shè)計(jì)關(guān)鍵幀篩選邏輯，只保留關(guān)鍵幀特征。

為了將以上算法實(shí)際落地，還需要進(jìn)行工程化的工作。在工程化工作中，需要解決以下幾個(gè)問(wèn)題：1、算法進(jìn)行并行化加速其運(yùn)營(yíng)；2、面對(duì)高并發(fā)狀態(tài)解決分布式系統(tǒng)和多任務(wù)調(diào)度的問(wèn)題；3、對(duì)資源調(diào)度進(jìn)行算法分割與CPU＋GPU配比；4、對(duì)高優(yōu)先級(jí)任務(wù)規(guī)劃處理策略。

最后，向大家介紹一下三個(gè)算法實(shí)際產(chǎn)業(yè)化應(yīng)用的案例。

VideoAI視頻智能識(shí)別和大數(shù)據(jù)運(yùn)營(yíng)系統(tǒng)，實(shí)現(xiàn)視頻輸入、識(shí)別、結(jié)構(gòu)化數(shù)據(jù)管理和多維度檢索全流程技術(shù)。極鏈科技獨(dú)創(chuàng)獨(dú)創(chuàng)全序列采樣識(shí)別，對(duì)視頻內(nèi)的場(chǎng)景、物體、人臉、品牌、表情、動(dòng)作、地標(biāo)、事件8大維度進(jìn)行數(shù)據(jù)結(jié)構(gòu)化，32軌跡流同時(shí)追蹤，通過(guò)復(fù)合推薦算法將內(nèi)容元素信息升級(jí)為情景信息，直接賦能各種視聯(lián)網(wǎng)商業(yè)化場(chǎng)景。

靈悅AI廣告平臺(tái)，通過(guò)VideoAI將全網(wǎng)海量視頻進(jìn)行結(jié)構(gòu)化分析，對(duì)消費(fèi)場(chǎng)景標(biāo)簽化，結(jié)合品牌投放需求，提供智能化投放策略和批量化投放，讓用戶在觀看視頻時(shí)有效獲取相關(guān)品牌信息及購(gòu)買，實(shí)現(xiàn)廣告主精準(zhǔn)投放的營(yíng)銷目的和效果。目前通過(guò)VideoAI技術(shù)的賦能，靈悅AI廣告平臺(tái)已完成2012年至今全網(wǎng)熱門視頻，實(shí)現(xiàn)掃描累計(jì)時(shí)長(zhǎng)達(dá)15，600，000＋分鐘劇目復(fù)合雙向匹配。開發(fā)了965類成熟商業(yè)化可投放情景，服務(wù)300＋百家一線品牌，并與全網(wǎng)頭部流量視頻平臺(tái)簽訂深度投放合作，實(shí)現(xiàn)廣告創(chuàng)新營(yíng)銷的新動(dòng)能。

神眼系統(tǒng)，廣電級(jí)內(nèi)容安全多模AI審核系統(tǒng)，可實(shí)現(xiàn)本地部署的高可用技術(shù)解決方案，提供長(zhǎng)視頻、直播、短視頻的敏感、政治、色情、暴恐審核服務(wù)。產(chǎn)品核心功能包括：智能鑒黃（識(shí)別視頻和圖片中的色情、裸露、性感等畫面）；智能鑒暴（識(shí)別視頻和圖片中的血腥、暴力、槍支等畫面）；政治敏感人物識(shí)別（基于政治人物庫(kù)，識(shí)別視頻和圖片中的國(guó)家領(lǐng)導(dǎo)人物或者落馬官員等）；涉毒／涉政明星識(shí)別（基于明星庫(kù)，結(jié)合黑名單，識(shí)別視頻和圖片中的涉毒、涉政等明星）。

最后，想和大家強(qiáng)調(diào)一下數(shù)據(jù)對(duì)于人工智能發(fā)展的重要性。目前半監(jiān)督、無(wú)監(jiān)督算法還處于研究階段，性能差距較大，我們所用AI算法大多基于監(jiān)督學(xué)習(xí)，因此數(shù)據(jù)的體量和質(zhì)量非常重要。我們要學(xué)會(huì)思考更多問(wèn)題，例如采集數(shù)據(jù)與實(shí)際應(yīng)用間的相關(guān)度，常規(guī)數(shù)據(jù)操作有哪些，如何獲取“高效”的數(shù)據(jù)，如何應(yīng)用數(shù)據(jù)管理工具讓我們更好的管理、應(yīng)用數(shù)據(jù)等等。謝謝大家！