午夜日本一区二区三区 ,暖暖免费视频在线观看,久久免费精品国产72精品

像奇異博士一樣預測未來已成為現(xiàn)實？MIT、百度AI或為你圓夢！

2019-07-05 11:05

算力智庫

關注

作者：Ripple

編輯：生煎

您正在閱讀算力智庫第 388 篇原創(chuàng)作品

算力說

無論是在電影還是小說中，預測未來的能力總是讓人驚嘆。運用AI算法，透過聲音或像素流向對未來進行預測，或將為你打開這扇新世界的大門。

MIT、UC Berkeley強強聯(lián)手，用AI聽出你的姿勢

在今年的CPVR2019論文中，有一篇跨模轉換的文章吸引了算力智庫的注意。這究竟有什么特別之處呢？原來，只需要音頻語音輸入，AI可以預測并生成出相對應的手勢，而所謂的跨模轉換即為聲音到手勢及手臂動作的轉換，讓我們先來看段視頻了解一下。

視頻的左上是標定好的真實數(shù)據(jù)，而右邊的視頻則是基于左下的預測部分進行合成的。通過觀察，我們可以發(fā)現(xiàn)預測數(shù)據(jù)對比真實數(shù)據(jù)的準確度是高度一致的，這種神奇的操作又是基于何種原理呢？

語音預測動作的技術原理大致分為以下四個要素：

1．首先，需要訓練與音頻相對應的姿勢檢測序列（能將指定序列從數(shù)碼流中識別出的方法）。研究人員使用L1回歸到2D關鍵點的序列堆來學習從語音到手勢的映射。

2．其次，使用對抗性鑒別器（防止數(shù)據(jù)訓練時源標簽信息丟失以及結果多樣性不足的鑒別器）來避免回歸到所有可能姿勢的平均值，以確保預測動作的可信度。

3．進而，運用卷積音頻編碼器（用以音頻糾錯的編碼器）對2D圖像進行采樣并轉換為1D信號。

4．最后使用Unet轉換架構（用已轉換的1D信號重建2D圖像的轉換架構）。而bottleneck作為構建Unet轉換架構的三大組成之一，為完全卷積網(wǎng)絡（由卷積音頻編碼器及Unet轉換架構組成）提供了過去和未來時間的上下文。而這一步即為預測速度的關鍵。

語音預測手勢的模型（圖片來源：CPVR2019）

在了解了相關技術之后，讓我們來感受一下這個神奇的視頻。

動畫角色創(chuàng)建或成為最先應用

說話者的手勢是獨特的，對一個人進行訓練并預測另一個人的手勢并不起效。這些個人特定手勢往往帶有自己的風格，無論是睜大眼睛又或是手舞足蹈。比如下面這兩位。

而無論你的動作細微還是夸張，都逃不過AI的“法耳”。

研究團隊表示，他們的下一步是不僅根據(jù)聲音，還根據(jù)文字稿來預測手勢。該研究潛在的應用包括創(chuàng)建動畫角色、動作自如的機器人，或者識別假視頻中人的動作。

東京工大建立FuturePose系統(tǒng)，提前看穿你的下一步

東京工業(yè)大學的研究團隊于今年在IEEE上發(fā)布了一套名為FuturePose格斗訓練系統(tǒng)。這套系統(tǒng)可以幫助實驗者預測對手未來0．5秒后的動作。讓我們先看兩個有趣的動圖來了解一下。

研究人員通過RGB像素流向，運用機器學習來定位關節(jié)，進而根據(jù)關節(jié)擺動方向來預測對手未來的動作。

實驗時，系統(tǒng)預測的3D影像和現(xiàn)實影像同時顯示在實驗者所佩戴的VR設備中。結果顯示，使用FuturePose的成員做出回避動作的平均反應時間在0．42秒，而未使用的成員需0．62秒的反應時間。

FuturePose 的技術原理大致分為以下三個要素：

1．首先，基于殘差網(wǎng)絡（增加深度且能提高性能的網(wǎng)絡）來分析RGB相機中所捕獲的圖像，以推測對象2D關節(jié)的位置。

2．其次，將該位置輸入至長短期記憶網(wǎng)絡（處理和預測時序數(shù)據(jù)的模型）用以學習時序特征，從而預測未來的2D位置。

3．為了得到更精準的結果以及降低計算成本，研究團隊采用了晶格光流法（將向量網(wǎng)格化用以描述物體移動的方法）。最后將2D位置可視化，構建成3D骨架模型。

FuturePose的技術原理（圖片來源：IEEE）

競技體育或成為最先應用

雖然只有短短的0．5秒，但是對于專業(yè)的拳擊選手來說，已經(jīng)算的上取勝的關鍵了。出拳，閃躲，回擊，一切都能在0．5秒內完成。東京工業(yè)大學制作 FuturePose 的初衷是為了格斗訓練，但他們也希望通過不斷完善這項技術，讓 FuturePose 可以應用于其他競技體育或娛樂項目中。

如守門員撲球時的提前預判。

如對舞蹈動作的預判。

百度AI在預測未來中的實際應用

縱觀國內行業(yè)在“預測未來”上的發(fā)展主要集中在自動駕駛方面。例如，通過行人道路預測在自動駕駛中規(guī)避潛在風險。運用跟蹤數(shù)據(jù)學習行人動力學則成了國內一些如百度、奇點汽車自動駕駛領域公司的主要手段。除此之外，對駕駛車道錯誤、闖紅燈、車相撞和撞靜態(tài)物體等方面的預測也同樣能夠幫助車輛提前感知風險、判斷決策、進而規(guī)避危險事件。

百度AI的兩大殺手級武器

Road Hackers自動駕駛平臺

Road Hackers是世界上首個在真實道路上可以實現(xiàn)端到端模式的高級自動駕駛模型，并已具備提供海量中國路情駕駛數(shù)據(jù)開放，基于深度學習的自動駕駛算法演示，可有效提高對路況、行人、危險環(huán)境預測的準確度。

BCU－百度自動駕駛專用計算平臺

BCU （Baidu Computing Unit）是國內目前第一個可量產的自動駕駛計算平臺，目前具有信息安全和云端更新兩大基礎能力，以及高精定位、環(huán)境感知、規(guī)劃決策的AI核心模塊。其中MLOP（高精定位＋環(huán)境感知）、MLOP2（高精定位＋環(huán)境感知＋規(guī)劃決策）

日前，北京市自動駕駛測試管理聯(lián)席小組發(fā)布首批T4級別自動駕駛測試牌照，百度成為中國第一家、也是唯一獲得此級別牌照的企業(yè)。