草莓视频app污下下载,精品综合久久久久97,欧美精品熟妇乱

Figure 01視頻被質(zhì)疑“注水”？看看創(chuàng)始人怎么說(shuō)！

2024-03-15 17:09

引言

2023年3月，一家僅創(chuàng)立幾個(gè)月的機(jī)器人公司號(hào)稱要推出“世界上第一個(gè)商業(yè)上可行的通用人形機(jī)器人”，并放出了幾張PPT。

接下來(lái)的一年中，這家名為Figure的公司經(jīng)歷了——被質(zhì)疑“碰瓷波士頓動(dòng)力”——?jiǎng)?chuàng)紀(jì)錄地邁出人形機(jī)器人“動(dòng)態(tài)雙足行走”第一步——半個(gè)硅谷科技圈下注，融資高達(dá)6．75 億美元，估值猛漲至26億美元。

本周三，僅在B輪融資完成后的13天，這位“當(dāng)紅炸子雞”放出了Figure 01的最新視頻。

雖然只用到了一個(gè)“端到端”神經(jīng)網(wǎng)絡(luò)，但Figure 01卻可以在你想要食物時(shí)，貼心地遞上蘋(píng)果而不是盤(pán)子；還能一邊回答你的問(wèn)題，一邊對(duì)物品進(jìn)行分類——將垃圾收拾進(jìn)框子里、將杯子和盤(pán)子歸置放在瀝水架上。而且！它甚至能回答你餐具瀝干水分的大致時(shí)間。

有人說(shuō)，F(xiàn)igure只用了1年時(shí)間，就走完了波士頓動(dòng)力20多年的路。于是，壓力給到了波士頓動(dòng)力，讓我們回到實(shí)驗(yàn)室，再扒一些女團(tuán)舞吧（bushi）。

話說(shuō)回來(lái)，F(xiàn)igure 01的最新視頻有沒(méi)有一絲絲“注水”的可能性？難道傳說(shuō)中“世界上第一個(gè)具身智能”機(jī)器人真的來(lái)了？！

Figure創(chuàng)始人Brett Adcock特意在X上強(qiáng)調(diào)，視頻是以1．0倍速度拍攝并連續(xù)拍攝的，機(jī)器人是在完全自主的情況下進(jìn)行的行為，沒(méi)有遠(yuǎn)程操作。

言外之意就是“無(wú)剪輯，無(wú)加速，一鏡到底”。

然而，適道和一些相關(guān)領(lǐng)域投資人交流時(shí)，獲得了另一條思路：有沒(méi)有一種可能——Figure 01的完美表現(xiàn)是“試”出來(lái)的。

例如在測(cè)試階段，當(dāng)你說(shuō)“我餓了”并指向“蘋(píng)果和碗”，F(xiàn)igure 01會(huì)遞給你碗；當(dāng)你指著“梨子和盤(pán)子”，F(xiàn)igure 01會(huì)遞給你盤(pán)子�？赡茉嚵艘淮笸ê螅贸雒鎸�(duì)“蘋(píng)果和盤(pán)子”組合，F(xiàn)igure 01的表現(xiàn)是最好的。

但在適道看來(lái)，與其說(shuō)這是“注水”，不如說(shuō)這正是Figure神速進(jìn)化的技術(shù)秘籍——“端到端”技術(shù)黑盒。

01 Figure進(jìn)步神速的秘籍——“端到端”神經(jīng)網(wǎng)絡(luò)

根據(jù)Brett Adcock的說(shuō)法，F(xiàn)igure 01主要通過(guò)“端到端”神經(jīng)網(wǎng)絡(luò)來(lái)與人類進(jìn)行對(duì)話。大致流程為：OpenAI的LLM提供“大腦”——視覺(jué)推理和語(yǔ)言理解；Figure神經(jīng)網(wǎng)絡(luò)提供“小腦”——做出一系列快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

Figure機(jī)器人操作高級(jí)AI工程師Corey Lynch進(jìn)一步解釋：“這些神經(jīng)網(wǎng)絡(luò)以每秒 10 幀的速率接收機(jī)器人內(nèi)置圖像，并能生成每秒200次的24自由度動(dòng)作（包括腕部姿勢(shì)和手指關(guān)節(jié)角度）”

何為“端到端”？

“端到端”（End－to－End）是深度學(xué)習(xí)中的概念，指一個(gè)AI模型，只要輸入原始數(shù)據(jù)，就能輸出最終結(jié)果，有點(diǎn)像馬斯克遵循的“第一性原理”。

舉個(gè)簡(jiǎn)單的例子，兩個(gè)同齡小孩，一個(gè)生活在城市，一個(gè)從小長(zhǎng)在河邊。城市小孩想學(xué)游泳，需要找教練，進(jìn)行一系列抱水、換氣、劃水、蹬腿的分解動(dòng)作，才能系統(tǒng)性地掌握蛙泳技能；而在河邊長(zhǎng)大的小孩，看了大人們游泳的姿勢(shì)，就去下河摸索，經(jīng)歷了嗆水、訓(xùn)練、強(qiáng)化，也學(xué)會(huì)了游泳，而且游得像魚(yú)一樣?jì)故臁?/p>

如果你要問(wèn)這個(gè)小孩經(jīng)歷了哪些針對(duì)性訓(xùn)練，都有什么訓(xùn)練模塊，他一定答不出所以然。但從結(jié)果來(lái)講，他不僅泳技超群，甚至學(xué)習(xí)時(shí)間還可能更少。

“端到端”的原理跟這個(gè)例子有點(diǎn)類似。

例如，想讓機(jī)器人變成“咖啡師”，如果通過(guò)傳統(tǒng)編程，雖然看起來(lái)“透明”“可解釋”，但代碼非常復(fù)雜，靈活性也很差。

而Figure 01的卓越表現(xiàn)證明了，通過(guò)這種“不可解釋”的“端到端”神經(jīng)網(wǎng)絡(luò)（輸入視頻、輸出行動(dòng)軌跡），機(jī)器人能夠在數(shù)小時(shí)訓(xùn)練后就能get新技能。

在1月5日的視頻，F(xiàn)igure 01展示了自己出色的“學(xué)霸”能力，只需觀看10小時(shí)的人類煮咖啡錄像，就能學(xué)會(huì)人類的動(dòng)作和手勢(shì)，并通過(guò)模仿這些動(dòng)作，成為一名real咖啡師。

而“端到端”也正在成為機(jī)器人訓(xùn)練的主流路子。例如，1X EVE 、Digit同樣是通過(guò)“端到端”學(xué)習(xí)新技能。

由此不難得出，雖然目前Figure 01展示的只是做咖啡、物品分類，但理論上，只要獲取到人類的數(shù)據(jù)，進(jìn)行“端到端”地訓(xùn)練，它就能掌握更多技能。

我們?cè)倩氐奖弧百|(zhì)疑”的“蘋(píng)果和盤(pán)子組合”——即便Figure 01的完美表現(xiàn)是“試出來(lái)”的，但隨著“端到端”訓(xùn)練量加大，“試錯(cuò)”會(huì)越來(lái)越少，成功率越來(lái)越高，最終Figure 01或許真能輕松拿捏家務(wù)，說(shuō)不定還會(huì)在你喊餓時(shí)包出一頓餃子。

這一切正如創(chuàng)始人Brett Adcock所言：機(jī)器人就像我的孩子們一樣，在他們學(xué)習(xí)做某件事的過(guò)程中，盡管可能失敗了很多次，但他們一旦掌握了就不會(huì)忘記，然后他們會(huì)不斷積累新的技能。

02 創(chuàng)始人：人形機(jī)器人成本會(huì)低于一臺(tái)廉價(jià)電動(dòng)汽車

Figure的創(chuàng)始人Brett Adcock年僅38歲，但Figure已經(jīng)是他創(chuàng)立的第三家科技公司。在去年10月的一次訪談中，Brett 分享了 Figure 01的設(shè)計(jì)過(guò)程，以及他對(duì)于通用人形機(jī)器人領(lǐng)域的預(yù)測(cè)。

Brett 認(rèn)為人形機(jī)器人研發(fā)一定是軟硬件一體的過(guò)程，LLM 為機(jī)器人提供了強(qiáng)大的大腦，是軟件層面的重要補(bǔ)足，而硬件角度，幾乎沒(méi)有成熟的供應(yīng)鏈可供使用，因此，Brett要求團(tuán)隊(duì)在設(shè)計(jì)產(chǎn)品的同時(shí)就要考慮到機(jī)器人重量、計(jì)算處理、現(xiàn)實(shí)環(huán)境等細(xì)節(jié)。

適道也對(duì)訪談進(jìn)行了原文編譯和節(jié)選，請(qǐng)配合食用。

1、簡(jiǎn)單介紹一下 Figure，你們的使命和目標(biāo)是什么？

Brett：Figure 是一家 AI機(jī)器人公司，專注于設(shè)計(jì)自動(dòng)通用人形機(jī)器人（Autonomous General－purpose Humanoids）。自動(dòng)通用人形機(jī)器人是指具備自主能力，能夠自動(dòng)執(zhí)行多種任務(wù)，并且在外觀和行為上類似于人類的機(jī)器人。我們的目標(biāo)是在長(zhǎng)期能夠部署和人類數(shù)量一樣多的人形機(jī)器人，讓體力勞動(dòng)成為一種選擇而非必然。

我們的遠(yuǎn)期計(jì)劃是在全球部署 100 億個(gè)人形機(jī)器人。未來(lái) 1－2 年內(nèi)，我們的重點(diǎn)將放在開(kāi)發(fā)具有里程碑意義的產(chǎn)品上，希望在未來(lái)一兩年內(nèi)，能向公眾展示大量人形機(jī)器人產(chǎn)品的研發(fā)成果，包括 AI 系統(tǒng)、低級(jí)控制（Low－Level Control）等，最終展示能在日常生活中發(fā)揮作用的機(jī)器人。

2、如果能成功降低制造成本、提高生產(chǎn)量，一個(gè)功能完善的人形機(jī)器人制作成本能降低多少？

Brett：如果我們回顧消費(fèi)品或汽車行業(yè)的發(fā)展歷史時(shí)，可以看到產(chǎn)品的價(jià)格與生產(chǎn)量之間存在強(qiáng)相關(guān)。根據(jù)經(jīng)驗(yàn)曲線（Experience Curve），每當(dāng)生產(chǎn)數(shù)量翻倍，產(chǎn)品的價(jià)格或成本就可能下降 20％或 30％。因此，我們可以認(rèn)為價(jià)格取決于生產(chǎn)量。

這個(gè)原理同樣適用于人形機(jī)器人的生產(chǎn)。目前，一個(gè)人形機(jī)器人大約有 1000 個(gè)零件，重量約為 150 磅（68 公斤）。相比之下，一個(gè)電動(dòng)汽車可能有大約 1 萬(wàn)個(gè)零件，重量可能在 4000－5000 磅（1800－2250 公斤）之間。

從長(zhǎng)期來(lái)看，一個(gè)人形機(jī)器人的成本應(yīng)該低于一臺(tái)廉價(jià)電動(dòng)汽車。這主要取決于機(jī)器人的執(zhí)行器、電機(jī)組件、傳感器的成本以及計(jì)算成本。

3、你們打算訓(xùn)自己的模型，還是集成其他模型？

Brett：要讓人形機(jī)器人從工廠走進(jìn)家庭，關(guān)鍵在于語(yǔ)言，所以 LLM 或視覺(jué)語(yǔ)言模型對(duì)我們的業(yè)務(wù)幫助很大。我們要讓機(jī)器人能夠從語(yǔ)義層面理解世界，做到理解和回應(yīng)用戶的需求和指令，恰好 LLM 可以做到這點(diǎn)。

因此，我們會(huì)逐步將視覺(jué)語(yǔ)言模型加入機(jī)器人的研發(fā)過(guò)程，從高層次的行為角度來(lái)幫助人形機(jī)器人理解人類在說(shuō)什么，讓它能與人類進(jìn)行對(duì)話，同時(shí)推斷和理解人們?cè)谡f(shuō)什么以做出回應(yīng)。

我們很可能不會(huì)自己訓(xùn)模型，但我們可以在機(jī)器人系統(tǒng)上訓(xùn)練視覺(jué)語(yǔ)言模型，關(guān)聯(lián)傳感器數(shù)據(jù)。

打造一個(gè)正確的 AI 數(shù)據(jù)引擎對(duì)我們來(lái)說(shuō)非常重要，它能確保我們對(duì)機(jī)器人產(chǎn)生的數(shù)據(jù)進(jìn)行準(zhǔn)確的訓(xùn)練，對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行正確的訓(xùn)練，以便未來(lái)能夠有效地部署和使用。這也是驅(qū)動(dòng)我們盡快讓產(chǎn)品進(jìn)入市場(chǎng)的動(dòng)力，我們希望將更多的機(jī)器人投放市場(chǎng)，收集數(shù)據(jù)，從而讓我們未來(lái)的機(jī)器人隊(duì)伍將變得更加智能、學(xué)會(huì)更多技能。

4、為什么需要軟硬件一體開(kāi)發(fā)？

Brett：如果算上做控制系統(tǒng)（control）、中間件（middleware）和自主決策與行動(dòng)能力（autonomy）的人，我們的軟件占比會(huì)比硬件稍微多一些，因?yàn)橛布䦂F(tuán)隊(duì)的員工只有 15 個(gè)左右，軟件規(guī)模要明顯大一些。

長(zhǎng)遠(yuǎn)來(lái)看，軟件會(huì)成為公司最大的業(yè)務(wù)板塊。Figure 作為一家專注于 AI 的公司，以后會(huì)有一個(gè)龐大的 autonomy 團(tuán)隊(duì)，并且研發(fā)出關(guān)鍵的 AI 數(shù)據(jù)引擎。

但硬件方面也同樣重要。如果我們真的想做出實(shí)現(xiàn)高性能、高可靠性、高安全性和低成本的人形機(jī)器人，就需要開(kāi)發(fā)自己的執(zhí)行器、電子設(shè)備、電池和幾乎所有軟件，因?yàn)檫@些都沒(méi)有現(xiàn)成的解決方案。

長(zhǎng)時(shí)間從事軟件開(kāi)發(fā)再進(jìn)入硬件領(lǐng)域是真的很困難，研發(fā)硬件需要經(jīng)過(guò)一個(gè)漫長(zhǎng)的迭代周期，這也是我們受挫的主要因素。

5、人形機(jī)器人的潛在大市場(chǎng)在哪里？何時(shí)出現(xiàn)？

Brett：我們計(jì)劃先在未來(lái)十幾年內(nèi)持續(xù)擴(kuò)大在商業(yè)勞動(dòng)力市場(chǎng)的規(guī)模。我們關(guān)注的領(lǐng)域包括醫(yī)療保健、房地產(chǎn)、建筑和零售等，我相信這些領(lǐng)域都有巨大的市場(chǎng)潛力。

另外，還有一些市場(chǎng)尚未應(yīng)用人形機(jī)器人，比如房地產(chǎn)�？萍挤康禺a(chǎn)公司開(kāi)發(fā)的在線平臺(tái)可以使用人形機(jī)器人來(lái)代替人類經(jīng)紀(jì)人提供服務(wù)。人們可以通過(guò)訪問(wèn)網(wǎng)站預(yù)約看房，然后由人形機(jī)器人打開(kāi)門(mén)迎接他們，在一個(gè)虛擬的房屋中全程介紹。這是一個(gè)價(jià)值數(shù)萬(wàn)億美元的市場(chǎng)，但科技公司迄今為止還未涉足，因?yàn)槟壳胺康禺a(chǎn)領(lǐng)域的工作仍然過(guò)于依賴人力。

此外，還有許多行業(yè)的工作可以通過(guò)遠(yuǎn)程操作或其他技術(shù)來(lái)完成，人形機(jī)器人可以為這些行業(yè)帶來(lái)新的發(fā)展機(jī)會(huì)。

6、人形機(jī)器人會(huì)讓人們失去工作嗎？

Brett：我的觀點(diǎn)是在接下來(lái)的 10－20 年里，機(jī)器人業(yè)務(wù)的發(fā)展將與自動(dòng)駕駛汽車的發(fā)展路徑類似。就像自動(dòng)駕駛汽車，高速公路的測(cè)試視頻會(huì)比城市街道的更早公開(kāi)，是因?yàn)槌鞘薪值烙懈叩陌踩蠛透嗟牟淮_定性。

同樣，人形機(jī)器人也會(huì)首先解決相對(duì)容易的問(wèn)題，比如在預(yù)知環(huán)境和任務(wù)的情況下搬運(yùn)貨物。這類任務(wù)就像在高速公路上駕駛，相對(duì)簡(jiǎn)單易行。然而，更復(fù)雜的任務(wù)，例如在家中烹飪或照顧老年人，就像在城市街道上駕駛，更具挑戰(zhàn)性。

盡管大家對(duì)人形機(jī)器人的期望往往集中在復(fù)雜任務(wù)的解決上，比如谷歌的機(jī)器人做垃圾分類，豐田研究院在雜貨店等場(chǎng)景的研究，但這些都是非常困難的挑戰(zhàn)。

我很高興有這些研究，但從商業(yè)角度出發(fā)，我們的首要任務(wù)應(yīng)該是解決那些簡(jiǎn)單但必要的問(wèn)題，然后逐漸將 AI 數(shù)據(jù)引擎應(yīng)用到更復(fù)雜的任務(wù)中。

所以，F(xiàn)igure 和其他研究團(tuán)隊(duì)關(guān)注的事情恰恰相反。我們的目標(biāo)是在倉(cāng)儲(chǔ)制造領(lǐng)域應(yīng)用人形機(jī)器人，這個(gè)領(lǐng)域的勞動(dòng)力短缺問(wèn)題最為嚴(yán)重。全球約一半的 GDP 來(lái)自勞動(dòng)力，我們正在面對(duì)全球范圍內(nèi)的勞動(dòng)力短缺問(wèn)題。隨著嬰兒潮一代的退休和生育率的下降，這個(gè)問(wèn)題將越來(lái)越嚴(yán)重。

原文標(biāo)題： Figure 01視頻被質(zhì)疑“注水”？看看創(chuàng)始人怎么說(shuō)