訂閱
糾錯(cuò)
加入自媒體

人形機(jī)器人的理想與現(xiàn)實(shí)

2024-07-11 09:00
腦極體
關(guān)注

李開(kāi)復(fù)曾提到過(guò)一個(gè)AI界流傳的“騙子又來(lái)了曲線”。 人會(huì)不斷給機(jī)器進(jìn)行“是否具有人類(lèi)智能”的鑒定,而這個(gè)過(guò)程,總是從被人工智能在某些領(lǐng)域的驚艷表現(xiàn)震撼,到逐漸認(rèn)識(shí)到當(dāng)時(shí)的人工智能還有各種局限,以至于產(chǎn)生巨大心理落差。

近來(lái),人形具身智能機(jī)器人在WAIC世界人工智能大會(huì)上密集亮相,我們?cè)诂F(xiàn)場(chǎng)所感受到的就是“人類(lèi)要?dú)缌?rdquo;與“騙子又來(lái)了”,兩種聲音同時(shí)存在的復(fù)雜現(xiàn)象。

圖片

具體來(lái)說(shuō),認(rèn)為“人類(lèi)要?dú)缌?rdquo;,大多是不明覺(jué)厲的普通觀眾,而冷靜甚至不看好人形機(jī)器人的多為AI、機(jī)器人領(lǐng)域的業(yè)內(nèi)人士。

比如獵豹移動(dòng)董事長(zhǎng)兼CEO、獵戶星空董事長(zhǎng)傅盛就表示,“機(jī)器人在今年的展廳里是爆發(fā)了,但在日常生活當(dāng)中,我們并沒(méi)有看到它在哪個(gè)地方被大規(guī)模用起來(lái)。機(jī)器人行業(yè)的產(chǎn)業(yè)爆發(fā)還遠(yuǎn)遠(yuǎn)沒(méi)有到來(lái)……對(duì)人形機(jī)器人的不看好一定會(huì)被時(shí)間證明”。

這兩種心態(tài),究竟哪一種才代表人形機(jī)器人產(chǎn)業(yè)的真相呢?

其實(shí)并沒(méi)有什么真相。不同的心態(tài),是由不同的判定標(biāo)準(zhǔn)而產(chǎn)生的。大眾、從業(yè)者和技術(shù)專(zhuān)家,都有一張“我心中的人形機(jī)器人”打分表,評(píng)價(jià)尺度各不相同。

而關(guān)于人形機(jī)器人的期待,在人形、大模型、具身三個(gè)標(biāo)準(zhǔn)上,大眾的預(yù)期、媒體的宣傳、產(chǎn)業(yè)的實(shí)際進(jìn)展等都有比較大的分野。這構(gòu)成了當(dāng)前,人形機(jī)器人的理想與現(xiàn)實(shí)。

“變形金剛”的理想與現(xiàn)實(shí)

“他們?cè)趺床粍?dòng)啊,不表演有什么必要插電源?”

“插電亮著好看。”

本屆WAIC最吸睛的,就是中央展廳的“十八金剛”了。18個(gè)人形機(jī)器人同臺(tái)而立,幾乎每個(gè)參觀者都聚集在展臺(tái)前打卡拍照,在展臺(tái)旁邊,我聽(tīng)到了這段對(duì)話。

大眾理想中,人形機(jī)器人就是變形金剛、機(jī)甲戰(zhàn)士那樣,走路又穩(wěn)又快,行動(dòng)靈活,隨意移動(dòng),無(wú)論是工廠上班、護(hù)理老人還是投遞包裹,都手拿把掐。

圖片

但產(chǎn)業(yè)現(xiàn)實(shí)中,WAIC上的人形機(jī)器人大多數(shù)時(shí)間都待在展臺(tái)上,在特定時(shí)間表演一些拿蘋(píng)果、端杯子之類(lèi)的手部動(dòng)作,特斯拉的機(jī)器人甚至始終待在玻璃展柜中一動(dòng)不動(dòng)。和全場(chǎng)溜達(dá)的機(jī)器狗相比,人形機(jī)器人顯得“內(nèi)向”很多。

由此可見(jiàn),到底需不需要“雙足行走”,成了目前公眾和從業(yè)者對(duì)人形機(jī)器人,最大的認(rèn)知差異。

總的來(lái)說(shuō),雙足人形機(jī)器人是“機(jī)器人的皇冠”,是終極方向,才是大眾期待的“變形金剛”。

但至少要走過(guò)三步:雙足行走、執(zhí)行復(fù)雜任務(wù)、規(guī)模商用。

而目前,僅僅是第一步“雙足行走”,在技術(shù)和商業(yè)上都并不是最佳狀態(tài)。

一方面,穩(wěn)定的行走,需要系統(tǒng)擁有極高的魯棒性。

機(jī)器人在面臨各種異常情況和輸入時(shí),仍然能快速通過(guò)運(yùn)動(dòng)控制模塊調(diào)整姿態(tài),保持正常運(yùn)行。

要提升系統(tǒng)的魯棒性(或者說(shuō)穩(wěn)健性),依賴(lài)于機(jī)器人與人類(lèi)、物理世界的真實(shí)交互,來(lái)積累高質(zhì)量數(shù)據(jù)。如果遇到訓(xùn)練環(huán)境中沒(méi)有出現(xiàn)過(guò)的問(wèn)題,機(jī)器人就可能出現(xiàn)異常或“死機(jī)”,系統(tǒng)研發(fā)效率是比較低的。

圖片

另外,商業(yè)上“雙足行走”也并不是剛需。

比如特斯拉、Figure等都宣布要讓人形機(jī)器人“進(jìn)廠打工”,從事電池分揀等工作。但實(shí)際上,制造環(huán)節(jié)80%以上生產(chǎn)作業(yè)動(dòng)作,其實(shí)很少用到下肢,用到軀干,主要是靠手來(lái)完成的。這種上肢為主的簡(jiǎn)單系統(tǒng),可以減少控制難度,降低投入成本,并且更容易規(guī)模化量產(chǎn),因?yàn)橹恍枰獙⒆钪匾囊徊糠止δ埽ㄊ植浚┻M(jìn)行復(fù)制。一旦加上四肢、軀干,控制難度、續(xù)航、成本都會(huì)大幅提升。

所以,目前能夠規(guī)模化應(yīng)用的機(jī)器人形態(tài),都是以機(jī)器狗、機(jī)械手等單一、極簡(jiǎn)形態(tài)。滿足大眾期待的“變形金剛”,要在邁過(guò)很多步之后,才能帶來(lái)極大產(chǎn)業(yè)效應(yīng)。

幾年之內(nèi),我們應(yīng)該都會(huì)更常在展臺(tái)和展柜中看見(jiàn)人形機(jī)器人,而非零距離互動(dòng)。

大模型的理想與現(xiàn)實(shí)

“現(xiàn)場(chǎng)機(jī)器人好多,我都感覺(jué)主題有點(diǎn)跑偏了”,一位計(jì)算領(lǐng)域的從業(yè)者對(duì)我說(shuō)道。

智能機(jī)器人在人工智能大會(huì)上遍地開(kāi)花,根本邏輯是——大模型為具身智能開(kāi)啟了新的解決方案的大門(mén)

傳統(tǒng)的人工智能系統(tǒng),受限于缺乏先驗(yàn)知識(shí),理解力與泛化能力捉襟見(jiàn)肘,導(dǎo)致機(jī)器人難以像人類(lèi)一樣擁有基本的常識(shí)判斷能力,這嚴(yán)重制約了高級(jí)別具身智能的發(fā)展。機(jī)器人執(zhí)行任務(wù)時(shí),往往需要人類(lèi)工程師將復(fù)雜指令拆解為一系列簡(jiǎn)化的、程序化的步驟,再由機(jī)器人(如機(jī)械臂)逐一執(zhí)行。顯然,這種“智能水平”并不算很高,還需要人來(lái)做大量的代碼和開(kāi)發(fā)工作。

圖片

理想中,大模型會(huì)為人形機(jī)器人的“智能水平”,帶來(lái)顛覆性的變革。

大模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法,擁有更加強(qiáng)大的泛化能力,可以為人形機(jī)器人的大量任務(wù),比如復(fù)雜任務(wù)解析、流暢連續(xù)對(duì)話、零樣本推理等,提供全新的解決方案。

舉個(gè)例子,告訴人形機(jī)器人“我餓了”,它會(huì)自動(dòng)分析這句話背后的需求,并拆解為可執(zhí)行的具體動(dòng)作,通過(guò)觀察物理環(huán)境,從冰箱里拿出一個(gè)蘋(píng)果給你吃,不需要人來(lái)拆分指令。

但現(xiàn)實(shí)中,大模型給人形機(jī)器人帶來(lái)的變革,仍然停留在初級(jí)的“自然語(yǔ)言交互”。

目前絕大多數(shù)人形機(jī)器人,更多是擁有了類(lèi)ChatGPT的“嘴”。這種結(jié)合,雖然能提供更自然生動(dòng)的交互體驗(yàn),但只是將現(xiàn)有的語(yǔ)音交互進(jìn)行了升級(jí),并非“端到端”任務(wù)執(zhí)行能力的顛覆式突破。

圖片

無(wú)需人工參與的高度自動(dòng)化,為什么有了大模型也沒(méi)能快速實(shí)現(xiàn)呢?

究其根本,機(jī)器人是一個(gè)非常復(fù)雜的學(xué)科,涉及精密機(jī)械、自動(dòng)控制、電氣電子、計(jì)算科學(xué),最后呈現(xiàn)出一個(gè)非常復(fù)雜智能機(jī)電一體化系統(tǒng)。

從有監(jiān)督機(jī)器學(xué)習(xí)到大語(yǔ)言模型,是計(jì)算領(lǐng)域的技術(shù)突破,可以在交互、規(guī)劃、決策等環(huán)節(jié)發(fā)揮作用。然而,從機(jī)械化到高度自動(dòng)化,人形機(jī)器人的再進(jìn)化,還需要感知技術(shù)、驅(qū)動(dòng)與傳動(dòng)技術(shù)、萬(wàn)兆網(wǎng)絡(luò)等的技術(shù)和資源支持。

國(guó)產(chǎn)機(jī)器人崛起的理想與現(xiàn)實(shí)

“美國(guó)公司負(fù)責(zé)忽悠概念,中國(guó)公司負(fù)責(zé)讓機(jī)器人落地、商用,把價(jià)格打下來(lái),讓人人實(shí)現(xiàn)機(jī)器人自由。”

此次WAIC大會(huì),國(guó)產(chǎn)人形機(jī)器人的表現(xiàn)確實(shí)要比海外公司亮眼很多。無(wú)論是特斯拉、谷歌,在機(jī)器人的展示上都堪稱(chēng)乏味。而國(guó)產(chǎn)人形機(jī)器人不僅批量化、大規(guī)模出現(xiàn),而且展現(xiàn)出了在很多具體場(chǎng)景中的商用能力,比如做飯機(jī)器人、電信機(jī)器人、家政陪伴機(jī)器人等。

圖片

那么,這是不是意味著國(guó)產(chǎn)人形機(jī)器人廠商會(huì)很快崛起呢?

我們當(dāng)然希望這一天能盡快實(shí)現(xiàn),但目前來(lái)看現(xiàn)實(shí)還有不確定性。

數(shù)據(jù)層面,特斯拉、谷歌等科技巨頭,在自動(dòng)駕駛領(lǐng)域有多年積累,可以將足夠多的空間數(shù)據(jù)喂給模型,解決人形機(jī)器人在復(fù)雜空間中的學(xué)習(xí)問(wèn)題,從而更好地進(jìn)行迭代學(xué)習(xí)。而在WAIC現(xiàn)場(chǎng),我們看到的大多數(shù)國(guó)產(chǎn)人形機(jī)器人廠商的業(yè)務(wù)面還比較孤立,百度、商湯等數(shù)據(jù)積累面廣的AI公司,則更多聚焦在汽車(chē)形態(tài)的智能機(jī)器人。這意味著,解決人形機(jī)器人的數(shù)據(jù)問(wèn)題,還有賴(lài)于產(chǎn)生生態(tài)化、產(chǎn)業(yè)化、多方共建的解決方案。

算法層面,類(lèi)GPT-4o能力的國(guó)產(chǎn)多模態(tài)大模型還比較稀缺,這使得人形機(jī)器人通過(guò)視覺(jué)、音頻等多維度數(shù)據(jù)來(lái)識(shí)別地圖和復(fù)雜場(chǎng)景的能力,大大受到限制。目前,海外產(chǎn)學(xué)界已經(jīng)在多模態(tài)大模型上系統(tǒng)性發(fā)力。比如OpenAI基于GPT-4o為Figure 01構(gòu)建了一個(gè)具身智能AI模型,谷歌推出了多模態(tài)具身視覺(jué)語(yǔ)言模型PaLM-E。加州大學(xué)伯克利分校推出了LM Nav,來(lái)實(shí)現(xiàn)硬件本體、運(yùn)動(dòng)小腦、決策大腦三部分逐漸融合。目前來(lái)看,國(guó)產(chǎn)基礎(chǔ)大模型還有一段路要追趕。

圖片

發(fā)展國(guó)產(chǎn)人形機(jī)器人產(chǎn)業(yè),是一條難而正確的路。在這條路上,我們既不希望“騙子又來(lái)了”,也不希望“人類(lèi)被毀滅了”。歷史告訴我們,技術(shù)發(fā)展過(guò)程中一定會(huì)經(jīng)歷上升、頂峰、陷入低谷、攀升、穩(wěn)定5個(gè)階段。

人形機(jī)器人產(chǎn)業(yè)要避免跌入低谷,持續(xù)發(fā)展,就要在理想與現(xiàn)實(shí)中,不斷校正自己的坐標(biāo),在每一個(gè)發(fā)展階段兌現(xiàn)實(shí)用價(jià)值。

       原文標(biāo)題 : 人形機(jī)器人的理想與現(xiàn)實(shí)

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)