Meta猛攻CV,發(fā)布超強(qiáng)SAM摳圖模型,可拯救元宇宙?
巨頭們正在 AIGC 領(lǐng)域上激戰(zhàn),Meta在“計(jì)算機(jī)視覺(jué)(Computer vision,CV)”領(lǐng)域有了大動(dòng)作。
本周三,Meta 研究部門(mén)發(fā)布了一篇名為其 “Segment Anything(分割一切)”的論文,文中介紹了一個(gè)全新的 Segment Anything Model(即SAM),可以用于識(shí)別圖像和視頻中的物體,甚至是從未被 AI 訓(xùn)練過(guò)的物品。
所謂的“圖像分割”,通俗來(lái)講就是摳圖。Meta此次所展示的 AI 摳圖能力,被認(rèn)為是計(jì)算機(jī)視覺(jué)的 “GPT-3 時(shí)刻”,強(qiáng)到 CV 工作者直呼:AI 來(lái)?yè)岋埻耄瑴?zhǔn)備下崗了。
強(qiáng)在哪里?
如果你親自嘗試過(guò)摳圖,即使借助了市面上較為成熟的“智能摳圖”工具,你依然發(fā)現(xiàn),想把照片摳得快、摳得準(zhǔn)、摳得自然是件費(fèi)時(shí)費(fèi)力的事。
Meta此次發(fā)布的 SAM 給出了近乎完美的解決方案。
SAM 的第一項(xiàng)重大突破在于“識(shí)別速度和精度”有了顯著提升,而速度和精度是計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典且復(fù)雜的任務(wù)。
SAM 的另一驚艷點(diǎn)在于,它并不局限于訓(xùn)練過(guò)的數(shù)據(jù)集,在遇到從未見(jiàn)過(guò)的物品和形狀,SAM 也能將其準(zhǔn)確識(shí)別并分割出來(lái)。
此外,SAM 支持用戶(hù)使用交互性方式分離物體。比如經(jīng)鼠標(biāo)定位自動(dòng)識(shí)別物體輪廓。即使是顏色非常相近、甚至連人眼都難以快速分辨的倒影,SAM 都能非常準(zhǔn)確的找出輪廓邊線。
用戶(hù)還可通過(guò)“關(guān)鍵字查詢(xún)”,SAM 可監(jiān)測(cè)并標(biāo)記出這個(gè)圖片中的搜索對(duì)象。
還能支持對(duì)圖片上物品的編輯。比如,識(shí)別出一張圖片上模特的服飾,摳出來(lái)便可以改變顏色和尺碼大小。
SAM 不僅僅能處理靜態(tài)圖片,還可以對(duì)動(dòng)圖、視頻中的取片進(jìn)行準(zhǔn)確識(shí)別,并快速標(biāo)記、統(tǒng)計(jì)出品類(lèi)、大小和顏色等信息。
從靜態(tài)圖片中“摳”出來(lái)的椅子,進(jìn)行3D渲染和編輯,讓它動(dòng)起來(lái),還可以繼續(xù)改變形狀等創(chuàng)意操作。
未來(lái),這一技術(shù)將和 Meta 的 AR/AR 頭顯進(jìn)行廣泛結(jié)合,助力元宇宙,將電影中的鋼鐵俠頭盔將推向生活場(chǎng)景。
將有更大應(yīng)用空間
SAM 發(fā)布之后,很多人第一時(shí)間進(jìn)行了實(shí)測(cè),一些網(wǎng)友還結(jié)合自身的工作領(lǐng)域打開(kāi)了 SAM 更廣的應(yīng)用想象空間。
自然科學(xué)研究者——將SAM和衛(wèi)星圖像結(jié)合在了一起,表示SAM能夠很好的識(shí)別和找到他標(biāo)記的風(fēng)貌類(lèi)型。
神經(jīng)外科影像學(xué)從業(yè)者——將SAM用到了一個(gè)脊髓血管病的病例文件之中,認(rèn)為SAM在幫助判斷和分析病情上有很大幫助。
生物學(xué)家——輸入一張顯微鏡下的組織圖片,即使圖中形狀特征毫無(wú)規(guī)律,SAM也能夠自動(dòng)識(shí)別多細(xì)胞結(jié)構(gòu)中的腺體、導(dǎo)管、動(dòng)脈等,SAM 在未來(lái)能夠節(jié)省大量手動(dòng)注釋的時(shí)間。
騎行愛(ài)好者——將地圖和SAM結(jié)合起來(lái),認(rèn)為能夠幫助自己未來(lái)更快更高效地給地圖做標(biāo)記。
農(nóng)場(chǎng)管理者——借助 SAM 監(jiān)管農(nóng)場(chǎng)動(dòng)物,進(jìn)行作物培植生產(chǎn)研究等。
AI研究專(zhuān)家——英偉達(dá)人工智能科學(xué)家 Jim Fan 表示 SAM 已經(jīng)基本能夠理解“物品”的一般概念,即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景(例如水下和顯微鏡里的細(xì)胞)。
SAM 之于計(jì)算機(jī)視覺(jué),就像是 GPT 之于大語(yǔ)言模型。
論文解讀
在 Meta 的論文《Segment Anything》中,新模型全名為Segment Anything Model,圖像注釋集名為Segment Anything 1-Billion (SA-1B),據(jù)稱(chēng)這是有史以來(lái)最大的分割數(shù)據(jù)集。
論文地址:https://arxiv.org/abs/2304.02643
此前解決分割問(wèn)題大致有兩種方法。第一種是交互式分割,第二種是自動(dòng)分割。前者需要人通過(guò)迭代完善一個(gè)遮罩來(lái)指導(dǎo)模型,后者需要大量的手動(dòng)注釋對(duì)象來(lái)訓(xùn)練。兩種方法都無(wú)法實(shí)現(xiàn)全自動(dòng)的圖像分割。SAM 很好的概括了這兩種方法,可以輕松地執(zhí)行交互式分割和自動(dòng)分割。
本篇論文中,研發(fā)人員提到了SAM 的靈感來(lái)源于自然語(yǔ)言處理領(lǐng)域。在 NLP 領(lǐng)域,基礎(chǔ)模型可以使用prompting技術(shù)對(duì)新數(shù)據(jù)集和任務(wù)執(zhí)行零樣本和少樣本學(xué)習(xí)。
而在CV領(lǐng)域,具體到 SAM 中,研究人員訓(xùn)練的 SAM 可以針對(duì)任何提示返回有效的分割掩碼。提示可以是前景、背景點(diǎn)、粗框或掩碼、自由格式文本等等能指示圖像中要分割內(nèi)容的任何信息。
在Web瀏覽器中,SAM有效映射圖像特征和一組提示嵌入來(lái)生成分割掩碼
除了新模型 SAM,Meta還發(fā)布了迄今為止最大的分割數(shù)據(jù)集 SA-1B。
數(shù)據(jù)集由 SAM 收集,此數(shù)據(jù)集已是迄今為止最大的數(shù)據(jù)。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數(shù)據(jù)反過(guò)來(lái)更新 SAM,重復(fù)執(zhí)行此循環(huán)來(lái)改善模型和數(shù)據(jù)集。
SA-1B 圖像數(shù)據(jù)集包含超過(guò)11億個(gè)掩碼,這些掩碼是從1100萬(wàn)張已經(jīng)獲得許可、并且保護(hù)隱私的高分辨率圖像中收集的,這些圖像的分辨率達(dá)到了1500×2250 pixels,平均每張圖像約有100個(gè)掩碼。甚至可以媲美以前規(guī)模小得多、完全手動(dòng)注釋的數(shù)據(jù)集中的掩碼。
Meta 官方稱(chēng),通過(guò)在業(yè)內(nèi)共享這項(xiàng)研究和數(shù)據(jù)集,進(jìn)一步加速對(duì)分割圖像視頻的研究,為AR/VR、內(nèi)容創(chuàng)作、科學(xué)領(lǐng)域和更普遍的 AI 系統(tǒng)等領(lǐng)域的強(qiáng)大組件,釋放出更加強(qiáng)大、通用的人工智能系統(tǒng)。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專(zhuān)題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣(mài)
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市