過去幾個(gè)月時(shí)間里,由ChatGPT在全球科技巨頭之間引發(fā)的人工智能熱潮推動了大量語言模型的生產(chǎn)力前置。據(jù)《華爾街日報(bào)》,雖然谷歌早在兩年前就做出了類似ChatGPT的人工智能聊天工具,但谷歌對AI的小心謹(jǐn)慎態(tài)度讓其失去了對生成式AI的先機(jī)。
不過,作為硅谷科技巨頭,谷歌從來不缺乏“后來居上”的決心和實(shí)力。
美西時(shí)間3月6日(周一),來自谷歌和德國柏林工業(yè)大學(xué)的一組人工智能研究人員公布了史上最大視覺語言模型PaLM-E(全稱Pathways Language Model with Embodied)。
(資料圖)
作為一種多模態(tài)具身視覺語言模型 (VLM),PaLM-E能將視覺和語言集成到機(jī)器人控制中。谷歌和柏林工業(yè)大學(xué)稱,PaLM-E是迄今為止人類開發(fā)的最大規(guī)模VLM,其可以在不需要再訓(xùn)練的情況下執(zhí)行各種任務(wù)。此外,通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結(jié)合,PaLM-E最終的參數(shù)量高達(dá)5620億(GPT-3 的參數(shù)量為1750億),這是全球已知的最大視覺語言模型。
可分析視覺數(shù)據(jù)執(zhí)行高級命令
“我們觀察到諸如多模態(tài)思維鏈推理(允許模型分析包括語言和視覺信息的一系列輸入),只接受單圖像提示訓(xùn)練的多圖像推理(使用多個(gè)圖像作為輸入來做出推理或預(yù)測)等涌現(xiàn)能力。”論文的第一作者、谷歌AI研究員Danny Driess在推特上寫道。
據(jù)谷歌介紹,當(dāng)接到“把抽屜里的薯片拿過來”等較為高級的命令時(shí),PaLM-E可以為一個(gè)有“手臂”的移動機(jī)器人平臺(由谷歌Robotics公司開發(fā))生成行動計(jì)劃,并自行執(zhí)行任務(wù)。機(jī)器人能夠順利地從十多個(gè)開放式抽屜中找到米餅,拿給研究人員。
在另外一個(gè)案例中,研究人員還要求機(jī)器人“將所有色塊按顏色堆放到不同角落”的指令,以及將“綠色色塊推到烏龜旁邊”的指令,即便機(jī)器人之前沒有見過這只烏龜擺件,也能順利地完成任務(wù)。
在圖像識別的案例中,PaLM-E識別圖像中的已故籃球明星科比·布萊恩特,并可以生成關(guān)于他的文本信息,例如他贏得了多少次NBA總冠軍戒指。研究人員寫道,PaLM-E也是一種“有效的視覺語言模型”。
具體來講,PaLM-E通過分析來自機(jī)器人攝像頭的數(shù)據(jù)來實(shí)現(xiàn)對高級命令的執(zhí)行,而無需對場景進(jìn)行預(yù)處理。這消除了人類對數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要,并允許更自主的機(jī)器人控制。
此外,PaLM-E也非常具有彈性,能根據(jù)所處的具體環(huán)境做出反應(yīng)。例如,PaLM-E模型可以引導(dǎo)機(jī)器人從廚房取出一個(gè)薯片袋,并且將PaLM-E集成到控制循環(huán)中,它可以抵抗任務(wù)執(zhí)行期間可能發(fā)生的中斷。在谷歌發(fā)布的視頻中,一名研究人員從機(jī)器人手中抓起薯片并進(jìn)行移動,但最終機(jī)器人可以找到這些薯片并再次抓起。
“PaLM-E幾乎擁有所有語言能力”
據(jù)谷歌和柏林工業(yè)大學(xué)的合著論文介紹,PaLM-E是一個(gè)僅有解碼器的大型語言模型(LLM),在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補(bǔ)全。其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語句。
由于PaLM-E是基于語言模型,所以它會連續(xù)觀察圖像或傳感器數(shù)據(jù),并將其編碼成與語言符號大小相同的向量序列。這使得模型能夠以處理語言的相同方式“理解”感覺信息。
除了RT-1機(jī)器人外,PaLM-E還借鑒了谷歌之前在VIT-22B上的工作,后者是谷歌在上月公布的一款視覺語言模型。VIT-22B已經(jīng)在各種視覺任務(wù)上進(jìn)行了訓(xùn)練,例如圖像分類、目標(biāo)檢測、語義分割和圖像字幕等。
除了機(jī)器人技術(shù)外,谷歌的研究人員還觀察到了幾個(gè)有趣的現(xiàn)象。首先,PaLM-E在實(shí)驗(yàn)案例中表現(xiàn)出了“正向轉(zhuǎn)移(positive transfer)”,這意味著它可以將所學(xué)到的知識和技能從一個(gè)任務(wù)轉(zhuǎn)移到另一個(gè)任務(wù),因此與執(zhí)行單個(gè)任務(wù)的機(jī)器人模型相比,性能有顯著的提高。
此外,谷歌研究人員還觀察了PaLM-E大規(guī)模參數(shù)下的一個(gè)趨勢:“語言模型規(guī)模越大,在進(jìn)行視覺語言和機(jī)器人任務(wù)訓(xùn)練時(shí),它就越能保持語言能力——從參數(shù)規(guī)模上來講,5620億參數(shù)的PaLM-E幾乎擁有所有語言能力。”
谷歌研究人員計(jì)劃未來將探索PaLM-E在現(xiàn)實(shí)世界中有更多應(yīng)用,例如家庭自動化或工業(yè)機(jī)器人,也希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)AI的應(yīng)用。
《每日經(jīng)濟(jì)新聞》記者還注意到,作為AI大戰(zhàn)的老對手,微軟也已經(jīng)在“圖像+語言模型”的路數(shù)上有所布局。在今年2月底發(fā)表的研究中,微軟就展現(xiàn)了如何使用ChatGPT為大疆Tello無人機(jī)編寫“找飲料”程序的案例。
微軟最近發(fā)布的“用于機(jī)器人的ChatGPT(ChatGPT for Robotics)”論文,就嘗試以類似于谷歌PaLM-E的方式將視覺數(shù)據(jù)和大型語言模型結(jié)合起來,對機(jī)器人進(jìn)行控制。
(文章來源:每日經(jīng)濟(jì)新聞)

-
2022年我國乘用車出口252.9萬輛 同比增長56.7%中國汽車工業(yè)協(xié)會日前發(fā)布數(shù)據(jù)顯示:2022年,我國車企出口競爭力持續(xù)增強(qiáng),全年累計(jì)出口超300萬輛,達(dá)到311 1萬輛,同比增長...
-
電影《無名》致敬無名英雄 影片在北京舉辦發(fā)布會電影《無名》將于大年初一上映。日前影片在北京舉辦發(fā)布會,一眾主創(chuàng)亮相現(xiàn)場。程耳導(dǎo)演表示,這部電影留下了巨大的反轉(zhuǎn)和懸...
-
蜜雪冰城 奶茶不賺錢曾有網(wǎng)友在脈脈上問過這樣一個(gè)問題:手上有100萬閑置資金,是在大城市買房還是回老家開個(gè)蜜雪冰城?評論區(qū)網(wǎng)友們爭論不休,尤...
-
都市情感懸疑劇《不期而至》熱播 彭冠英和蔡文靜二度合作由《陽光之下》原班人馬打造的都市情感懸疑劇《不期而至》正在優(yōu)酷熱播。劇集將懸疑與都市情感相結(jié)合,彭冠英和蔡文靜二度合...
-
現(xiàn)實(shí)題材劇《風(fēng)吹半夏》周日首播 趙麗穎歐豪李光潔聯(lián)手搞事業(yè)現(xiàn)實(shí)題材劇《風(fēng)吹半夏》將于周日(27日)首播,劇集聚焦鋼鐵行業(yè),趙麗穎、歐豪、李光潔將聯(lián)手搞事業(yè)。之前,作家阿耐的小說被...
-
2022年我國乘用車出口252.9萬輛 同比增長56.7%
2023-02-03 08:35:33
-
電影《無名》致敬無名英雄 影片在北京舉辦發(fā)布會
2023-01-20 03:07:18
-
蜜雪冰城 奶茶不賺錢
2023-01-04 13:28:52
-
都市情感懸疑劇《不期而至》熱播 彭冠英和蔡文靜二度合作
2022-12-01 20:33:05
-
現(xiàn)實(shí)題材劇《風(fēng)吹半夏》周日首播 趙麗穎歐豪李光潔聯(lián)手搞事業(yè)
2022-12-01 20:31:29