又是一年谷歌I/O開發(fā)者大會(huì),不出所料地,主題演講又是一場AI交響樂。去年,“AI”一詞在谷歌I/O大會(huì)上被提及120次,今年依然是主角,被提及92次。
其中最受關(guān)注的,是谷歌將AI更深入地植入搜索及Chrome瀏覽器:
谷歌搜索將不滿足于在生成結(jié)果中顯示“谷歌摘要”,而是直接會(huì)在結(jié)果分類中新增“AI模式”標(biāo)簽,展示效果類似獨(dú)立AI搜索應(yīng)用。
Chrome瀏覽器中將加入Gemini AI助手,未來將能夠“跨多個(gè)標(biāo)簽頁工作,并代表用戶瀏覽網(wǎng)站。
這是谷歌對(duì)近期爭議的直接回應(yīng)。一方面,谷歌搜索被唱衰。蘋果高管聲稱谷歌搜索受到Perplexity、ChatGPT等競品的挑戰(zhàn),Safari瀏覽器的搜索量(默認(rèn)引擎是谷歌搜索)出現(xiàn)2022年以來首次下降。
另一方面,AI初創(chuàng)公司開始對(duì)瀏覽器虎視眈眈,Chrome也在被重新審視。Perplexity即將發(fā)布瀏覽器,名字都起好了。而OpenAI也有類似傳言,并直言有興趣收購Chrome。
谷歌對(duì)搜索和瀏覽器的進(jìn)一步升級(jí),在表明其“繼續(xù)偉大”的決心。
當(dāng)然,本次谷歌I/O大會(huì)主題演講的亮點(diǎn)不止于此,還有安卓XR平臺(tái)最新進(jìn)展、3D視頻聊天項(xiàng)目升級(jí)、文生圖工具Imagen和文生視頻工具Veo升級(jí)、AI電影制作應(yīng)用推出、Project Astra更加主動(dòng)等等。
谷歌幾乎要把所有東西用AI重做一遍了。
01
谷歌搜索的“AI模式”與Chrome的Gemini
在去年的I/O大會(huì)上,谷歌推出了搜索中的“AI摘要”功能。
簡而言之,就是搜索的時(shí)候,在最上部會(huì)形成一個(gè)AI生成的摘要,幫助用戶進(jìn)行總結(jié)(百度也有類似的功能)。AI摘要推出后,也出了一些岔子,比如老生常談的幻覺問題。
如今,谷歌更進(jìn)一步,宣布要為搜索添加“AI模式”。
“AI模式”的入口將與“全部”“圖像”“咨詢”等并列,且位于首位,在搜索框下部顯示。
在AI模式下,用戶用自然語言給出搜索請求,模型直接生成總結(jié)式的回答,以圖文形式展示,并在右邊給出相關(guān)網(wǎng)頁。
AI 模式使用谷歌的前沿模型,并利用了該公司所謂的“查詢扇出”技術(shù)。谷歌表示,該方法將用戶的查詢分解為更小的子主題,同時(shí)運(yùn)行多個(gè)單獨(dú)的搜索。谷歌解釋說,這使得 AI 模式能夠執(zhí)行比傳統(tǒng)谷歌搜索更深入的搜索。
不難看出,使用體驗(yàn)和任何主流AI應(yīng)用的搜索模式并無二致。但這對(duì)谷歌來說是一大步,既是對(duì)Perplexity、ChatGPT等挑戰(zhàn)者的回應(yīng),也是對(duì)自身長久以來關(guān)鍵詞-網(wǎng)頁結(jié)果的搜索邏輯的一種內(nèi)部顛覆。
另一項(xiàng)重大改變,是Gemini AI助手將被接入Chrome瀏覽器。
在 Chrome 瀏覽器中,你會(huì)在右上角看到一個(gè)閃閃發(fā)光的小圖標(biāo)。點(diǎn)擊它,Gemini 聊天機(jī)器人窗口就會(huì)打開——它是一個(gè)浮動(dòng)的 UI,你可以移動(dòng)它并調(diào)整其大小。在那里,你可以詢問關(guān)于網(wǎng)站的問題。
最初,用戶可以在瀏覽各個(gè)標(biāo)簽頁時(shí)使用 Gemini 進(jìn)行對(duì)話。但“今年晚些時(shí)候”,Chrome 中的 Gemini 將允許用戶一次選擇多個(gè)標(biāo)簽頁,并針對(duì)所有標(biāo)簽頁提出問題。
進(jìn)一步地,谷歌未來會(huì)讓Gemini可以不僅僅是為你總結(jié)和答疑,也能直接代勞幫你瀏覽網(wǎng)頁。在某個(gè)演示中,在 Chrome 瀏覽器中打開 Gemini Live,幫助瀏覽一個(gè)食譜網(wǎng)站。用戶要求 Gemini 滾動(dòng)到配料部分,AI 便會(huì)快速跳轉(zhuǎn)到該部分。用戶請求 Gemini 幫助將所需的糖量從杯轉(zhuǎn)換為克時(shí),Gemini 也做出了響應(yīng)。
沒錯(cuò),未來的想象空間依然是留給AI Agent的。
02
谷歌助手走開,Gemini助手上位
最近風(fēng)很大的Agent,谷歌自然也不會(huì)缺席。從谷歌對(duì)Gemini助手的野望當(dāng)中就可以看到端倪。
先梳理一下關(guān)系:谷歌從很早以前開始就有一個(gè)助手應(yīng)用,叫谷歌助手(Google Assistant),但是如今Gemini應(yīng)用正在擔(dān)負(fù)起未來真正“超級(jí)助手”的期待。
其中Gemini Live是“助手”這一角色的*體現(xiàn)。
在這個(gè)功能之下,用戶不用費(fèi)勁去描述自己看到的,或者發(fā)送圖片等素材,讓AI去分析,而是可以直接讓AI“看到”屏幕上的內(nèi)容或者是通過攝像頭讓AI“看到”周遭的事物。然后,AI就可以像一個(gè)真正的小幫手一樣,為你排憂解難。
Gemini Live具有攝像頭和屏幕共享功能,現(xiàn)在可在 Android 和 iOS 上免費(fèi)供所有人使用,因此用戶可以將手機(jī)對(duì)準(zhǔn)任何物體并通過語音進(jìn)行交談。
在I/O開發(fā)者大會(huì)上,谷歌宣布將其Frontier Gemini 2.5 Pro模型擴(kuò)展為“世界模型”,這意味著它將能夠理解所見事物,并據(jù)谷歌稱制定計(jì)劃。用人工智能的術(shù)語來說,它正在變得更加具有代理性。
谷歌DeepMind首席執(zhí)行官Demis Hassabis表示,這些更新是構(gòu)建“通用AI助手”的“關(guān)鍵步驟”,可以更好地理解用戶并代表他們采取行動(dòng)。
未來還會(huì)有什么新進(jìn)展?Gemini Live是對(duì)谷歌早先啟動(dòng)的項(xiàng)目Project Astra的延伸,一個(gè)利用視覺感知周圍世界的AI代理。值得一提的是,本次I/O大會(huì)上,能看到Project Astra變得更加“主動(dòng)”。
在可以利用手機(jī)攝像頭“觀察”你周圍的物體基礎(chǔ)上,它可以讓它代替你完成任務(wù),即使你沒有明確要求它這樣做。比如它可以根據(jù)它所看到的內(nèi)容選擇說話,比如指出你作業(yè)中的錯(cuò)誤。
谷歌勾勒的“通用AI助手”頗為誘人,一個(gè)可以隨處陪伴你的助手——無論是在你的手機(jī)里,還是在一副增強(qiáng)現(xiàn)實(shí)眼鏡里——它能夠在幾秒鐘內(nèi)感知世界、回答問題并向你傳遞信息。
03
Gemini其實(shí)是個(gè)藝術(shù)家
創(chuàng)意專業(yè)人士和程序員請注意:谷歌對(duì)其創(chuàng)意工具的增強(qiáng)要么會(huì)讓你的工作更輕松、更高效,要么會(huì)讓你變得過時(shí)。
值得關(guān)注的有兩個(gè)迭代和兩個(gè)新產(chǎn)品。
首先說迭代。
在本次I/O大會(huì)上,谷歌對(duì)圖像生成模型和視頻生成模型都進(jìn)行了迭代,分別推出了Imagen 4和Veo 3。
Imagen 4能夠渲染織物、水滴和動(dòng)物毛發(fā)等“精細(xì)細(xì)節(jié)”。該模型既能處理照片級(jí)寫實(shí)風(fēng)格,也能處理抽象風(fēng)格,能夠創(chuàng)建各種寬高比、分辨率高達(dá) 2K 的圖像。谷歌實(shí)驗(yàn)室負(fù)責(zé)人 Josh Woodward 在新聞發(fā)布會(huì)上表示:“我們還投入了大量精力,并針對(duì)其生成文本和地形的方式進(jìn)行了改進(jìn),因此它非常適合制作幻燈片、邀請函,或者任何其他需要融合圖像和文字的內(nèi)容。”
從ChatGPT內(nèi)置的熱門功能到Midjourney V7,市面上的AI圖像工具琳瑯滿目,Imagen 4的競爭力是什么?除了前述特長,谷歌還指出,Imagen 4 速度很快——比 Imagen 3 還要快。而且它很快就會(huì)變得更快。在不久的將來,谷歌計(jì)劃發(fā)布 Imagen 4 的一個(gè)變體,其速度將比 Imagen 3快10 倍。
Veo 3,毋庸置疑,是OpenAI Sora的競品。這次,谷歌也在差異化優(yōu)勢上下了功夫。
那就是——Veo 3的視頻+音頻輸出,可以生成帶有聲音的視頻。例如,它可以創(chuàng)建帶有鳥鳴音頻的鳥類視頻,或者創(chuàng)建帶有交通噪音的城市街道視頻,也可以在視頻中融入角色對(duì)話。
這并不是一個(gè)可以自動(dòng)給生成的視頻“配音”的工具,但是谷歌對(duì)其好用程度很有信心。谷歌表示,Veo 3 在真實(shí)世界物理和唇形同步方面也表現(xiàn)出色。
再說新產(chǎn)品。
谷歌推出了一款全新產(chǎn)品Flow,定義其為“AI電影制作工具”。
Flow將Veo、Imagen和Gemini整合在一起,打造電影級(jí)的剪輯和場景。用戶可以用自然語言描述他們想要的最終輸出效果,F(xiàn)low會(huì)立即為他們制作。
具體點(diǎn)來說,使用Flow,用戶可以使用文本轉(zhuǎn)視頻提示和素材轉(zhuǎn)視頻提示等功能(基本上,分享幾張圖片,F(xiàn)low可以結(jié)合提示來使用它們,幫助模型了解您想要的內(nèi)容),來制作時(shí)長8秒的AI生成短片。然后,用戶還可以使用Flow的場景構(gòu)建工具將多個(gè)短片拼接在一起。
谷歌在官方博文中提供了幾個(gè)利用Flow制作的“電影”案例,時(shí)長數(shù)分鐘,其中的人物、背景、質(zhì)感都相當(dāng)穩(wěn)定。
接下來的這個(gè)新產(chǎn)品就和影音無關(guān)了,谷歌推出了一個(gè)“異步編碼代理”Jules,旨在讓你把餐巾紙上潦草寫下的粗略設(shè)計(jì)變成完整的代碼或圖形設(shè)計(jì),同時(shí)向你展示它在此過程中所做的工作。
04
XR眼鏡怎么能少了我谷歌?
另外一個(gè)I/O大會(huì)主題演講中不能忽視的亮點(diǎn),是安卓XR(Android XR)的最新進(jìn)展。
該系統(tǒng)去年12月發(fā)布,專為 XR 頭顯、智能眼鏡等擴(kuò)展現(xiàn)實(shí)設(shè)備設(shè)計(jì),通過與AI深度整合實(shí)現(xiàn)“無接觸輔助”功能。
谷歌盯上XR生態(tài)并不令人意外。谷歌的安卓系統(tǒng)是智能手機(jī)時(shí)代最重要的底層操作系統(tǒng)之一,而XR設(shè)備被視為是下一代智能終端的潛力股。此前Meta就一度想要開發(fā)XR操作系統(tǒng),做XR時(shí)代的“安卓”(但是沒能成功)。
谷歌希望在增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)和虛擬現(xiàn)實(shí)領(lǐng)域?qū)崿F(xiàn) Android 在智能手機(jī)領(lǐng)域所取得的成就。
這次,谷歌宣布將與 Gentle Monster、Warby Parker 等眼鏡品牌攜手,推出更多具備時(shí)尚設(shè)計(jì)感的智能眼鏡產(chǎn)品。與此同時(shí),谷歌也將與開云眼鏡等更多合作伙伴展開聯(lián)動(dòng)。為進(jìn)一步推動(dòng)技術(shù)生態(tài),谷歌還將深化與三星的合作,聯(lián)合打造專為眼鏡類設(shè)備設(shè)計(jì)的軟硬件參考平臺(tái),預(yù)計(jì)開發(fā)者將在今年晚些時(shí)候獲得適配支持。
值得一提的是,在大會(huì)上,中國科技公司Xreal 發(fā)布了 Project Aura,這是搭載 Android XR 平臺(tái)的第二款官方設(shè)備。谷歌和 Xreal 計(jì)劃在 2025 年 6 月的增強(qiáng)現(xiàn)實(shí)世界博覽會(huì)(AWE)上公布更多關(guān)于 Project Aura 的消息。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...