2023-12-07
【FOCUS】谷歌Gemini驚艷,AI創富聚焦「行動力」
當ChatGPT4獨領風騷、Sam Altman人設如神、微軟股價創下新高……蟄伏多時的谷歌周三(6日)終於以雷霆萬鈞之勢,揭盅下一代AI大模型「王者」--Gemini 1.0。主打「多模態(multimodal)模型」,文字理解功夫了得,更憑藉同門Youtube海量視頻,練就圖片、音頻、視訊的跨模態(cross-model)分析、推理神技,預示AI競賽下一焦點將從「知識力」晉級至「行動力」。
主打「跨模態」,分析、推理、規劃
從Gamil的「幫我寫信」,到Google地圖的沉浸式街景,再到Google相冊的魔法編輯,身為AI先驅的谷歌,自去年11月起就相當憋屈,皆因OpenAI旗下ChatGPT問世搶盡光芒。眼看ChatGPT4上月再下一城推出Turbo版,谷歌5月就預告的Gemini始終只聞樓梯響,直到昨日。
被谷歌首席執行長Sundar Pichai稱為「我們迄今為止最強大、最通用模型」的Gemini,1.0版本分為三種尺寸:用於高度複雜任務的Ultra、用於大規模增強效能的Pro、用於行動裝置應用程式的Nano。谷歌指,Gemini Ultra在MMLU(大規模多任務語言理解)基準測試(覆蓋57門專業學科)中,以90.0%得分擊敗GPT4的86.4%,且是首個超越人類專家的大模型。
當輸入「提供三個用兩種顏色製作鈎針作品的主意」,Gemini會規劃出創作主意。
但Gemini最讓人驚艷的技能仍是「跨模態」,即同時識別文字、圖片、視訊、語音,並進行分析、推理、規劃。例如,當展示一段人身體後傾、舞動雙臂動作的視頻,Gemini會推理為這是模仿電影「Matrix」的子彈時間鏡頭;當輸入「提供三個用兩種顏色製作鈎針作品的主意」,Gemini會規劃出藍黃耳朵的狗、黃色觸手的藍色水母、黃鼻子的藍貓。
初創融資方興未艾,助升全球生產力
伴隨AI大模型的強大進化,通過提問獲取精簡資訊,輸入文本獲取摘要報告,提交指令撰寫簡歷、創作故事等「知識力」技能比拼,將升級至「行動力」之爭。
早前獲億萬富翁、NBA球隊班主Mark Cuban垂青的初創公司Bot-it,就利用AI為每個人量身定制音樂會、餐廳、露營、限量運動鞋的自動預定、付款、取消功能。而公司「Automation Made Easy」,正正一語道出AI下半場「行動力」的精要。
AI獨角獸Adept的B輪融資斬獲3.5億美元。
看看4月成立的AI視訊生成工具Pika Labs,短短半年獲得融資5500萬美元;類似的還有允許用戶自訂3D角色、並可用於遊戲、電影、電子商務的AI初創公司Character.ai,據報正獲谷歌洽談投資,估值超過50億美元。此外,被視作OpenAI後繼者的Adept AI,旨在為人類建立瀏覽互聯網、使用軟件、指示AI工作等「最好的助手」,獲得英偉達、微軟、SV天使投資等大手投資。
據普華永道估算,到2030年,AI料可為全球經濟貢獻15.7萬億美元,其中6.6萬億來自生產力提高,另9.1萬億來自消費端效應。對打工者、創作者、創業者來說,務必僅記:未來取代你的不是AI,而是擅於運用AI的人。
【你點睇?】皇馬巴塞傳奇表演賽爆簽名會風波,26人買涉$20萬套票僅見部份球星15分鐘,你認為事件哪方須負較大責任?► 立即投票