20/09/2024

AI｜思考型AI時代降臨！OpenAI o1能力勝過GPT-4o、超越專家博士！能否改變AI競爭格局？

#數碼轉營 #數碼營銷 #Smart Living #智慧生活 #OpenAI #AI #GPT-4o #數據分析 #Apollo #OpenAIo1 #Strawberry #Facebook #Google

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　人類之所以被譽為萬物之靈，原因之一是擁有思考能力，當面對一個複雜問題，可能會思考一段時間，經過多方面考慮後，始會想出解決方法。傳聞中超越當今AI極限的新一代模型「Strawberry」，換上新名字「OpenAI o1」後，在無預警的情況下突然亮相。其最大特色正是懂得思考，在回覆用戶提問前會先思考一下，務求給出更準確答案。到底這個「思考型AI」適用於甚麼領域？對未來AI市場競爭格局又會帶來甚麼改變呢？

模擬人類解題時邏輯推理過程

　　2024年9月12日，OpenAI發表了新一代大型語言模型OpenAI o1系列。相較於以往的AI模型，o1推理能力明顯地大幅增強，在回答問題前會花更多時間進行推理——模擬人類解題時邏輯推理過程，藉由分步驟分析問題，並自動識別和修正錯誤，從而提供更準確的答案；如果說以往的AI模型是以「直覺」回覆提問，那麽o1則是「深思熟慮」後作出回應。

　　通過重複訓練後，o1更能學會改進思考過程，持續優化解題技巧，並嘗試不同的回應策略，因此在解決需要深度推理的問題時，其回覆將具備更高的專業性。它在博士級科學基準測試中，表現跟人類專家生相若，在數學和編程方面更有出色表現。

　　在2024年美國國際數學邀請賽（AIME）中，o1的正確解題率高達83.3%，GPT- 4o則僅為13.4%。在編程競賽Codeforces中，o1獲取1,807的高分，勝過89%的人類競爭者，成績更遠遠拋離GPT-4o（取得808分，只超過11%的人類競爭者）。GPQA Diamond是一項評估物理、化學、生物學等專業知識的基準測試，o1的正確解題率達到78%，表現優於擁有相關領域博士學位的人類專家（69.7%）與GPT-4o（56.1%）。

適合用於解決科研、編碼難題

　　由此看來，o1特別適合用於解決科學、數學、編程等領域的複雜難題，有助於科研發展。譬如幫助物理學家生成量子光學所需的複雜數學公式、輔助醫學研究人員標註細胞定序數據、又或者協助編程人員找出並解決造成軟件效能低落的問題程式碼。

　　為降低o1給出有害答案的機會率，OpenAI採用了一種新的安全評估測試：當用戶試圖繞過安全規則（俗稱「越獄」）時，AI模型如何繼續遵循安全規範。結果發現，在最嚴格的越獄測試中，o1得分是84分（滿分為100分），GPT-4o則是22分，表現顯著高於以往模型。

　　OpenAI認為，思考型AI的誕生象徵著AI技術達到新層次，所以棄用GPT系列既有的命名原則，決定改用全新命名方式，為新模型取名為OpenAI o1，以代表它是AI推理能力演進的新起點，而不是GPT系列的延續。

ChatGPT Plus、Team、Enterprise、Edu級別付費用戶現已可使用o1-preview 和o1-mini。OpenAI亦計劃為所有ChatGPT免費用戶提供o1-mini的使用權限，但暫未確定推出日期。（圖片來源：OpenAI官網）

o1回答前先思考致反應偏慢

　　目前OpenAI o1系列包含兩個版本，分別為o1-preview與o1-mini。顧名思義，o1-preview是正式版推出前的預覽版本，在需要較多推理的數據分析、編程、數學等領域，其表現優於比GPT-4o，但在文案寫作和編輯方面，則遜於GPT-4o。o1-mini則是一款速度較快、成本較低的AI模型，比起o1-preview便宜了80%，特別適用於需要專科推理、但無需廣泛世界知識的應用場景，尤其是生成程式碼的表現可以媲美o1-preview。

　　即使o1展現出遠超同儕的能力，但依然存在一定的局限性。由於o1每次回覆提問前，都會先作出一番思考，故此其回應速度比以往模型慢得多，有時可能要超過10秒方能回答一條問題。再者，o1暫時不能瀏覽網頁，也無法輸入文件和圖片。

　　對軟件開發者來說，使用o1模型的成本也較高。透過API存取o1-preview，每百萬個輸入Token（語詞碎片）收費為15美元，每百萬個輸出Token收費則為60美元，這是GPT-4o的3倍和4倍。

OpenAI o1模型在數學、編程基準測試上的表現均勝過GPT-4o，甚至在博士級科學知識測試中，得分更高於人類專家。（圖片來源：OpenAI官網）

o1懂說謊，偽裝遵守安全規則

　　更嚴重的是，o1竟然懂得說謊。AI 安全研究機構Apollo指出，縱然以往的AI模型都有可能出現「資訊幻覺」，揑造一些假資訊，惟o1模型卻擁有更高層次的「假裝符合規則」能力。有時它為了能輕鬆完成任務，可以偽裝成遵守安全規則，但實際上其行為已偏離原本的安全規範。

　　Apollo執行長霍巴恩（Marius Hobbhahn）直言，這是他首次在OpenAI模型中發現此情況，可能因為o1系統被設計成為求達成目標，可以「操縱」任務，甚至在不被監視的情況下改變行為。OpenAI預防部門負責人坎德拉（Joaquin Quiñonero Candela）回應指，儘管這些問題不會直接帶來社會性危機，但提前應對這些潛在風險相當重要，以免AI技術的未來發展遭受限制。

面對複雜問題，OpenAI o1模型需要較長的思考時間，有時甚至可能要30、40秒才可給出答案。（圖片來源：翻攝OpenAI官方YouTube影片）

　　無論如何，o1模型的誕生，不但把生成式AI技術帶到一個新高度，也進一步擴大OpenAI的技術優勢，然而效果卻可能是非常短暫。Google已表明，正在研發類似o1的思考型AI，具備進階推理與規劃功能。Facebook母公司Meta與AI新創Anthropic亦擁有開發思考型AI的知識與資源，相信在未來幾個月內就可以推出近似的推理模型。由是之故，OpenAI下一步應思考如何降低o1的成本，並持續升級其功能，以保持競爭力。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

【與拍賣官看藝術】走進Sotheby's Maison睇睇蘇富比旗艦藝廊！蘇富比如何突破傳統成規？► 即睇