OpenAI頻繁調(diào)整產(chǎn)品更新路線圖,最新面世推理模型o3和o4-mini
來源:第一財(cái)經(jīng)作者:鄭栩彤2025-04-17 13:31

OpenAI GPT-5遲遲未推出,但GPT-5前的兩個(gè)過渡模型o3和o4-mini已在當(dāng)?shù)貢r(shí)間4月16日推出了。

這是近期OpenAI頻繁調(diào)整產(chǎn)品路線圖后的最新發(fā)布。OpenAI此前曾調(diào)整o系列推理模型發(fā)布計(jì)劃,打算不再單獨(dú)推出o3模型,而是將推出GPT-5,由GPT-5集成o3。不過,4月初,OpenAI CEO山姆·奧爾特曼(Sam Altman)表示計(jì)劃有變,因?yàn)椤罢纤袃?nèi)容比預(yù)想的困難”,所以GPT-5還需要更多研發(fā)時(shí)間,o3和04-mini還是會(huì)先單獨(dú)推出。

在GPT-5還需等待數(shù)月才能面世的空檔期,可以用到o3和o4-mini模型的是ChatGPT Plus、Pro、Team用戶和API(接口)用戶,前代的o1、o3-mini模型將被取代,ChatGPT企業(yè)和教育用戶后續(xù)也能使用o3和o4-mini。從能力上看,這兩個(gè)新模型則在代碼編輯和視覺思考能力方面有較明顯的提升。

“這是我們目前最智能的模型,推理模型首次能代理使用ChatGPT的每個(gè)工具,包括搜索網(wǎng)絡(luò)、使用Python分析上傳的文件、推理視覺輸入內(nèi)容、生成圖像?!監(jiān)penAI總結(jié)稱。

具體而言,在外部專家評估中,o3面對困難現(xiàn)實(shí)任務(wù)時(shí),犯的重大錯(cuò)誤比前一代的o1少20%,o4-mini則在迅速反應(yīng)、經(jīng)濟(jì)高效方面進(jìn)行了優(yōu)化。在數(shù)學(xué)能力AIME 2025基準(zhǔn)測試中,o3、o4-mini分?jǐn)?shù)分別為88.9、92.7,超過o1的79.2。在代碼能力的Codeforces基準(zhǔn)測試中,o3、o4-mini得分2706、2719,超過o1的1891。在博士級科學(xué)題GPQA Diamond、跨學(xué)科專家級問題Humanity’s Last Exam、視覺數(shù)學(xué)推理MathVista等基準(zhǔn)測試中,o3和o4-mini得分也超過o1。

此外,o3-high(high為高能力模式)和o4-mini-high的代碼編輯整體準(zhǔn)確率分別為81.3%和68.9%,超過o1-high的64.4%。o3和o4-mini將圖像信息融入思維鏈中,用戶上傳教科書圖表、手繪草圖后,模型可以直接進(jìn)行解釋。當(dāng)用戶問及某些問題時(shí),o3和o4-mini還會(huì)主動(dòng)使用多個(gè)工具,例如用戶問及某地夏季能源使用情況時(shí),模型會(huì)在網(wǎng)絡(luò)上搜索公共數(shù)據(jù)、編寫Python代碼來預(yù)測并生成圖像。

OpenAI舉了幾個(gè)案例。例如,將一個(gè)時(shí)間表圖片交給o3,告知當(dāng)下的時(shí)間并要求o3輸出詳細(xì)計(jì)劃,確保用戶能看到表中的所有景點(diǎn)和表演,o3就能輸出一份詳細(xì)的行程表;要求o3分析某項(xiàng)體育運(yùn)動(dòng)的新規(guī)則如何影響投手的表現(xiàn)和比賽時(shí)間,o3先搜尋了網(wǎng)絡(luò)資料,再進(jìn)行統(tǒng)計(jì)分析;上傳一張照片,可以詢問模型圖中最大船只的名字、在哪里??康葐栴}。

成本上,在AIME 2025基準(zhǔn)測試中,o3的性價(jià)比高于o1。OpenAI稱o3和o4-mini比o1更便宜。

隨著OpenAI延后推出GPT-5,不只o3和o4-mini被作為基礎(chǔ)模型更新?lián)Q代時(shí)的過渡產(chǎn)品。此次OpenAI還推出了開源的編程代理工具Codex CLI。本周OpenAI還在API中引入GPT-4.1系列模型,GPT-4.1的性能超過GPT-4o。隨著GPT-4.1推出,OpenAI準(zhǔn)備棄用今年2月剛面世的GPT-4.5預(yù)覽版。

OpenAI近期在產(chǎn)品路線規(guī)劃上的反復(fù)調(diào)整,使其產(chǎn)品矩陣變得更為復(fù)雜,后續(xù)如何整合推理o系列和基礎(chǔ)模型GPT數(shù)字系列(如GPT-4、GPT-5)將是OpenAI面臨的一大挑戰(zhàn)。近期頻繁更新產(chǎn)品后,OpenAI后續(xù)還需依靠基礎(chǔ)模型GPT-5來證明自身能力。

責(zé)任編輯: 鄧衛(wèi)平
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號,即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換