港大經管學院最新評測:AI高階推理能力,哪家最強?

港大經管學院最新評測:AI高階推理能力,哪家最強?

港大經管學院今日發表AI高階推理能力評測報告》,針對選定的AI大語言模型(LLM)在中文語境下的高階推理能力進行評測,揭示AI高階推理能力的發展現狀。

2025年以來,AI大語言模型從「能對話」向「會思考」快速演進。然而在需要複雜推理能力的場景中,AI的推理能力參差不齊,包括對圖片和文字等跨模態訊息的整合分析能力,或面對非常規性複雜題目時的創新推理能力。因此,港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授蔣鎮輝率領人工智能評估實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員,首次構建多模態推理和國際數學奧林匹克競賽(奧賽)推理綜合評測體系,以系統性、定量化的方式針對2025年人工智能技術的核心發展瓶頸——高階推理能力,進行全面深入的現狀評測。評測對象涵蓋中美兩國截至2025年10月中旬發佈的37款大語言模型(包括14個推理模型、20個通用模型和3個一體化系統)。

評測結果顯示:

  • 在「多模態推理」方面,GPT系列持續領先,以「豆包5 Pro」(思考模式)為首的頂尖國產模型,亦已成功躋身全球第一梯隊。
  • 在更高難度的「奧賽推理」方面,則由美國模型整體主導,其中 GPT-5(思考模式)的優勢更可謂表現突出,大幅拋離對手,而Gemini 2.5 Pro亦緊隨其後。
  • 整體而言,是次評測揭示了一個清晰的行業趨勢:專為高階任務而設的「推理模型」,表現遠勝「通用模型」,兩者梯度差異明顯。這趨勢正正吻合AI產業的發展規律——行業焦點正由以往「追求功能夠多夠廣」,轉向「聚焦特定場景的深度優化」。這標誌著AI技術的發展,已由「廣度擴張」,正式邁向「深度精耕」的新時代。

 

蔣鎮輝教授表示:「高階推理能力對AI在教育、科研及商業決策等領域的應用拓展至關重要。此研究旨在揭示高階人工智能技術的發展現狀,令行業能夠精準定位技術瓶頸,加速通用人工智能在高要求領域的落地應用,最終推動AI從『對話助手』轉型成為更加高級的『智能伙伴』。 」

評測方法

為全面評測大型語言模型(LLM)的高階推理能力,本研究設計了兩大核心測試維度,旨在評估AI在應對真實世界挑戰時的表現。

  • 多模態推理能力指模型能否打通文本、圖像、數據圖表等不同格式的資訊,進行跨模態關聯分析與邏輯推理。 例如在教學上,AI需要結合教科書文字與物理圖解,才能透徹解釋力學原理;在商業分析上,分析師亦要靠AI同時解讀市場文字報告和銷售數據圖表,才能準確預測消費趨勢。這是AI處理現實世界複雜任務的「基本功」。
  • 奧賽推理能力採用「國際數學奧林匹克(IMO)」等頂級學術競賽的高難度題目,去測試模型在複雜邏輯、多步驟推理和創意思維上的極限。這類問題往往沒有標準答案,極度考驗AI能否跳出固有框架、尋找最佳解決方案的創造力,是衡量其「高階智能」的終極試煉。

多模態推理能力排名

根據評測結果,各大語言模型在「多模態推理能力」上的表現出現明顯分層。在最頂尖的梯隊(85分以上區間),GPT系列幾乎壟斷了五個席位中的四席,展現出全面的領先優勢。而內地研發的「豆包1.5 Pro」(思考模式)成為唯一打入前五名的國產模型,表現相當亮眼。值得留意的是,其「通用模式」與「思考模式」的評分差距極小,證明其多模態推理的底層實力已達到國際頂尖水平。

從模型類型看,和通用模型相比,同公司的推理模型在複雜任務中展現出一定的優勢。

排名模型名稱多模態推理能力

準確率得分

1GPT-5(思考模式)91
2GPT-4.190
3GPT-o387
4豆包1.5 Pro(思考模式)85
4GPT-5(自动模式)85
6GPT-4o84
7Claude 4 Opus(思考模式)83
8豆包1.5 Pro82
8Grok 3(思考模式)82
10通義千問381
11Kimi-k1.580
11日日新 V6推理80
11Step R1-V-Mini(階躍 R1-V-Mini)80
14Grok 479
14GPT-o4 mini79
14混元-T179
17GLM-4-plus(智譜-4-Plus)78
17通義千問3(思考模式)78
19Gemini 2.5 Flash77
19GLM-Z1-Air(智譜-Z1-Air)77
21Llama 3.3 70B76
22日日新 V6 Pro75
22Gemini 2.5 Pro75
23文心一言4.5-Turbo74
24Step 2(階躍2)73
26混元-TurboS71
26Claude 4 Opus71
28Spark 4.0 Ultra(訊飛星火 4.0 Ultra)68
28MiniMax-0168
30Baichuan4-Turbo(百川4-Turbo)67
31Grok 366
32Kimi63

圖表 1:多模態推理能力排名

奧賽推理能力排名

根據評測結果,在「奧賽推理能力」方面,美國的大型語言模型於正確性、邏輯連貫性、解題方法創新性等多個維度,均呈現出全面的領先態勢。

處於龍頭位置的是GPT-5(思考模式)和Gemini 2.5 Pro,它們以絕對優勢遙遙領先,與其他模型形成巨大差距。緊隨其後構成第二梯隊的,則是GPT-o3及Claude 4 Opus(思考模式),分別位列第三及第四名。至於國產模型的表現,當中僅有「通義千問3」(思考模式)和Step R1_V_mini表現尚可,反映國產模型在處理頂尖複雜推理任務上,仍有相當大的進步空間。

此外,即使是同一間公司旗下的模型,思考模式下的模型在各項奧賽推理維度上的表現,普遍優於其通用模型。

排名模型名称正确性逻辑连贯性方法创新性奥赛推理能力

加权得分

1GPT-5(思考模式)48474448
2Gemini 2.5 Pro48393644
3GPT-o336423938
4Claude 4 Opus(思考模式)30363933
5Gemini 2.5 Flash35283132
5GPT-o4 mini32333332
7通義千問3(思考模式)29252828
7Step R1_V_mini26332228
9GLM_Z1_Air27312227
9日日新 V6推理27282227
11通義千問325311726
12文心一言4.5-Turbo25251924
13Grok 3(思考模式)21282523
14GPT-5(自动模式)22222822
14DeepSeek-V3(深度求索-V3)26142222
16Claude 4 Opus22173121
17豆包1.5 Pro(思考模式)22172220
17DeepSeek-R1(深度求索-R1)17252220
19Grok 320191719
19Grok 419172519
21文心一言 X1-Turbo17191417
21混元-T117171917
21混元-TurboS17171917
21Kimi-k1.517191117
25豆包1.5 Pro16171916
26GLM-4-plus(智譜-4-Plus)1217813
27GPT-4o1381912
27Spark 4.0 Ultra(訊飛星火 4.0 Ultra)13111412
29Baichuan4-Turbo(百川4-Turbo)8191111
29GPT-4.11181711
31Kimi614179
31Llama 3.3 70B71469
33Yi-Lightning(零一-Lightning)611148
33日日新 V6 Pro8868
35MiniMax-0151187
35Step26887
35360智腦2-o17687
Note: 所有分数均为四舍五入得分结果。

 

圖表 2:奧賽推理能力排名

按此瀏覽《AI高階推理能力評測報告》全文

綜合以上排名可知,在地域上,美國模型在多模態和奧賽推理中表現突出,優勢明顯;中國模型仍需在深層語境理解、複雜推理鏈或創造性解決問題上彌補差距。 此外,推理模型在高階推理能力領域的表現普遍優於通用模型。

未來,人工智慧需在跨模態深度融合、極端複雜問題創造性解決上持續突破。 而中國模型可依託本土場景理解優勢,針對性補足高階推理短板,推動「真智慧」 向更廣闊的應用場景邁進。

圖片

港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授蔣鎮輝教授

按此下載高清圖片。

Other Events
港大經管學院與CAIA協會簽署MoU | 開啟香港另類投資教育新里程
2025 | 學院新聞
港大經管學院與CAIA協會簽署MoU | 開啟香港另類投資教育新里程
港大經管學院正式與全球領先的另類投資教育機構——特許另類投資分析師(CAIA)協會簽署合作備忘錄(MoU)。港大經管學院一直致力於為學生提供最前沿、最相關的知識和技能,以應對日益變化的全球金融環境。
再創佳績! 11位港大經管學者入選全球前1%頂尖科學家名單
2025 | 學院成就
再創佳績! 11位港大經管學者入選全球前1%頂尖科學家名單
根據科睿唯安 (Clarivate)公佈的數據,截至2025年7月,港大經管學院共有11位學者憑借其卓越的學術影響力,穩據全球 Top 1% Scientists!