研究摘要

谁是最佳AI外汇交易员？——基于实时市场的大语言模型交易能力评测

Zhenhui (Jack) Jiang¹, Jiaxin Li¹, Xiangyu Wang², Yi Lu¹, Yifan Wu¹, Yisen Hong³, Haozhe Xu⁴, Zhengyu Wu¹, / 蒋镇辉¹,李佳欣¹,王祥雨²,鲁艺¹,吴轶凡¹,洪逸森³,徐昊哲⁴,武正昱¹
¹HKU Business School, The University of Hong Kong, Hong Kong, ² Department of Information Management, Peking University, P. R. China, ³ Department of Computer Science and Technology, Tsinghua University, P. R. China, ⁴ School of Management, Xi'an Jiaotong University, P. R. China.

摘要

本报告基于Agentic Trader实时外汇交易评测平台，对多个主流大型语言模型的自主交易表现进行了阶段性比较。Agentic Trader使用真实外汇市场数据，允许不同模型在统一条件下连续进行自主交易，并记录其市场观察、工具调用、决策理由与订单执行行为。当前参与测评的包括GPT、Claude、Gemini、DeepSeek、Qwen、Grok、GLM、Kimi、MiniMax与Seed（Doubao）等多个中美主流模型。模拟交易自2026年4月起覆盖 6 周连续实时交易周期。评测结果显示，不同模型之间已经形成较明显的收益与风险差异。其中，Qwen3.5 Plus、Kimi K2.5与Seed-2.0-Lite在当前观察窗口内取得相对领先的收益表现；GLM5与GPT-5.4的整体收益接近盈亏平衡；而DeepSeek V3.2、Minimax 2.5与Claude Opus 4.6等模型则在当前市场环境下出现较明显负收益。报告同时发现，不同模型在交易频率与风险暴露上也表现出较强异质性。有些模型倾向于频繁交易并承担更高风险（如DeepSeek与Gemini），而有的模型更加谨慎（如GPT）。需要说明的是，当前结果基于特定时间窗口下的实时交易数据，适合用于观察不同模型在当前市场条件下的相对表现，而不应被直接理解为长期投资能力的最终结论。

点击阅读报告全文
The full report can be accessed HERE.