谁是最佳AI外汇交易员?——基于实时市场的大语言模型交易能力评测

Zhenhui (Jack) Jiang1, Jiaxin Li1, Xiangyu Wang2, Yi Lu1, Yifan Wu1, Yisen Hong3, Haozhe Xu4, Zhengyu Wu1, / 蒋镇辉1,李佳欣1,王祥雨2,鲁艺1,吴轶凡1,洪逸森3,徐昊哲4,武正昱1
1HKU Business School, The University of Hong Kong, Hong Kong, 2 Department of Information Management, Peking University, P. R. China, 3 Department of Computer Science and Technology, Tsinghua University, P. R. China, 4 School of Management, Xi'an Jiaotong University, P. R. China.


摘要

本报告基于Agentic Trader实时外汇交易评测平台,对多个主流大型语言模型的自主交易表现进行了阶段性比较。Agentic Trader使用真实外汇市场数据,允许不同模型在统一条件下连续进行自主交易,并记录其市场观察、工具调用、决策理由与订单执行行为。当前参与测评的包括GPT、Claude、Gemini、DeepSeek、Qwen、Grok、GLM、Kimi、MiniMax与Seed(Doubao)等多个中美主流模型。 模拟交易自2026年4月起覆盖 6 周连续实时交易周期。评测结果显示,不同模型之间已经形成较明显的收益与风险差异。其中,Qwen3.5 Plus、Kimi K2.5与Seed-2.0-Lite在当前观察窗口内取得相对领先的收益表现;GLM5与GPT-5.4的整体收益接近盈亏平衡;而DeepSeek V3.2、Minimax 2.5与Claude Opus 4.6等模型则在当前市场环境下出现较明显负收益。报告同时发现,不同模型在交易频率与风险暴露上也表现出较强异质性。有些模型倾向于频繁交易并承担更高风险(如DeepSeek与Gemini),而有的模型更加谨慎(如GPT)。需要说明的是,当前结果基于特定时间窗口下的实时交易数据,适合用于观察不同模型在当前市场条件下的相对表现,而不应被直接理解为长期投资能力的最终结论。


点击阅读报告全文
The full report can be accessed HERE.