研究摘要

中文及英文语境下的大模型通用能力评测报告

by Zhenhui (Jack) Jiang, Jiaxin Li, Xiaoyu Miao / 蒋镇辉，李佳欣，苗霄宇
HKU Business School Shenzhen Research Institute

摘要

技术的快速发展使得人工智能大语言模型迅速迭代，应用范围不断扩大，为促进用户更好地理解与选择，引导技术创新与持续优化，大模型评测工作具有重要的现实意义。大模型评测为不同模型在特定任务上的表现提供了标准化的衡量，有助于深入了解模型的优势和局限。对用户而言，大模型评测可以拓展他们对于不同模型性能与优劣的认识，以便于他们基于个体需求，选择最优模型。对开发者而言，大模型评测有助于识别自身模型相较于竞争者的不足，进而不断优化与改进。此外，开展大模型评测有助于推动大语言模型公平、透明与负责任的使用，建立用户信任，促进行业良性竞争。

从用户视角出发，我们构建了一个新的通用大语言模型的综合评价体系，以通用语言能力、专业学科能力、安全与责任三大能力为核心，涵盖自由问答、内容创作、内容总结、跨语言翻译、逻辑与推理等数十个子任务，并通过人类裁判与大模型裁判共同评估了大语言模型在中文（涵盖14个模型）及英文（涵盖16个模型）语境下的表现。我们的研究表明，在中文语境下，文心一言4综合表现最佳；而在英文语境下，GPT 4-turbo领先优势明显。

查看中文语境下大模型通用能力完整排行榜

查看英文语境下大模型通用能力完整排行榜

Jiaxin Li, Zhenhui Jiang, and Yang Liu. 2025. AI Development and Innovation: A Comparison of Large Lan- guage Models from the U.S. and China. ACM Trans. Manag. Inform. Syst. 16, 4, Article 34 (November 2025), 18 pages. https://doi.org/10.1145/3769086

查看研究论文全文