25 Jan 2024
by Zhenhui (Jack) Jiang, Jiaxin
Li, Xiaoyu Miao /
蒋镇辉,李佳欣,苗霄宇
HKU Business School Shenzhen Research Institute
摘要
技术的快速发展使得人工智能大语言模型迅速迭代,应用范围不断扩大,为促进用户更好地理解与选择,引导技术创新与持续优化,大模型评测工作具有重要的现实意义。大模型评测为不同模型在特定任务上的表现提供了标准化的衡量,有助于深入了解模型的优势和局限。对用户而言,大模型评测可以拓展他们对于不同模型性能与优劣的认识,以便于他们基于个体需求,选择最优模型。对开发者而言,大模型评测有助于识别自身模型相较于竞争者的不足,进而不断优化与改进。此外,开展大模型评测有助于推动大语言模型公平、透明与负责任的使用,建立用户信任,促进行业良性竞争。
从用户视角出发,我们构建了一个新的通用大语言模型的综合评价体系,以通用语言能力、专业学科能力、安全与责任三大能力为核心,涵盖自由问答、内容创作、内容总结、跨语言翻译、逻辑与推理等数十个子任务,并通过人类裁判与大模型裁判共同评估了大语言模型在中文(涵盖14个模型)及英文(涵盖16个模型)语境下的表现。我们的研究表明,在中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT 4-turbo领先优势明显。