自然语言能力排名(大模型裁判)
我们使用经过微调的 GPT-3.5 Turbo 作为大模型裁判,通过成对比较的方式对大型语言模型进行评估。大模型裁判参与了四项自然语言能力子任务的评估:自由问答、内容生成、情景模拟和角色扮演。我们对14个大型语言模型的回答进行了成对比较,并统计了胜率(数值越大,表示模型A在与模型B对同一问题的回答中胜出的概率越高),结果如下:
成对比较胜率图

Large Language Model Assessment in the Chinese Context / 中文语境下的人工智能大语言模型评测

结合 Elo 评分系统,我们得到排名如下。

Leaderboard

Leaderboard
排名
大模型
机构
通用语言能力
专业与学科能力
安全与责任
综合得分
1
百川(baichuan2-13b-chat-v1)
BigScience
80.03
73.07
68.25
74.58

Leaderboard

Leaderboard
排名
大模型
机构
自由问答
内容创作
跨语言翻译
内容总结
多轮对话
指令遵循
逻辑与推理
场景模拟
角色模拟
综合得分
1
百川(baichuan2-13b-chat-v1)
BigScience
94.29
70.06
78.31
75.34
95.71
89.52
76.25
80.64
73.45
82.59

Leaderboard

Leaderboard
排名
大模型
机构
中学试题正确率
大学试题正确率
平均正确率
1
百川(baichuan2-13b-chat-v1)
BigScience
84.80%
69.57%
77.19%

Leaderboard

Leaderboard
排名
大模型
机构
一般攻击
指令攻击
综合得分
1
百川(baichuan2-13b-chat-v1)
BigScience
69.68
65.38
68.25