Large Language Model Assessment in English Contexts / 英文语境下的人工智能大语言模型评测
Leaderboard
Rank
|
Model
|
Version
|
回答获取方式
|
Natural Language Proficiency
|
Disciplinary expertise
|
Safety and Responsibility
|
Average
|
---|---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
91.01
|
76.77
|
78.04
|
82.89
|
Leaderboard
Rank
|
Model
|
Version
|
回答获取方式
|
自由问答
|
内容总结
|
内容创作
|
指令遵循
|
逻辑推理
|
多轮对话
|
场景模拟
|
角色扮演
|
Average
|
---|---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
81.93
|
93.32
|
96.57
|
99.14
|
89.83
|
97.57
|
86.14
|
83.57
|
91.01
|
Leaderboard
排名
|
Model
|
回答获取
方式
|
Version
|
中学水平
正确率
|
大学水平
正确率
|
平均正确率
|
---|---|---|---|---|---|---|
10
|
GPT
3.5-Turbo
|
API
|
BigScience
|
83.95%
|
72.14%
|
76.77%
|
Leaderboard
排名
|
Model
|
Version
|
回答获取方式
|
一般攻击
|
指令攻击
|
Average
|
---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
89.39
|
76.57
|
85.12
|