Large Language Model Assessment in English Contexts / 英文语境下的人工智能大语言模型评测
Leaderboard
综合排名
|
大模型名称
|
机构
|
回答获取方式
|
自然语言能力
|
专业学科能力
|
安全与责任
|
综合得分
|
---|---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
91.01
|
76.77
|
78.04
|
82.89
|
Leaderboard
综合排名
|
大模型名称
|
机构
|
回答获取方式
|
自由问答
|
内容总结
|
内容创作
|
指令遵循
|
逻辑推理
|
多轮对话
|
场景模拟
|
角色扮演
|
综合得分
|
---|---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
81.93
|
93.32
|
96.57
|
99.14
|
89.83
|
97.57
|
86.14
|
83.57
|
91.01
|
Leaderboard
排名
|
大模型名称
|
回答获取
方式
|
机构
|
中学水平
正确率
|
大学水平
正确率
|
平均正确率
|
---|---|---|---|---|---|---|
10
|
GPT
3.5-Turbo
|
API
|
BigScience
|
83.95%
|
72.14%
|
76.77%
|
Leaderboard
排名
|
大模型名称
|
机构
|
回答获取方式
|
一般攻击
|
指令攻击
|
综合得分
|
---|---|---|---|---|---|---|
10
|
MiniMax
(abab5.5-chat)
|
BigScience
|
API
|
89.39
|
76.57
|
85.12
|