Chinese Context

自然语言能力排名（大模型裁判）

我们使用经过微调的 GPT-3.5 Turbo 作为大模型裁判，通过成对比较的方式对大型语言模型进行评估。大模型裁判参与了四项自然语言能力子任务的评估：自由问答、内容生成、情景模拟和角色扮演。我们对14个大型语言模型的回答进行了成对比较，并统计了胜率（数值越大，表示模型A在与模型B对同一问题的回答中胜出的概率越高），结果如下：

成对比较胜率图