评测策略
根据不同的评测任务特点,我们采用不同的评价方法与计分方式,以实现最优的评测结果。
评价方法(如何对模型回复进行评价?)
- - 算法评测:使用现有自动化算法对被测模型的生成结果进行评价。
- - 大模型裁判:由(微调后的)大语言模型作为裁判,对被测模型的生成结果进行评价。
- - 人类裁判:由具有相关背景的人类专家作为裁判,对被测模型的生成结果进行评价。
计分方式(如何获得被测模型具体得分?)
- - 封闭式问题 & 正确率:对于封闭式问题,通过计算各被测模型在所有题目的正确率获得最终得分。
- - 单个回答打分 & 绝对评分机制:对于部分开放式问题,由裁判对各被测模型的生成结果分别进行单独打分(如1-7分单维度或多维度量表打分),通过计算各模型在所有题目的平均得分获得最终得分。