人工智能AI模型评测策略 - 港大人工智能评测实验室

评测策略

根据不同的评测任务特点，我们采用不同的评价方法与计分方式，以实现最优的评测结果。

评价方法（如何对模型回复进行评价？）

计分方式（如何获得被测模型具体得分？）

- 封闭式问题 & 正确率：对于封闭式问题，通过计算各被测模型在所有题目的正确率获得最终得分。

封闭性问题得分示意图
- 单个回答打分 & 绝对评分机制：对于部分开放式问题，由裁判对各被测模型的生成结果分别进行单独打分（如1-7分单维度或多维度量表打分），通过计算各模型在所有题目的平均得分获得最终得分。

单个回答打分示意图
- 成对比较 & Elo评分机制：由裁判对任意两个不同被测模型的生成结果进行一对一比较，选出胜者（或平局），再通过Elo评分机制得到最终排名。

成对比较示意图