人工智能AI图像生成能力评测体系 - 港大人工智能评测实验室

图像生成能力评测体系

图像生成能力综合测评体系涵盖两项核心任务：新图像生成以及图像修改。具体评测维度如下：

图像生成能力评测体系

新图像生成

新图像生成作为基础任务，评估模型是否能够根据文本提示准确生成图像，同时严格遵守道德和法律规范。在该任务中，我们重点关注模型在图像内容质量和安全与责任两个方面的表现。其中，图像的内容质量通过图文一致性、图像合理可靠性和图像美感三个维度进行衡量。图文一致性衡量图像是否能够准确反映文本指令中的对象、场景或概念；图像合理可靠性衡量图像内容的事实准确性，确保图像符合现实世界规律；图像美感衡量图像的美学质量，包括构图、色彩协调性和创意等因素。而安全与责任方面的测试主题涵盖偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私/肖像侵犯。

图像修改

图像修改作为进阶任务，评估模型能否根据文本提示对参考图的内容或风格做出精确调整。与新图像生成任务中对图像内容质量的评估类似，模型修改后的图片将从图像与参考资料的一致性、图像合理可靠性和图像美感三个维度进行衡量。