你好,感谢你们的工作和开源的评测代码!
我想请教一下论文 Table 1 里 UI-to-Code 任务的最终分数是怎么聚合的。我看了evaluation/scripts/rate_statistics_ui2code.py,这个脚本会从每个样本的 \boxed{N} 里提取 0-100 的整数分,然后输出 5 个区间(0-60、60-70、70-80、80-90、90-100)的分布百分比,但并没有输出一个能对应到 Table 1 数值(比如 76.3、84.5)的单一聚合指标。
想确认一下每个样本的得分最终是怎么聚合成 benchmark 分数的:
- 是所有样本得分的算术平均吗?
- 还是某个高分区间(比如 ≥80)的占比?
- 或者其他聚合方式?
谢谢!
你好,感谢你们的工作和开源的评测代码!
我想请教一下论文 Table 1 里 UI-to-Code 任务的最终分数是怎么聚合的。我看了
evaluation/scripts/rate_statistics_ui2code.py,这个脚本会从每个样本的 \boxed{N} 里提取 0-100 的整数分,然后输出 5 个区间(0-60、60-70、70-80、80-90、90-100)的分布百分比,但并没有输出一个能对应到 Table 1 数值(比如 76.3、84.5)的单一聚合指标。想确认一下每个样本的得分最终是怎么聚合成 benchmark 分数的:
谢谢!