关于Table1中UI-to-Code分数聚合方式的疑问

你好，感谢你们的工作和开源的评测代码！
我想请教一下论文 Table 1 里 UI-to-Code 任务的最终分数是怎么聚合的。我看了`evaluation/scripts/rate_statistics_ui2code.py`，这个脚本会从每个样本的 \boxed{N} 里提取 0-100 的整数分，然后输出 5 个区间（0-60、60-70、70-80、80-90、90-100）的分布百分比，但并没有输出一个能对应到 Table 1 数值（比如 76.3、84.5）的单一聚合指标。
想确认一下每个样本的得分最终是怎么聚合成 benchmark 分数的：
- 是所有样本得分的算术平均吗？
- 还是某个高分区间（比如 ≥80）的占比？
- 或者其他聚合方式？

谢谢！