Skip to content

关于Table1中UI-to-Code分数聚合方式的疑问 #6

@DecideToLeave

Description

@DecideToLeave

你好,感谢你们的工作和开源的评测代码!
我想请教一下论文 Table 1 里 UI-to-Code 任务的最终分数是怎么聚合的。我看了evaluation/scripts/rate_statistics_ui2code.py,这个脚本会从每个样本的 \boxed{N} 里提取 0-100 的整数分,然后输出 5 个区间(0-60、60-70、70-80、80-90、90-100)的分布百分比,但并没有输出一个能对应到 Table 1 数值(比如 76.3、84.5)的单一聚合指标。
想确认一下每个样本的得分最终是怎么聚合成 benchmark 分数的:

  • 是所有样本得分的算术平均吗?
  • 还是某个高分区间(比如 ≥80)的占比?
  • 或者其他聚合方式?

谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions