按照random划分的test数据集里25807个step里有780个step的H和W是反过来的,一个例子是: https://huggingface.co/datasets/hflqf88888/GUIOdyssey/blob/main/annotations/5887572912492398.json 这个json的H和W是反过来的,而这在评估时最多会导致3%左右的grounding指标是**完全错误**的
按照random划分的test数据集里25807个step里有780个step的H和W是反过来的,一个例子是:
https://huggingface.co/datasets/hflqf88888/GUIOdyssey/blob/main/annotations/5887572912492398.json
这个json的H和W是反过来的,而这在评估时最多会导致3%左右的grounding指标是完全错误的