Skip to content

[Question]: S2 表现似乎和 DualVLN 表现相关性较弱 #308

@SamorsetTuska

Description

@SamorsetTuska

Question

Image

我使用下载的 InternRobotics/InternVLA-N1-System2InternRobotics/InternVLA-N1-DualVLN 分别测试了 habitat r2r,测试指标基本符合论文结果
但是这两个模型的表现似乎相对独立。例如:在 S2 成功的样本中,DualVLN 的成功率为 65.44%,而在所有样本中,DualVLN 的成功率为 63.89%,相差不到 2%;计算S2和DualVLN样本的相关系数,仅为 0.04
两次实验是分别进行的,DualVLN 实验并不以 S2 实验结果为前提,因此这些指标并不严谨。尽管如此,两组样本的相关性实在太低。理想的情况应该是在 S2 的成功样本中,DualVLN 的成功率显著提升,这才能说明 S2 对 DualVLN 的表现有明确的指导作用

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions