Question
我使用下载的 InternRobotics/InternVLA-N1-System2 和 InternRobotics/InternVLA-N1-DualVLN 分别测试了 habitat r2r,测试指标基本符合论文结果
但是这两个模型的表现似乎相对独立。例如:在 S2 成功的样本中,DualVLN 的成功率为 65.44%,而在所有样本中,DualVLN 的成功率为 63.89%,相差不到 2%;计算S2和DualVLN样本的相关系数,仅为 0.04
两次实验是分别进行的,DualVLN 实验并不以 S2 实验结果为前提,因此这些指标并不严谨。尽管如此,两组样本的相关性实在太低。理想的情况应该是在 S2 的成功样本中,DualVLN 的成功率显著提升,这才能说明 S2 对 DualVLN 的表现有明确的指导作用