您好,我按照readme指引运行代码,在运行text方法时,是可以正常训练和测试的。但是发现在运行mag_bert方法时,CTC对齐以后输出的视频和语音特征的Tensor值大部分为NaN,训练时loss一直为NaN,请问有解决办法嘛?