Skip to content

训练过程中出现显存不足的问题 #28

@flynn17625

Description

@flynn17625

在使用 python train.py --rate 0.1 --device 0 命令训练模型时,出现了 CUDA out of memory 错误。我的显卡显存是 16GB,按照 README 中的说明,默认参数可能需要 24G 以上显存,但暂时没有更高显存的设备。
请问:
是否有推荐的参数调整方案(如减小 batch size 或 block size)来适配 16GB 显存的显卡?
调整这些参数可能会对模型性能产生哪些影响?
除了调整参数,还有其他降低显存占用的方法吗?
错误日志片段:
RuntimeError: CUDA out of memory. Tried to allocate 2.00 GiB (GPU 0; 15.99 GiB total capacity; 13.24 GiB already allocated; 1.52 GiB free; 13.58 GiB reserved in total by PyTorch)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions