Appearance
常见问题
Q:包年包月的实例关机后,GPU会预留吗?
A: 只要在包年包月期间都会预留,随时都可以重启,不必担心GPU被其他用户占用。
Q:GPU容器实例如何计费?
A: GPU的价格是实时变动的,请以算力市场的实时价格为准.更多计费规则请参考我们的计费文档
Q: 一个实例中的多卡是否支持并行?
A: 同一个实例中的多卡在同一物理主机上,支持多卡并行,如需多机多卡并行请联系客服。
Q: 已经释放的实例还能找回数据吗?
A: 不能找回。
Q: 程序卡住没有输出什么原因?
A:首先使用top和nvidia-smi命令分别查看CPU和GPU的使用率。如果CPU一直为100%且GPU无占用,那么大概率卡在了GPU调用上,那么请看上一个问题的答案。如果不是上述原因,那么需要进行代码Debug,推荐在关键代码行上print日志,然后执行程序定位程序卡在了哪一行代码语句上,根据定位的代码谷歌确认原因,这类情况也与代码本身有关,需具体原因具体分析,切忌不看代码只猜。
Q: 爆显存(CUDA OOM)什么原因?
A:如果执行程序报错OOM显存不足,那么最简单的调试办法是设置batch size=1然后逐步增大,观察跑到多大bs时OOM,以此为依据再决定升配成多卡还是换一个更大显存的卡。另外一种情况,第一次跑没有OOM,但是再次运行就OOM了,这类情况先使用nvidia-smi命令确认在未跑时显存占用,如果有占用那么说明有之前跑的残留进程需要清理掉,清理方式: ps -ef 找到进程PID,然后kill -9 PID,如果没有显存占用,那么说明程序的特性就这样,比如动态深度学习框架的显存是会发生变化的,正好在计算过程中对显存的需求超出上限。
