在Linux上训练深度学习模型常用的一些命令整理

最近在用学校的服务器训练一些模型,所以整理几个很常用的命令……
带有端口转发的ssh,可以方便在Linux服务器上开个Jupyter Notebook在本机连入

1
ssh -L localhost:[local port]:localhost:[remote port] [username]@[remote address]

查看训练卡详情,包括卡的温度、实时功率和显存占用等
其中watch可以常驻终端动态查看,参数-n可以控制更新频率

1
nvidia-smi
1
watch nvidia-smi
1
watch -n 0.1 nvidia-smi

查看系统的整体运行情况
进入后按e可以调整下半部分单位,E调整上半部分单位,如k、m、g、t、p

1
top

列出conda包含的环境

1
conda env list

在Linux上训练深度学习模型常用的一些命令整理

https://smallsquare.github.io/Common-commands-when-training-deep-learning-models-on-Linux/

Author

SmallSquare

Posted on

2022-04-22

Updated on

2023-03-17

Licensed under

Comments