nvidia与iptables的坑

Badwood-涂鸦 / 2024-10-06 / 原文

  这两天遇到了一个源自于防火墙导致docker无法运行,且nvidia也不正常的情况,到目前也没彻底弄清楚原因。

  现象:docker run突然报错,跟显卡有关。平时很快返回的nvidia-smi命令变得需要执行很久(没有报错),用nvidia-container-cli -k -d /dev/tty info命令发现有个rpc service拉不起来。

  解决办法:重装docker,保存iptables规则。

  原因分析:之前动了iptables的规则,清理掉了docker相关的一些规则,里面应该有端口开放规则被一起清掉了。但无法解释的是防火墙规则跟nvidia-smi命令有啥关系,为何会影响它的执行。