Closed10
nvidia/cudaのDockerイメージを使っているのにFailed to initialize NVML: Driver/library version mismatchと言われる
ピン留めされたアイテム

結論
nvtop
のインストール時に正しいレポジトリを登録していなくてぶっ壊れていた
解決法
nvtop
インストール前に
add-apt-repository ppa:flexiondotorg/nvtop
を実行しておく
関連

docker run --rm --gpus all nvidia/cuda:12.4.1-cudnn-devel-ubuntu20.04 nvidia-smi
は通っていたので、Dockerfile内で何か変な処理をしてぶっ壊れているみたい

nvidia/cuda:12.4.1-cudnn-devel-ubuntu20.04
を使っている

RUN apt-get install -y --no-install-recommends \
wget curl aria2 \
tmux \
tldr \
nvtop htop \
nano vim \
rsync \
net-tools \
kmod \
less \
iputils-ping \
p7zip-full p7zip-rar \
zip unzip \
inotify-tools \
libopencv-dev libgl1-mesa-dev \
cmake libncurses5-dev libncursesw5-dev libudev-dev
ここでぶっ壊れてるっぽい
具体的にどれが悪さしているのか調べる(後半のlibなんたら系が怪しいが...)

違った
これでも壊れた
RUN apt-get install -y --no-install-recommends \
wget curl aria2 \
tmux \
tldr \
nvtop htop \
nano vim \
rsync \
net-tools \
kmod

OK
RUN apt-get install -y --no-install-recommends \
wget curl aria2 \
tmux \
tldr

nvtop
と htop
のどっちかっぽい

nvtop
だった

これっぽい

↑のissueコメントにあったように、ちゃんとレポジトリを登録してからnvtopをインストールするとぶっ壊れなかった
RUN add-apt-repository ppa:flexiondotorg/nvtop
このスクラップは2024/08/10にクローズされました