세팅/ubuntu

Ubuntu 20.04에서 NVIDIA CUDA 및 NCCL 관련 문제를 해결

hyunkookim 2025. 1. 3. 19:41

Ubuntu 20.04에서 NVIDIA CUDA 및 NCCL 관련 문제를 해결하려면 Ubuntu 20.04에 맞는 저장소와 GPG 키를 사용해야 합니다. 아래 단계를 따라 문제를 해결하세요.


1. 기존 설정 제거

잘못된 GPG 키와 저장소 설정을 제거합니다.

bash
코드 복사
sudo rm -f /etc/apt/sources.list.d/cuda.list sudo rm -f /etc/apt/sources.list.d/nvidia-machine-learning.list sudo rm -f /usr/share/keyrings/nvidia-archive-keyring.gpg

2. Ubuntu 20.04에 맞는 GPG 키 추가

NVIDIA의 Ubuntu 20.04용 GPG 키를 추가합니다.

  1. GPG 키 다운로드:
  2. bash
    코드 복사
  3. Keyring으로 변환하여 저장:
  4. bash
    코드 복사
    sudo gpg --dearmor -o /usr/share/keyrings/nvidia-archive-keyring.gpg 3bf863cc.pub

3. 저장소 추가

Keyring을 사용하여 NVIDIA 저장소를 설정합니다.

  1. CUDA 저장소 추가:
  2. bash
    코드 복사
    echo "deb [signed-by=/usr/share/keyrings/nvidia-archive-keyring.gpg] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /" | sudo tee /etc/apt/sources.list.d/cuda.list
  3. 머신러닝 저장소 추가:
  4. bash
    코드 복사
    echo "deb [signed-by=/usr/share/keyrings/nvidia-archive-keyring.gpg] https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu2004/x86_64/ /" | sudo tee /etc/apt/sources.list.d/nvidia-machine-learning.list

4. 패키지 목록 업데이트

새로운 저장소를 설정한 후 패키지 목록을 업데이트합니다.

bash
코드 복사
sudo apt-get update

5. NCCL 라이브러리 설치

패키지 목록 업데이트 후 NCCL 라이브러리를 설치합니다.

bash
코드 복사
sudo apt-get install -y libnccl2 libnccl-dev

6. 설치 확인

설치가 완료되면 NCCL 관련 파일이 있는지 확인합니다.

bash
코드 복사
ls /usr/lib/x86_64-linux-gnu/libnccl*

7. 환경 변수 설정

NCCL 라이브러리가 제대로 로드되도록 환경 변수를 설정합니다.

  1. 환경 변수 추가:
  2. bash
    코드 복사
    export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
  3. 이를 영구적으로 설정하려면:
  4. bash
    코드 복사
    echo 'export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

8. 테스트

설치가 완료된 후, PyTorch 및 CUDA가 제대로 작동하는지 확인합니다.

bash
코드 복사
python -c "import torch; print(torch.cuda.is_available())"

이 단계를 통해 Ubuntu 20.04 환경에서 NVIDIA CUDA 및 NCCL 관련 문제를 해결할 수 있습니다. 문제가 계속된다면 추가 로그를 공유해 주세요! 😊