NVIDIA: Не удалось определить дескриптор устройства для графического процессора 0000:02:00.0: Неизвестная ошибка

Материал из support.qbpro.ru

1.Перезагрузка вернет графический процессор на корневую шину, но некоторые процессы машинного обучения все равно будут иногда снова отключать его;
2.Запуск команды мониторинга устройства:

nvidia-smi dmon -i 0 -s puv -d 5 -o TD

2.1 (откройте терминал, выполните эту команду и наблюдайте за логами в реальном времени) оказался полезным для отслеживания температуры, использования памяти, а также нарушений, связанных с питанием и температурой.
2.3 Это позволило исключить температуру как причину, но выявило проблемы с питанием;
3.Переустановка видеокарт и повторное подключение питания «решили» проблему. Тем не менее, хотя сбоев больше нет, по-прежнему наблюдаются нарушения электропитания, что наводит меня на мысль, что либо мой блок питания начинает выходить из строя, либо видеокарта.

  • Дело в том, что графические процессоры довольно чувствительны к таким факторам, как напряжение, поскольку оно влияет на поток данных, который должен быть очень точным при тактовых частотах, на которых работают графические процессоры. Факторы, оказывающие значительное влияние на напряжение, включают:
  • состояние графического процессора
  • температура графического процессора
  • состояние блока питания