•
« Spécifications du détecteur de GPU XCC » à la page 385
Remarque : Assurez-vous de mettre à jour le pilote du GPU, qui inclut l'utilitaire nvidia-smi requis pour
l'identification des problèmes du GPU. Le pilote le plus récent est disponible à l'adresse suivante :
datacentersupport.lenovo.com/products/servers/thinksystem/sd650nv3/7d7n/downloads/driver-list/
Contrôle d'intégrité des GPU et de la carte GPU
L'état suivant du détecteur signalé par ipmitool indique que les GPU et la carte GPU sont dans un état
normal.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Le récapitulatif de l'utilitaire nvidia-smi indique qu'il y a 4 GPU en ligne.
Figure 413. nvidia-smi
Le système ne détecte pas la carte GPU.
Lorsqu'un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre
ce problème, procédez comme ci-après.
1. Mettez le système hors tension, puis redémarrez-le.
2. Vérifiez les événements associés à l'alimentation au niveau du XCC et du module SMM2 (voir
pubs.lenovo.com/mgt_tools_smm2/c_power
3. Vérifiez la température du système et le débit d'eau. Recherchez la présence d'une fuite, puis
déconnectez et reconnectez le système de refroidissement par eau.
384
Plateau ThinkSystem SD650-N V3 Neptune DWC Guide d'utilisation
).
https://
.
https://