$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Le récapitulatif de l'utilitaire nvidia-smi indique qu'il y a 4 GPU en ligne.
Figure 434. nvidia-smi
Le système ne détecte pas la carte GPU.
Lorsqu'un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre
ce problème, procédez comme ci-après.
1. Mettez le système hors tension, puis redémarrez-le.
2. Vérifiez les événements associés à l'alimentation au niveau du XCC et du module SMM2 (voir
thinksystem.lenovofiles.com/help/topic/mgt_tools_smm2/c_power.html
3. Vérifiez la température du système et le débit d'eau. Recherchez la présence d'une fuite, puis
déconnectez et reconnectez le système de refroidissement par eau.
4. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
5. L'un des éléments suivants indique que le problème a été résolu :
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
• Sensor GPU Board has transitioned to normal state dans le journal Web
Toutefois, si le problème persiste, procédez comme suit :
a. Collectez les données de maintenance XCC (voir
448).
b. Contactez le service de maintenance Lenovo.
440).
).
« Contrôle d'intégrité des GPU et
« Collecte des données de maintenance » à la page
.
Chapitre 4
Identification des problèmes
https://
441