•
« Spécifications du détecteur de GPU XCC » à la page 328
Contrôle d'intégrité des GPU et de la carte GPU
L'état suivant du détecteur signalé par ipmitool indique que les GPU et la carte GPU sont dans un état
normal.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Gestionnaire Intel® XPU
Vous pouvez utiliser le gestionnaire Intel® XPU afin de vérifier l'intégrité du GPU. Le gestionnaire Intel® XPU
est un outil de surveillance et de gestion du GPU visant à simplifier l'administration du GPU. Vous pouvez
télécharger le gestionnaire Intel® XPU et trouver des informations à son sujet à l'adresse suivante :
www.intel.com/content/www/us/en/software/xpu-manager.html
Le système ne détecte pas la carte GPU.
Lorsqu'un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre
ce problème, procédez comme ci-après.
1. Mettez le système hors tension, puis redémarrez-le.
2. Vérifiez les événements associés à l'alimentation au niveau du XCC et du module SMM2 (voir
pubs.lenovo.com/mgt_tools_smm2/c_power
3. Vérifiez la température du système et le débit d'eau. Recherchez la présence d'une fuite, puis
déconnectez et reconnectez le système de refroidissement par eau.
4. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
5. L'un des éléments suivants indique que le problème a été résolu :
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
• Sensor GPU Board has transitioned to normal state dans le journal Web
Toutefois, si le problème persiste, procédez comme suit :
a. Collectez les données de maintenance XCC (voir
352).
b. Contactez le service de maintenance Lenovo.
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l'événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs
GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.
1. Vérifiez si le resynchroniseur présente une température trop élevée d'après un événement XCC. Si oui,
vous pouvez ignorer l'étape suivante.
2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (), puis
mettez à jour le microprogramme.
3. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
4. Si l'événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des
événements XCC Web, cela signifie que le problème a été résolu.
).
327).
327).
.
« Contrôle d'intégrité des GPU et
« Collecte des données de maintenance » à la page
« Contrôle d'intégrité des GPU et
.
Chapitre 8
Identification des problèmes
https://
https://
327