b. Contactez le service de maintenance Lenovo.
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l'événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs
GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.
1. Vérifiez si le resynchroniseur présente une température trop élevée d'après un événement XCC. Si oui,
vous pouvez ignorer l'étape suivante.
2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (
datacentersupport.lenovo.com/products/servers/thinksystem/sd665nv3/7daz
microprogramme.
3. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
4. Si l'événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des
événements XCC Web, cela signifie que le problème a été résolu.
Toutefois, si le problème persiste, procédez comme suit.
a. Consultez le journal des événements XCC Web pour identifier l'unité défectueuse et le type de
problème (voir
« Spécifications du détecteur de GPU XCC » à la page
b. Collectez les données de maintenance XCC (voir
352).
c. Exécutez nvidia-smi pour obtenir un diagnostic (voir
management-interface
d. Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
e. Contactez le service de maintenance Lenovo.
Spécifications du détecteur de GPU XCC
Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau
suivant pour identifier l'unité défectueuse et le type de problème. Par exemple :
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
Tableau 20. Spécifications du détecteur de GPU XCC
Nom du détecteur
Numéro de détecteur
Type de détecteur
Type de mesure du détecteur
ID d'entité
Instance/type
Processeurs
de GPU
Assertions consignées par le
journal SEL
Annulations consignées par le
journal SEL
Annulations de seuils
327).
pour plus de détails)
EAh
17h
07h
0Bh
02h
02h
02h
), puis mettez à jour le
« Contrôle d'intégrité des GPU et
329).
« Collecte des données de maintenance » à la page
https://developer.nvidia.com/nvidia-system-
Données
02h - Passage d'un état moins grave à l'état critique
Evt Data2 :
B0h : Alerte thermique
BBh : État de présence et d'alimentation
B1h : Informations sur les interruptions GPU
21h : État de la liaison PCIe
E0h : Décompte GPU à partir du SMBIOS
Evt Data3 :
XXh : Index CORE GPU, 01h : cœur 1
07h : cœur 3 + cœur 4
.
Chapitre 3
Identification des problèmes
https://
329