Télécharger Imprimer la page

Lenovo ThinkSystem SD650-N V3 Neptune DWC Guide D'utilisation page 393

Masquer les pouces Voir aussi pour ThinkSystem SD650-N V3 Neptune DWC:

Publicité

4. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
5. L'un des éléments suivants indique que le problème a été résolu :
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
• Sensor GPU Board has transitioned to normal state dans le journal Web
Toutefois, si le problème persiste, procédez comme suit :
a. Collectez les données de maintenance XCC (voir
408).
b. Contactez le service de maintenance Lenovo.
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l'événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs
GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.
1. Vérifiez si le resynchroniseur présente une température trop élevée d'après un événement XCC. Si oui,
vous pouvez ignorer l'étape suivante.
2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (
datacentersupport.lenovo.com/products/servers/thinksystem/sd650nv3/7d7n
microprogramme.
3. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
4. Si l'événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des
événements XCC Web, cela signifie que le problème a été résolu.
Toutefois, si le problème persiste, procédez comme suit.
a. Consultez le journal des événements XCC Web pour identifier l'unité défectueuse et le type de
problème (voir
« Spécifications du détecteur de GPU XCC » à la page
b. Collectez les données de maintenance XCC (voir
408).
c. Exécutez nvidia-smi pour obtenir un diagnostic (voir
management-interface
Remarque : Assurez-vous de mettre à jour le pilote du GPU, qui inclut l'utilitaire nvidia-smi requis
pour l'identification des problèmes du GPU. Le pilote le plus récent est disponible à l'adresse
suivante :
https://datacentersupport.lenovo.com/products/servers/thinksystem/sd650nv3/7d7n/
downloads/driver-list/
d. Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
e. Contactez le service de maintenance Lenovo.
Spécifications du détecteur de GPU XCC
Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau
suivant pour identifier l'unité défectueuse et le type de problème. Par exemple :
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
384).
384).
pour plus de détails)
.
« Contrôle d'intégrité des GPU et
« Collecte des données de maintenance » à la page
), puis mettez à jour le
« Contrôle d'intégrité des GPU et
385).
« Collecte des données de maintenance » à la page
https://developer.nvidia.com/nvidia-system-
.
Chapitre 9
Identification des problèmes
https://
385

Publicité

loading

Ce manuel est également adapté pour:

7d7n