•
•
•
•
•
•
•
Fonctions RAS au niveau du serveur lame
Le serveur lame comprend les fonctions RAS suivantes :
•
•
•
•
•
•
•
•
•
•
•
•
•
8
Serveur Lame Escala Blade EL260B - Guide d'installation et d'utilisation
Mémoire Chipkill pour modules DIMM.
Alertes mémoire PFA (Predictive Failure Analysis) par l'intermédiaire de la fonction
d'analyse de mémoire et de la vérification et de la correction des erreurs (ECC, Error-
Checking and Correction).
Fonction d'analyse de la mémoire.
Parité des bus PCI (Peripheral Component Interconnect), ECRC et détection des erreurs
SLD (Surprise Link Down).
Seuil PFA d'erreurs matérielles susceptibles d'être corrigées au niveau des
microprocesseurs et du cache L2.
Diagnostics d'exécution des processeurs (PRD, Processor Runtime Diagnostic)
déclenchant les actions ci-après pour réaliser une récupération après incident.
Réparation spontanée (réallocation dynamique des blocs mémoire, par exemple).
−
Désallocation au moment de l'exécution des ressources défectueuses (cœur de
−
processeur, page mémoire).
Identification des pièces pour la maintenance.
−
Désallocation permanente des erreurs d'exécution, si nécessaire, pour les
−
éléments caches I-Cash et D-Cash et les caches L2 et L3.
Récupération transparente des erreurs matérielles du microprocesseur (erreurs
−
du cache L2, par exemple).
Arrêt de contrôle pour processeur unique (incluant l'arrêt de contrôle de partition).
Réinitialisation automatique du processeur de maintenance (BMC) et reprise du
chargement pour les erreurs liées au processeur de maintenance.
Récupération automatique du serveur et redémarrage automatique en cas de blocage
du démarrage ou après détection de conditions d'arrêt de contrôle (checkstop).
Redémarrage automatique du serveur (ASR, Automatic Server Restart).
Surveillance intégrée de la température, de la tension, des disques durs et des lecteurs
flash.
Analyse des arrêts de contrôle.
Détection des arrêts de contrôle avec redémarrage automatisé.
Code BIOS (Basic Input/Output System) pouvant être mis à niveau par le client
(microcode).
Prise en charge du démarrage limité en mode dégradé (mémoire et microprocesseurs).
Traitement étendu des erreurs (EEH, Extended Error Handling) pour l'hôte PCI et les
pannes liées aux systèmes Root Complex, aux bus PCIe ou aux adaptateurs PCI.
Mise hors tension en cas d'urgence (EPOW, Emergency power off) du serveur lame
et des cartes d'extension.
Vérifications et alertes environnementales.
Messages et codes d'erreur.
Vérification et correction des erreurs de mémoire