Le sous-système de contrôle est également conçu pour détecter les pannes de
ventilateur. Le système est équipé de deux plateaux de ventilateurs, contenant cinq
ventilateurs au total. Si l'un des ventilateurs tombe en panne, le sous-système de
contrôle détecte la panne, génère un message d'erreur, le consigne dans le fichier
/var/adm/messages, allume la DEL du plateau de ventilateurs appropriée,
puis allume la DEL Panne du système.
Le sous-système d'alimentation est contrôlé de la même manière. En interrogeant
régulièrement les registres de statut des alimentations, le sous-système de contrôle
indique le statut des sorties CC de chaque alimentation.
Si un problème d'alimentation est détecté, la console affiche un message d'erreur,
puis le consigne dans le fichier /var/adm/messages. De plus, les DEL placées
sur chaque alimentation s'allument pour indiquer les pannes.
Reprise automatique du système
Pour certains, la fonction de reprise automatique (ASR) implique la possibilité de
blinder le système d'exploitation dans l'éventualité d'une panne matérielle pour
lui permettre de continuer à fonctionner. L'implémentation de la fonction ASR sur
le serveur Sun Fire V490 est différente. Cette fonction permet en effet l'isolation
automatique des pannes et la restauration du système d'exploitation à la suite de
pannes ou de défaillances non-fatales des composants matériels suivants :
processeurs,
■
modules de mémoire,
■
cartes et bus PCI,
■
sous-système FC-AL,
■
interface Ethernet,
■
interfaces USB,
■
interface série.
■
En cas de panne matérielle de ce type, les tests de diagnostic du microprogramme
isolent le problème et marquent le périphérique (à l'aide de l'interface cliente 1275,
via l'arborescence des périphériques) comme étant failed (en panne) ou disabled (en
panne). Le microprogramme OpenBoot désactive ensuite le périphérique en panne et
redémarre le système d'exploitation. Tout ceci se fait automatiquement du moment
que le système Sun Fire V490 peut fonctionner sans le composant en panne.
Une fois restauré, le système d'exploitation n'essaie pas d'accéder aux périphériques
déconfigurés. Ceci permet d'éviter qu'un composant matériel défectueux rende le
système entièrement indisponible ou provoque des blocages répétitifs du système.
Tant qu'un composant défectueux est électriquement inactif (c'est à-dire qu'il ne
provoque pas d'erreurs de bus aléatoires ni de bruit dans les lignes de signal), le
système redémarre automatiquement et reprend son fonctionnement. Veillez à
demander à un technicien qualifié de remplacer le composant en panne.
Chapitre 2 Présentation du système
21