Les sondes de température sont disséminées sur le serveur afin de contrôler sa
température ambiante et ses composants internes. Le logiciel et le matériel sont
chargés de vérifier les niveaux de température dans le boîtier et de s'assurer qu'ils
ne dépassent pas les plages de fonctionnement sûr prédéfinies. Si la température
captée par une sonde tombe sous le seuil minimal ou qu'elle dépasse le seuil
maximal, le logiciel du sous-système de contrôle allume en orange les DEL de
service requis à l'avant et à l'arrière de l'unité. Si la condition de température
persiste et qu'elle atteint un seuil critique, le serveur lance une procédure d'arrêt
progressif. En cas de panne de l'ALOM, les sondes de sauvegarde protègent le
serveur de dommages graves en lançant un arrêt matériel forcé.
Tous les messages d'erreur et d'avertissement sont envoyés à la console système et
sont consignées dans le fichier journal de la console ALOM. Les DEL de maintenance
requise restent allumées après un arrêt automatique du système afin de faciliter le
diagnostic du problème.
Le sous-système de surveillance est également conçu pour détecter les pannes de
ventilateur. Le système inclut des ventilateurs de blocs d'alimentation complets,
ainsi qu'un ventilateur de carte PCI et trois unités soufflantes. En cas de panne d'un
ventilateur de carte PCI ou d'une unité soufflante, le sous-système de surveillance
détecte la panne et génère un message d'erreur dans la console système, consigne le
message dans le fichier /var/adm/messages et allume les DEL de maintenance
requise.
Le sous-système d'alimentation est contrôlé de manière similaire et toutes les pannes
sont signalées sur les DEL des panneaux avant et arrière. De plus, les DEL situées
sur chacun des blocs d'alimentation s'allument pour signaler les pannes.
Correction d'erreurs et contrôle de la parité
Le processeur multinoyau UltraSPARC T1 protège la parité de ses mémoires cache
internes, y compris la parité des balises et des données du cache de données et du
cache interne. Le cache L2 de 3 Mo est doté d'une protection de la parité pour ses
balises et d'une protection ECC (détection et correction des erreurs) pour les
données.
La fonction ECC avancée, également appelée chipkill, corrige jusqu'à 4 bits dans les
erreurs de limites dans les groupes de quatre bits, sous réserve qu'ils se trouvent
dans la même mémoire DRAM. En cas de panne de la mémoire DRAM, le module
DIMM continue de fonctionner.
10
Guide d'installation du serveur Netra T2000 • Septembre 2006