重大な機器障害の5つの警告サイン

著者: Judy Howell
作成日: 25 J 2021
更新日: 23 六月 2024
Anonim
スマホがウィルス感染している9のサイン
ビデオ: スマホがウィルス感染している9のサイン

コンテンツ


取り除く:

綿密な事前計画によってダウンタイムを削減することは、ビジネスの成長と低下の違いを意味する場合があります。それが平均故障間隔の出番です。

今日の企業がどれほど重要なシステムに毎日依存しているかを過小評価しないでください。企業が機器の故障のリスクを測定できるという唯一の常識があるのはそのためです。機器が故障する可能性があるという保証はありませんが、少なくとも信頼できると見なされなくなる時期の正確な推定値が必要です。

他の方法では見えない機器はビジネスにとって重要ではないように思えるかもしれませんが、単一の冷却ファンが故障すると、発電機がゴーストを放棄し、数十または数十万のユーザーが長期間にわたって費用のかかる問題を引き起こす場合、インフラストラクチャのどのコンポーネントに障害が発生する可能性があるか、いつ発生するかを推定できることが非常に重要です。平均故障間隔(MTBF)が発生する場合、ITプロフェッショナルが正確な情報を提供するために使用する方法 見積り 重要な機器がいつ故障するかについて。ここでは、いくつかの一般的なタイプの重要な機器を最終的に殺すものと、MTBFがどのように1日を節約できるかを見ていきます。

MTBFとは何ですか?

製造されるすべてのIT機器には、一意のモデル番号が割り当てられます。重要なインフラストラクチャで何らかの役割を果たすものは、MTBFの見積もりで顧客に提供されます。機器のMTBFを計算するための複雑な計算は、製品の研究開発における長時間のテストフェーズで行われ、特定のモデルに比較的固有のものです。

特定の機器のMTBFを探している場合は、製造元が提供する詳細な仕様書に記載されています。メーカーに直接連絡することもできます。

ルーティング

エンタープライズグレードのルーターには、移動する部分と静的な部分が多く含まれます。電源ユニット(PSU)と冷却ファンの両方に可動部品があり、特にユニットが比較的ほこりのないデータセンター内に収容されていない場合、障害の原因となる要素があります。ありがたいことに、一部の管理者の入力により、ほとんどのルーターは SysLog 障害が発生したコンポーネントにフラグを立てることができます。


スイッチ

同様の流れに沿って、エンタープライズネットワーク内の次のレベルはスイッチングハードウェアです。エンタープライズグレードのスイッチもファンに依存する傾向がありますが、通常はルーターシャーシ内にあるものよりも少ないです。ファンの回転機構が損なわれていない場合、通常、スイッチポートを予期せず無効にするか、より一般的には、パケットのドロップ、さまざまなレベルのトラフィックの中断、または誤った変更などの異常な動作を示すことにより、障害のあるスイッチがソフトウェアレベルで誤動作しますユーザー定義の設定は要求されません。

ネットワーキングの巨人であるCiscoは、Cisco Catalyst 3750G-24TSモデルの188,574時間のMTBFを有するルーターの1つをアドバタイズします。これを8,765.81277(1年の時間数)で割ると、このモデルのMTBF推定値は約21.5年であることがわかります。もちろん、実際には単に信頼性を示しているにすぎませんが、この装置は障害なく24時間365日正常に動作する必要があると考えると、ある程度の安心感が得られます。たとえそうであっても、それはユーザーにその機器がどれだけ長く続くことができるかについての知識のある推測を与えます。

回復力

多数のバッテリーに接続された無停電電源装置(UPS)は、停電時に発電機が回転する前の短い期間に、企業内でバックアップ電源を提供できます。特定のソフトウェア障害は、他の機器と同様にUPS内で顕在化する可能性がありますが、一般に、電力を供給するバッテリーが通常最も懸念されます。 UPSバッテリーの電源が頻繁に切れて再充電されると、容量が急速に減少し、稼働時間が劇的に短縮されます。当然、UPSバッテリーが完全に故障する可能性もあります。 UPSは、障害が発生するとモデムとネットワークを介して報告できますが、多くの場合、古いUPSは問題が最初に発生したときに可聴アラームをトリガーします。

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド


誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

保護されたストレージ

私たちが今日使用し、そのような高度に依存しているハードディスクは、過去10年ほどで著しく信頼性が高くなりました。しかし、それらは絶対確実なものではなく、あなたがどの研究を信じるかに応じて、それらは多くの要因に応じてより長い期間正しく機能するように見えます。 (これに関するすばらしい意見は、リマーケティング担当者にここで見つけることができます。)詳細なレポートが有効で、ドライブがエラーに関するフィードバックを提供している場合、破損したセクターと読み取り/書き込みエラーは、ストレージアレイ内のディスクを見つける際の鍵となります失敗しています。 RAIDコントローラーに接続された複数のディスクを使用するサーバー内のもう1つの一般的な問題は、コントローラー自体に障害が発生することです。残念なことに、ハードディスクは警告なしに動作を停止することがありますが、これは確実に保護するのが難しい問題です。

サーバー

サーバーに組み込まれたドライブと、前述の冷却ファンやPSUなどの可動部品のほかに、サーバーのハードウェアコンポーネント内で多くの問題が発生する可能性があります。ソフトウェアレベル(通常はBIOSまたは他の低レベルのハードウェアコンポーネント診断を指す)でのレポートは、障害が発生したか、より重要なことには障害の兆候を示しているかを見つけるための鍵です。すぐには明らかにならないかもしれない問題の1つは、マザーボードに影響する問題です。機械があまりにも多くの熱を嫌うことは完全に理にかなっています。しかし、今日でも、最新の回路基板が急速な熱損失にさらされている場合、または非常に高温から急冷されている場合、亀裂が発生し、基板が壊滅的に故障する可能性があります。特に、メンテナンスの時間枠内で建物間で機器を移動する場合は、その問題に留意する必要があります。

MTBF:失敗する可能性があります

MTBF予測と同様に有用なのは、企業が依存しなければならない機器で許容できるリスクのレベルを計算することです。残念なことに、メーカーが提供するすべての統計的保証がある場合でも、重要なシステムを実行する機器の可用性を保証する唯一の具体的な方法は、タイムアウトフェールオーバーを有効にするためにそれを倍増することです。

企業で使用される個々のハードウェアは、多くの異なるコンポーネントで構成されているため、真のMTBFは決して簡単な計算ではありません。明らかに、ビジネスの将来をこれらの可能性の測定に頼るのではなく、ビジネスの継続性と災害復旧手順に関して情報に基づいた決定を行うための尺度としてそれらを使用することが重要です。結局のところ、綿密な事前計画によってダウンタイムを削減することは、ビジネスの成功とビジネスの失敗の違いを意味する可能性があります。