主要なインシデント管理を自動化するための5つのベストプラクティス

著者: Roger Morrison
作成日: 27 9月 2021
更新日: 21 六月 2024
Anonim
インシデント管理のためのSREベストプラクティスの紹介〜カオスエンジニアリングツール「Gremlin」の活用
ビデオ: インシデント管理のためのSREベストプラクティスの紹介〜カオスエンジニアリングツール「Gremlin」の活用

コンテンツ



出典:Pixtum / iStockphoto

取り除く:

スマート自動化戦略を使用すると、ダウンタイムと潜在的なセキュリティ侵害を最小限に抑えて、インシデント対応をこれまでよりも迅速かつ簡単に行うことができます。

主要なITインシデントは、企業内で毎日発生しています。ほんの一握りだけが見出しになりますが、停電やセキュリティ侵害などのイベントは、従業員の生産性に深刻な影響を与え、顧客の認識に悪影響を及ぼし、最も重要なことに、収益の損失をもたらします。

そのため、主要なITインシデントの管理に関しては、ビジネスへの影響と収益に集中することが最善です。 Ponemon Instituteによると、2016年のダウンタイムの平均コストは1分あたり8,851ドルでした。これは1時間あたり500,000ドルを超え、通常のダウンタイムは平均で90分以上です。そして、これはただのコストです!レピュテーションの損傷や顧客の減少などの長期的な影響は予測不能であり、壊滅的な可能性があります。

すべての主要なインシデントを完全に回避することはできませんが、発生した場合に対処するために可能な限り準備するように組織を武装させることができます。そして、戦略の主要な要素は自動化を組み込むことです。主要なインシデント解決プロセスで自動化の使用を最大化する組織は、サービスの迅速な復旧と、人為的ミスによるミスの大幅な削減を実現します。これは、自動化がビジネスインパクトウィンドウの期間を短縮する能力に直接影響を与えるためです。つまり、ユーザーとビジネスオペレーションが実際にインシデントのインパクトを感じる期間であるためです。 (自動化の詳細については、「自動化:データサイエンスと機械学習の未来?」を参照してください。)

自動化の利点を最大限に活用するには、影響期間にどのアクティビティを実行する必要があるかを調べ、インシデントが開始する前またはビジネスが通常の運用に戻った後に、他のすべてのアクティビティをどのように移動するかを把握する必要があります。開始するのに役立つ5つの方法を次に示します。

1.プロセスの開発と定義

主要なインシデント管理プロセスの定義は、インシデント中に計画、調整、または実行できるものを特定することです。これは、たとえば、スキルセットとスケジュールによって主要なサポートチームメンバーを特定することを意味する場合があります。これにより、サービスデスクは、できる限り迅速かつ効率的にチームに参加できます。また、チームが関連情報をどのように伝えてチームがすぐに問題の解決を開始できるかを把握し、適切な関係者に情報を提供し、更新することも意味します。


自動化は、このプロセスの重要な側面にとって重要です。たとえば、サービスデスクチケットに監視ツールからの関連情報を含めることを自動化したり、インシデントリゾルバへの通知にサービスデスクからの情報を含めることができます。また、すべての人がアクセスできる包括的な真実の単一のソースにインシデント全体を文書化することもできます。このプロセスを実践して正しく実行できることを忘れないでください。アプローチをテストするために実際のインシデントを待つ必要はありません。

2.インフラストラクチャを適切に活用する

アラート疲労のこの日と年齢では、あなたに関係のない通知や情報をチームに攻撃し続けないことが重要です。監視アラートにフィルターを適用すると、チームは日常的な騒音の干し草の山に簡単に照準を合わせることができます。これは、情報の過負荷を増やすだけでなく、すべての洞察とデータを真に実行可能にするための鍵です。

自動化する良い方法には、APMソリューションを使用してすべてのアプリケーションとシステムをクロールし、パフォーマンスが低下した時点で、重大なサービス停止を引き起こす前に根本原因を特定することが含まれます。また、監視、サービスデスク、コラボレーションアプリ、チャットツールを統合して、リアルタイムで情報を共有することもできます。

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質に関心がない場合、プログラミングスキルを向上させることはできません。

3. MTTRを正確に測定する

平均修復時間(MTTR)をどのように測定しますか? ITチームが関与している合計時間、またはビジネスが実際に影響を受けている合計時間に基づいていますか?答えが前者の場合、代わりにビジネスの観点を使用して影響ウィンドウの測定を再検討する必要があります。目標はインシデントの影響を最小限に抑えることであり、単により良い応答レポートをボードに提示することではないため、これは最適化の取り組みにとってはるかに正確な詐欺です。 (ダウンタイムとその処理方法の詳細については、「障害間の平均時間とはどういう意味か」を参照してください。)


アプリケーションを完全に可視化して必要に応じてさかのぼって「クロックを開始」し、分析と監査のために解決アクティビティと通信の完全な記録を保存してプロセスを改善することで自動化できます。

4.関係者に情報を提供します-ただし、解決を中断することはありません

利害関係者は、効果的でタイムリーなコミュニケーションを期待すると同時に、主題の専門家が問題の解決にレーザーに焦点を合わせ続けることを期待しています。コミュニケーションの連絡先を指定してビジネスユーザーを監視し、関与させることができますが、より効果的な戦略は、ステータスの更新を含むセルフサービスWebページを作成することです。これにより、利害関係者は、チームにさらに電話や電話をかけることなく、自分自身をチェックできます。定期的に利害関係者を更新することを忘れないでください。そうすることで、関係者は常に最新のステータスレポートを受け取り、期待することができます。サービスが回復したからといって、通信が止まらないことを忘れないでください!重要な利害関係者は、何が起こったのか、何が学ばれたのか、そして将来どのように状況を防ぐことができるのかの要約を入手します。

この場合の自動化を実装して、利害関係者向けの自動リアルタイムステータスページを作成し、チャットツールにスラッシュコマンドを作成してそのページを更新できます。

5.問題管理をサポートするデータを収集する

サービスの復元は、インシデント管理の終わりではありません!実際、最も価値のある活動のいくつかは、解決の余波で起こります。診断データと影響データを収集し、根本原因分析を実行することにより、将来同様のインシデントを回避するための予防措置の実施を含む主要なインシデントの完全な監査を実行できます。さらに、認識可能なインシデントが再び発生した場合でも、収集する必要のあるデータの種類と、解決を推進するために発生する必要がある手順について、定義済みの手順を作成できます。このように、チームはチェックリストを参照し、必要なものとタイミングを心配するのではなく、サービスを復元するという中核的な目的に集中するだけです。

ここでの自動化は、チャット記録のようなものを含む解決アクティビティを、分析のために単一の記録システムにキャプチャして保存できます。さらに、おなじみのインシデントまたは問題のカタログを作成し、それぞれのベストプラクティスを強化し、将来の解決速度を向上させるのに役立ちます。

結論:よりスマートで自動化

より多くの自動化が必ずしもより良いアプローチではないことに注意してください! ITシステムをいつ、どこで、どのように接続してインシデント管理をサポートするかを理解することがより重要です。自動化されたプロセスを増やすために、不必要な複雑さを追加する必要はありません。目標は、運用を可能な限り簡素化および統合して、チームが問題に効率的に取り組む力を感じられるようにすることです。重要なインシデントの全体的なビジネスへの影響を最小限に抑えるために、適切に調整された一連のプロセス、知識豊富なスタッフ、および効果的な利害関係者のコミュニケーションを促進する自動化をインテリジェントに実装することです。