見出し画像

平常時の時系列数値データを学習!?企業システムの障害を早期に検知!②

企業のIT 資産から出力される”時系列の数値データ”を活用して、統計モデルからシステム障害を検知するアプローチについて、以前こちらの記事で、”単変量解析による障害検知”をご紹介しました。
まだ読んでいない方はぜひご覧ください!

今回こちらの記事では、前回の続きとして、”多変量解析による障害検知”と単変量・多変量解析による障害検知を行うIBM のソリューションについてご紹介します。

②多変量解析による検知

複数の変量(メトリック)間の相関性に着目するアプローチで、相関性を持った複数の変量の動きが崩れたことを検知することができます。

複数の変量の関係を学習させて、ある変量で異常を検知した際に関連のある変量を自動検出する仕組みになります。これによって障害時の根本原因分析を迅速化したり、影響箇所の把握を支援することができます。

下図は、Webアプリのレスポンスタイムがベースラインから逸脱して異常検知し、関連性の高い変量として、DB のバッファープールヒット率を提示した例になります。

企業システムの異常検知の課題として、ひとつの原因で複数のKPI が異常になる場合に発生する異常アラートが多くなることや、複数の異常の関係性がわからないと根本原因や予兆の特定が難しい、などがあると思います。

この後ご紹介するMetric Manager では、異常を検知した場合に、多変量解析で関連の高いKPI を自動で検出することができます。
次のような効果が期待できます。

  • 関連性の高い異常アラートをグループ化することでアラート数を削減

  • KPI 間の依存関係を理解し、根本原因特定を迅速化

将来予測

こちらもこの後ご紹介するMetric Manager で提供する機能で、下記2種類の予測機能(予測データは点線で表示)を提供しています。異常がどのように進行するかについての洞察を得ることができます。

データのパターンにあわせて複数の予測アルゴリズムが動的に適用される仕組みになっています。(線形回帰、Holt-Winters 加法、Holt-Winters 乗法、ARIMA)

これによって、システム障害を予兆の段階で検知し、障害を未然に防ぐことに繋げられる可能性もあります。

ここからはこれまでご紹介してきた、単変量・多変量解析による障害検知を行うことができるソリューションのご紹介です。

Metric Manager - 障害・予兆検知

IBM では、企業システムの平常時の”時系列の数値データ”の挙動を学習させて早期に多くの障害を検知することが可能なソリューションとして、"
Metric Manager"
をご提供しています。

監視ツールやファイルから性能情報を読み込み、平常時の挙動(パターン)学習を行うことで、人間が気付くことができないシステム異常(アノマリー)を早期に検知することができます。

Metric Manager の特徴

  • 複雑な設定不要!データを取り込むだけで自動的に最適なアルゴリズムで分析します。

  • “異常挙動” の発生順序を辿ることで障害原因を迅速に切り分けます。

  • 障害発生の予兆を捉え、業務影響が出る前に対応を開始できます。

ポイントは、
”時系列数値データならなんでも分析対象にできる”
ことです。

監視対象システムから”時系列の数値データ”をJSON, CSVファイルに書き出すか、DBから”時系列の数値データ”を取得する仕組みで、監視対象システムには負荷は掛からない仕組みになっています。
例えば、CPUやメモリーなどの使用率やアプリパフォーマンスデータ(トランザクション数、レスポンスタイム)などの時系列のデータを学習させて、障害検知を行うことができます。

また、各アルゴリズムで分析する期間や再トレーニングを行う間隔など、Metric Manager の設定を調整して利用することができます。

IBM Cloud Pak for Watson AIOps

このMetric Manager は、IBM Cloud Pak for Watson AIOps のコンポーネントの1つとして提供しています。単体で利用いただくことも可能ですし、他の運用監視のコンポーネントと組み合わせて運用高度化を進めることもできます。

IBM Cloud Pak for Watson AIOps については、こちらで紹介されています。ぜひご覧になってみてください。

当記事に少しでもご興味お持ちいただき、さらに詳しい情報をお知りになりたい場合は、ぜひ下記アンケートよりお気軽にお問い合わせください。
ご記入いただいた方には、貴社の今後のDX変革にお役立てできるIBM の最新情報をお届けします!

どうぞよろしくお願い申し上げます。フォロー&記事のシェアをしていただけますと幸いです。

この記事が気に入ったらサポートをしてみませんか?