見出し画像

【未経験インフラエンジニア向け】アラートのイメージ

AWS運用保守エンジニア、そろそろ3年目のふうびです。

入社してから視力の低下に困っています。

少し前、吹雪の日に外を歩きながらパッと前を見たら、男の人がうつ伏せで倒れていて、
焦って駆け寄ってみたら、開いた状態の黒い折りたたみ傘でした。ただの見間違いです。よろしくどうぞ。


さてさて、この記事は未経験で運用保守系のエンジニアになった人へ向けて監視システムで検知するアラートについて簡単に説明してみました。

細かい内容を理解するというよりは、イメージをつかむことに重点を置いて、図も織り交ぜながらながら書いています。

業務に慣れる一助となれば幸いLet's go.

■CPU使用率
CPU使用率は、コンピューターの頭脳であるCPUがどれだけ忙しく働いているかということを表しています。
「沢山働いて良いじゃん」とも思いますが、働かせすぎも良くない。

CPU使用率をお家の電気で考えてみます。

電気ポットとか、電子レンジとか一度に使う電力が大きいものを同時にたくさん使うと、ブレーカーが落ちて危ないですよね。
そうならないために、電気の使用率が高くなったらお知らせして、ブレーカーが落ちるのを防ぐ必要があります。

ログインをしての原因調査は、実際に部屋に入って「電子レンジが原因ですね。」って特定してあげるイメージです。

■メモリ使用率
メモリは、実行中のデータやプログラムを一時的に記憶するところです。

これはこれで使いすぎると良くない。

この使用率が高い状態は、リビングのテーブルの上が物で散らかっているみたいなイメージです。
リビングのテーブルに読みかけの本を置いたり、リモコンを置きっぱなしにしたり、その物によってテーブルをどれだけ使うかは異なりますが、
物を置きすぎると空いているスペースがなくなりますよね。

テーブルを沢山使ったまま、例えばご飯の時間になると、テーブルに食事を置けなくて片付けをしている時間分処理が遅れる。そんなイメージ。


■ディスク使用率
ディスクとは、コンピューター内の記録メディアのことです。

データなどの物をしまうところ、つまりタンスやクローゼットと同じです。

タンスの使用率が高くなってきたら「物多いですよ」と教えてあげる必要があります。
タンスがいっぱいなのにさらに物を増やそうとしても入りきらないし、必要な物を取り出すのに時間がかかります。

だから解決策として、お客様に不要ファイルの整理
をお願いします。断捨離しなさいと。


■ログ監視
ログとは、コンピューターのいろんな記録です。
なんでもかんでも記録するので大量に出てきます。

これは家のポストに届くメールのようなものです。
ポストに届くお知らせって、大事なものもあればそうでないものもありますよね。

Linux(リナックス、文字だけで機能するコンピューター)の場合、家と違うのは、お知らせを受け取るポストがたくさんあります。
「/var/log/messages」とか「/var/log/secure」はポストの場所を表しています。

このポストにお知らせが届いたら通知してね!というのがログ監視です。


■サービス、プロセス監視
サービスとプロセスとは、Windows上で動くプログラムです。
両者は若干違いますが、ここでの説明は割愛します。(気になる方はこちら
サービス、プロセス監視では、問題なくプログラムが動いているかを監視しています。

お家で言うと、エアコンとか換気扇のようなものでしょうか。

換気扇はずっと動かしていないと困るので、止まったら通知するようなイメージです。
ちなみにコンピューターの電源が落ちると、もちろん中で動いていたプロセス、サービスも止まります。
Ping Down(電源が落ちたような状態)のアラートが通知されると、同時に発報することも多いです。



■Ping Down(ピングダウン)
Pingとは、ICMPという方法を使用したネットワークの診断プログラムです。
通信したい相手に4回メッセージを送信して、何回ちゃんと返ってくるかで相手の状態を確認します。

Ping Downとは、診断に失敗した状態です。
つまり、呼んでいるのに返事がなく、生きているのかどうかわからない結構ヤバいアラートです。

イメージとしては、インターホンです。

ピンポンしても返事がない場合、単なる外出かもしれませんが、最悪の場合中で人が倒れている可能性もゼロではないです。
なので、このアラートがでたら基本的にお客様への電話連絡が必要となります。


■可用性イベント
可用性イベントはログ監視と似ています。
AWS上ではたくさんのイベント(単なる出来事)が発生し、ログと同じように記録が残されます。

「可用性」とは、問題なく使い続けられるかどうか。というような意味です。

その為、可用性イベントとは、システムが問題なく使い続けることができなくなるかもしれない出来事が起こりました。というアラートです。

家の中でもいろいろな出来事が起こりますが、窓が割れたり、水道管が破裂するような出来事は、問題なく生活できなくなるかもしれないイベントですよね。
そのような危険な事態にすぐに気づくことができるのが、可用性イベントのアラートです


以上、割と頻繁に見かけるアラートの解説でした。
筆者自身まだ未熟なため、記載に不備があれば指摘いただけると嬉しいです。

勉強がんばろ。

この記事を新人研修なんかにも利用していただけたら嬉しいThank you.

この記事が気に入ったらサポートをしてみませんか?