見出し画像

実現したい仕組みを考える ~障害対応をリモートで実現 ~

システムエンジニア×1児の母 なんちゃんです。

自分の思うところ、変えていきたいこと、学んだことのアウトプットをしていきたいと思います。よろしくお願いします。

先日、別のプロジェクトからの情報共有でプラットフォームとしてGoogle Cloud Platform(GCP)を使って、99%でリモートで運用できているという話を聞きました。このような仕組みがスタンダードになってほしいと思う一方、私自身はクラウド環境を自身の検証や学びのために利用することのほうが多く、実際の業務で使うことはほぼありません。知識を深めるためにも、Noteにまとめていこうと思います。なお、自身の学びのため内容であり、記載に誤りに気付いた方はご指摘いただけると助かります。

Google Cloud Platform(GCP)とは

Google社が提供するクラウドコンピューティングサービス。ひと昔前まで、何かシステムを開発する際には、オンプレミス環境(図では自動設置型とある)といって、自分で様々な機器を購入し、置く場所を確保し、それらの機器の設計し設定していく必要がありましたが、そこらへんを一手にサービスとして提供し、アカウントを開設することですぐに環境が整うものです(とてもざっくり)。簡単に従量課金で利用できるので、用途に合わせてカスタマイズしていけます。
代表的な同様のサービスとして、AWSやMicrosoft Azureなどがあります。GCPといってもふたを開ければ中身はたくさんのサービスがあり、Iaas、PaaS,SaaSの様々なサービスが存在します。

画像1

GCP入門編でこんな記事もあります。


リモートでモニタリングできるサービス DATADOG

そこで気になったのがGCPと連動して使えるこれ。
クラウド時代の監視アプリケーションサービス DATADOG。

画像2

https://www.datadoghq.com/ja/product/
https://pages.awscloud.com/rs/112-TZM-766/images/Datadog_0613.pdf

あらゆるスタックやアプリケーションの状況を監視し、このDATADOGに情報を集めることができます。
話を聞いたプロジェクトでは、セキュリティ面を考慮したリモート環境を作ったうえで、各種本番サービスが稼働しているシステム状況をリアルタイムにこのDATADOGからみることで、99%自宅から対応できているそうです。ちなみに99%の残りの1%は生の顧客情報であり、それだけはセキュリティが確保された限られた場所で手続きを経て参照をする必要があります。すべての情報をDATADOGで見れてしまうと自宅などのリモート環境からなんでも参照できてしまい、顧客情報の流出につながるので、セキュリティを考慮して第三者が分からない値や仕組みで情報管理する工夫がされています。

ちなみに、私の今見ているシステムでは、セキュリティが確保された限られた場所からしか確認できない情報が多く、夜間に何かしらのアラートメールが通知されても、実際に何が起きているのか、その限られた場所に出社し、様々な情報を調べて対応することが必要になっています。
このような出社するメンバーは当番制で、当番が回ってきている日は予定していた仕事やプライベートを犠牲にし、障害対応をする必要があります。明日の営業時間帯の対応でよいものであっても、とりあえずエラー内容をみて一次判断をするといった動きがあるので、子供をもつ前このような保守業務といわれるリーダをやっていましたが、「つらい」という日々でした・・・。

場所にとらわれずに働くために学ぶ

1時間かけて出社するのも嫌だけど、そのために近くに住むのもなんか違う。地方や海外に住んでても別にシステム対応やれもよくないかな?
そんな私にとってDATADOGの「場所や規模に関係なく、あらゆるスタック/アプリケーションの内部を監視」のキャッチコピーを見ただけで好きになりました。

ちなみに私の最近のテーマはこれ↓
「時間や場所にとらわれずに働きたい」×「システムエンジニアを続けたい」×「家族と楽しくすごしたい」


調べてみると、GCPだけのサービスではなく他のクラウドサービスでも使えるものでした。今はAWSを触る機会のほうが多いのでAWSで試してみるかな?

14日間は無料でできるし、簡単そう!
https://qiita.com/suzuyui/items/b18a7e686bab69d9ecd2


高いセキュリティが要求されるシステムにおいてもこういう仕組みが登場してきて使われ始めています。
気になった仕組みを少しずつでも学んで、実現するための思考づくりをしていこうと思います。

他にもこの話を伺ったプロジェクトでは、リリース自動化しているという話もあったので、ここの話はもう少し詳しく聞いてまた別の学びとして挙げていこうと思います。

この記事が気に入ったらサポートをしてみませんか?