見出し画像

システム安定稼働に必要なこと

SREエンジニアとして、システム安定稼働のために日々行っていることを列記します。

タスクベース

・サービスの正常性を担保するための監視設計・運用設計
・障害発生時に迅速に復旧するための、障害対応手順の作成と維持
・システム構成の可視化
・軽微な障害(alert)検知から復旧までの自動化
・24時間365日の監視・運用体制の維持
・運用業務の問題点の分析と、改善手法の検討・実装(自動化)
・定型業務の自動化(サーバ・アプリの起動、停止、再起動、データバックアップ、定時に実施する定型作業など)
・新人エンジニア育成、運用ノウハウの継承

作業ベース

・サーバの起動や停止
・定型化されたオペレーション(日次や月次のデータを入力など)
・システムの稼働状態の監視(トラブルや不具合、死活監視など)
・急激なアクセス増加などの、リソースやキャパシティ管理
・メモリやディスクなどの性能監視
・システムに関するインシデントへの対応
・操作に関する問い合わせへの対応
・データベースのチューニング
・バグや不具合の原因究明
・障害からの復旧作業


よいと思ってもらえたら、「スキ」をお願いします。
「スキ」は、継続の源泉です。


画像1

amazonキンドル

amazonビデオ

amazonミュージック

amazon学生

この記事が参加している募集

スキしてみて

いつもサポートありがとうございます。 あなたの100円がモチベーションアップの起爆剤です。 毎日更新頑張ります Twitterはこちら https://twitter.com/7010Rei