システム安定稼働に必要なこと

2020年12月19日 23:53

SREエンジニアとして、システム安定稼働のために日々行っていることを列記します。

タスクベース

・サービスの正常性を担保するための監視設計・運用設計
・障害発生時に迅速に復旧するための、障害対応手順の作成と維持
・システム構成の可視化
・軽微な障害（alert）検知から復旧までの自動化
・24時間365日の監視・運用体制の維持
・運用業務の問題点の分析と、改善手法の検討・実装（自動化）
・定型業務の自動化（サーバ・アプリの起動、停止、再起動、データバックアップ、定時に実施する定型作業など)
・新人エンジニア育成、運用ノウハウの継承

作業ベース

・サーバの起動や停止
・定型化されたオペレーション（日次や月次のデータを入力など）
・システムの稼働状態の監視（トラブルや不具合、死活監視など）
・急激なアクセス増加などの、リソースやキャパシティ管理
・メモリやディスクなどの性能監視
・システムに関するインシデントへの対応
・操作に関する問い合わせへの対応
・データベースのチューニング
・バグや不具合の原因究明
・障害からの復旧作業

よいと思ってもらえたら、「スキ」をお願いします。
「スキ」は、継続の源泉です。

この記事が参加している募集

#スキしてみて

532,458件

いつもサポートありがとうございます。あなたの100円がモチベーションアップの起爆剤です。毎日更新頑張ります Twitterはこちら https://twitter.com/7010Rei