見出し画像

SREチームのマネージャーを引退します!

こんにちは、岩崎です。いつの間にか桜の季節ですね🌸東京は今週が見頃のようです。

これまで約2年に渡って、私が中心になってこの SRE note を書いてきたのですが、諸々の体制変更があり私がSREチームのマネージャーを降りることになったため、今回はそのことについて書きたいと思います。

CAMPFIRE SRE のはじまり

私がSREチームのマネージャーとして記事を書くのは今回が最終回、ということで、まずはこれまでの CAMPFIRE SRE について簡単に振り返っていきたいと思います。

今となっては誰も知らないと思うのですが、私がアプリケーションエンジニアからSREに転向したきっかけは当時のマネージャーの一言でした。

「今来期の体制考えてて、岩崎さんにはSREチームとして大型案件対策やインフラ周りを見てもらいたいんだけどどうかな?」

おそらくSREについてあまり理解していなかったであろう非エンジニアのマネージャーから唐突にこう言われ、同じように当時全くSREを理解していなかった自分はSREに興味を持つことになります。

当時のCAMPFIREはインフラが業務委託さん1人に依存しており、非常に属人化していたのに加え、大型案件でサイトが頻繁に落ちるという問題がありました。さらに、人が増えつつある中でデプロイ時間も問題になっていました。

また私のキャリアを考えた時に、元々オンプレのインフラを触っており、その後Webアプリケーションエンジニアにジョブチェンジした身としては、「ソフトウェアエンジニアリングによってインフラ課題を解決する」SREはこれまでの経験を活かせる良い選択に思えました。

ということで会社のニーズと個人の意向がマッチし、私はSREとして活動していくことになります。

最初にやったこと

SREになってまず行ったのはSRE本を読んでSREについての理解を深めることでした(ほんとに全然知らなかったので)。と同時に、ネット上にあるSREについての記事を手当たり次第読んでいきました。

SRE note やSRE本の輪読会を始めたのもこの頃です。

最初の SRE note

SRE本の輪読会は一年後に無事完走することになります

はじめの頃はSREについて学びながら、SLOの設定やトイル的な仕事の撲滅を行っていました。そして徐々にデータを計測して問題点を可視化したり、ポストモーテム文化やエラーバジェットの導入も進めていきました。

自分自身の理解の整理を目的に、SRE用語についての記事もいくつか書きました。そしてありがたいことに、今ではこれらのワードで検索するとCAMPFIRE SRE のnoteが一番上に出てくるようになりました。

技術的なところでいうと、当初の課題だった大型案件対策やデプロイ時間の改善にも取り組みました。こちらも今では全く落ちなくなっています。

1人からチームへ

このように様々な取り組みがうまくいったため、あるタイミングでチーム化することになり、採用にも関わるようになりました。この頃から Lead SRE として活動していくことになります。

当初は業務委託さん1人と私の2人チームだったのが、2019年の終わりには正社員2人、業務委託2人の4人チームになりました。人が増えたのでできることも増え、ステージング環境の整備や負荷試験などこれまで後回しにしていた施策も進められるようになりました。

この年はSREチームのメンバーで SRE Advent Calendar に参加したりもしています。当時の私の記事はこちらです。

そして2020年になり、人の入れ替わりがありつつも年末には正社員4名、業務委託1名の5人体制になりました。途中から私はプレイングマネージャーになっています。昨年はCAMPFIREとして Advent Calendar を行いました。この時の私のSRE記事はこちらです。

去年は一ヶ月でアクセス数が4倍になったり、新規事業が立ち上がったりと色々ありましたが、チームメンバーのおかげもあり良い結果を残せたように思います。

なぜSREチームのマネージャーを辞めるのか

ではなぜSREチームのマネージャーを辞めるのかというと、その方が全体にとって良いと考えたからです。これは誰に強制されたわけでもなく、私自身の発案です。

Advent Calendar にも書いたのですが、2020年の中頃に当時開発チームを見ていたマネージャー(2年前に私をSREにした彼)が辞めることになり、私が暫定的にSREチームと開発チームのマネージャーを兼任することになりました。

この変化は私にとってチャレンジングかつ、会社にとってはやむを得ない決断だったと思うのですが、SREだけでなく開発チームも見るとなると、徐々にマネージメントに専念せざるを得ない状況になっていきました。

もっと言うと、マネージメントに専念したとしても、たった一人で拡大していく二つのチームを見るのは限界がありました。SRE的な表現を借りれば私がCAMPFIREというシステムの SPOF(Single Point Of Failure = 単一障害点) になっている自覚がありました。

そういった状況を考えた時に、より安定しているSREチームを別の人間に譲り、私は開発チームのマネージメントに専念する決断をしました。CAMPFIREという組織を安定稼働させるためには、それが一番良いと考えたからです。

最後に

一から作り上げてきたSREチームを離れることに寂しさがないかと言えば嘘になりますが、組織のことを考えると最良の選択だと思っています。そしてこれまでのSRE活動に悔いはないです。

組織上はしばらくSREから離れますが、個人的には生涯SREの気持ちなので、またどこかで関われたら良いかなと思っています。とはいえ、しばらくは開発チームを最高の状態にしていく予定ですので、こちらの方もお楽しみに。ちなみに、なんと絶賛採用中です。

CAMPFIREのSREチームは私から高山さんにバトンを渡し、今月から第二章となります。ぜひこれからのSREチームにもご期待ください。俺たちのSREはこれからだ!

今までありがとうございました🙇‍♂️

この記事が気に入ったらサポートをしてみませんか?