ワンキャリアSREチーム発足の裏側
はじめに
みなさん、はじめまして!ワンキャリアのSREチームに所属している宮川です。私は2020年4月に新卒でワンキャリアにジョインし、現在はSRE(Site Reliability Engineering)チームのリードをしています。SREチームでは、ワンキャリアが持つ複数プロダクトのシステム安定性とサービスの信頼性向上を目指して、少数精鋭ながらも切磋琢磨して業務を行っています。
この記事では、
なぜワンキャリアでSREチームの発足に至ったのか?
これまでワンキャリアのSREはどんなことをしてきたのか?
これからワンキャリアのSREが目指していく姿とは?
という部分に焦点を当てて話していきたいと思います。是非SREという言葉に聞き馴染みがない方でも、「こんなエンジニアもいるんだよ」という参考になれば嬉しいです。
そもそもSREとは?
「SREとは?」という質問に答えるのは実はとても難しいです。SREは日本語でサイト信頼性エンジニア(エンジニアリング)と訳されますが、サイトの信頼性に関わる業務領域は本来とても広く、境目がはっきりとしていません。1つ確かなことは、「サイトの信頼性を高めることを目的とする」エンジニアであるということです。言わば、ユーザーとサービスを繋ぐ強固な橋のような存在です。
では、SREが追い求めるサービスの「信頼性」とは何か?
信頼性とはシンプルに言えば「エンドユーザに安定的且つ快適なサービスを持続的に提供できる度合い」のことになりますが、それは定性的な感覚ベースで計られるものではなく、サービス稼働率や障害復旧時間といった定量的な数値によって計られます。「信頼性の高いサービス」とはサービスにアクセスできない状態がなく、いつでも安定的にアクセスできるサービスのことを指し、一方サービスにアクセスできない状態が多々あれば、サービスの信頼性が低下することに繋がります。
このように、SREは信頼性の高いサービスをエンドユーザーに常に提供することに重点と責任を持ちます。
SREチーム発足の経緯
なぜSREチームがワンキャリアで発足したのか。それは「複数プロダクトのシステムを効率良く一元管理する必要性が高まった」からです。
遡ること2021年の6月頃になりますが、「次のキャリアが見える、転職サイト」として「ONE CAREER PLUS」 のβ版がリリースされました。
それまでにワンキャリアで運営していた就職活動サイトの「ONE CAREER」、採用DX支援サービスである「ONE CAREER CLOUD」を含めると計3つのサービスを運営をするフェーズに入りました。
そこで求められるのは、全てのサービスの安定稼働と複数開発環境のインフラ基盤の構築でした。複数あるワンキャリアのプロダクトのインフラを横断的にサポートするチームとして、SREチームの発足が必要になったのです。
ワンキャリアの組織構成に関して詳しくはこちらのスライドをご覧ください。
これまでのSRE
2021年以降、SREがチームとして発足してからは主にAWSを使用したインフラの構築と運用を行ってきました。セキュリティ・パフォーマンス・信頼性向上、トイル(手作業や繰り返し行われる運用)の削減やシステムの自動化などをメインに行っています。
例えば以下のようなことに取り組みました。
SREチームの業務内容定義
定常的なメトリクス監視とエラー監視
Terraformを用いたInfrastructure as Codeの強化
AutoScaling等の自動運用の導入
インフラリソースの最適化とコスト削減
CI/CDの高速化と通知の仕組み化
統合開発環境(integration環境)の構築
実際にSREチームの立ち上げをするにあたり、まずSREはどんな役割を持つエンジニアなのか知識をインプットする必要があったのでO'Reillyから出ているSRE本を読むことから始めました。
最初はできることから一歩ずつという意味で、インフラリソースのメトリクス監視やアプリケーション側のエラー監視をするところから始めました。そこから徐々に「エラーバジェット」や「SLO」の概念をチームに浸透させていき、サービスの可用性をしっかりと可視化できる仕組みを確立させていきました。
全てが手探り状態で、何が正しいかわからないままSREチームを立ち上げることに正直不安もありましたが、SREチームの存在意義が大きくなっていくにつれ、SREとしての責任感や専門性も自然と強まっていきました。
これからのSRE
そして2022年に入ってから、SREチームは「SRE/Securityチーム」として新たなスタートを踏み出しました。昨年よりもセキュリティの強化やインシデント対応の迅速化にも注力するフェーズとして、新たな取り組みを進めています。
最近ですと、
WAFの導入
インフラ作業におけるアクセス権限の見直し
インシデント対応フローの整備
ポストモーテム文化の構築
などの取り組みを進めています。
このセキュリティやインシデント対応の強化の背景には、昨年10月のマザーズ市場への上場があります。今まで以上にサービスの信頼性がより一層求められるフェーズになり、SREの役割や責任の領域も大きくなってきています。
これらの取り組みはまだ始めたばかりであり、効果として実感しづらい部分が大きいですが、今は種を蒔く時期として中長期的な効果を見込んで対策を進めていきたいです。
また、1年後、2年後のSREチームの見通しとしては、少数精鋭を維持した上で新たな取り組みを強化できる体制づくりを目指していきます。サービスの規模に比例して業務量が増えるのではなく、運用の自動化などにより属人的な業務も減らしていき、効率的且つ最適なチーム体制が築けるようにしていきたいと思います。
さいごに
以上、ワンキャリアのSREチームの立ち上げの裏側でした。
ワンキャリアでは各プロダクトの開発だけでなく、インフラ基盤やセキュリティの強化にも力を入れています。SREチームは発足してまだ間もないチームではありますが、チームの存在意義やこれからの方向性をしっかり見据え、そこに向かって毎日1歩ずつ前進していっている最中です。
是非、この歩みを共に挑戦していってくださる仲間をワンキャリアの技術開発部では大募集しています!
ワンキャリア技術開発部にご興味を持ってくださった方はこちらをご覧ください。
また、特にSREチームの話を聞いてみたいと感じて下さった方はこちらからご応募ください!
この記事が気に入ったらサポートをしてみませんか?