見出し画像

【チーム紹介】サーバー2000台以上!巨大な配信基盤を支えるセーフィーインフラグループについて語ってみた

こんにちは!セーフィーでエンジニア採用を担当している中田です。
今回は、セーフィーのエンジニア組織、中でも、インフラグループに焦点を当てて、記事を書かせていただきます!

サーバー2,000台超・データにして約20PBという規模の、高トラフィックな巨大基盤を支えているセーフィーのインフラグループは、
実は立ち上がって間もないまだ若いグループで、現在は4名のメンバーが少数精鋭で活動をしています。

そんな彼らのミッション、日頃の取り組み、働き方、やりがいといった内容について、紹介していけたらと思います。

映像データのインフラストラクチャや、インフラエンジニアへのキャリアパスに興味がある」
「現在インフラエンジニアとして働いている」

という方々にとって、少しでも参考になれば幸いです!


セーフィーインフラグループって?

立ち上がり〜現在にいたるまで

セーフィーのインフラグループは、まだグループになって間もないチームです。
ほんの3年前まではインフラ専属の担当が2名しかいなかったので、グループという単位ではなく、バックエンド開発を行うサーバーチームの中に内包される形で業務をしていました。

組織拡大のために採用強化をしようという流れが起こり、1年半ほど前に、2名の新たな仲間が加わってインフラグループが誕生しました。

30歳半ば以降のメンバーが多く、落ち着いた雰囲気で、それぞれがこれまでの豊富な経験・知見を活かしながら、活躍しています。
 

ミッションと業務

セーフィーは、ビジョンである「映像から未来をつくる」を実現するべく、クラウド録画システム・映像プラットフォームの開発・運用をしている会社です。
その中でインフラグループは、その配信基盤などに関わるインフラの設計・構築といった、上流から運用保守等の下流までを一気通貫で担当しています。

メインミッションとしては、

  • 100万台規模のデバイスが接続する次世代クラウド基盤、アーキテクチャの設計・開発 

  • サーバーコストを抑えるための各種最適化

  • サービス・システムの監視やチューニング等の運用

といったことがあげられます。
具体的には、現在、以下のような取り組みを実施しています

・耐障害性能の向上
・EC2 のコンテナ化及びそれに伴う CI/CD の構築
・CI/CD の改善
・コンテナログを統一的に扱うシステムの設計構築
・1000台超のサーバー群へのデプロイプロセス改善
・クラウドコスト低減に向けた改善
・システムの拡張やチューニング

その他、日々のサービスの可用性向上に向けた活動や運用業務などが含まれます。

アーキテクチャ・技術について

現在のアーキテクチャ

システムはすべてAWS 上で構築されており、Linux 系のOSで構成されています。現在は約18万台以上のカメラをつないでおり、映像というプロダクトの特性上、約2,000台以上のサーバーを無停止で常時稼働させています。

アーキテクチャに関しては、以下図のように、一般的なAWS上で構築されたウェブシステム+映像配信関連システム、という構造になっています。 

【5分でわかる】セーフィー エンジニア向け会社紹介」より
(セーフィー使用スタック一例)

また、AWSサービスに関しては、現状、以下のようなものを用いています。

<利用AWSサービス 一例>
EC2, ECS, ALB, S3, Aurora, CloudWatch, ElastiCache, Athena, Route 53, Lambda, SQS, CloudFront

 

どんな技術的負債がある?

グループが発足してまだ日が浅いため、依然として自前のアプリデプロイスクリプトがあったり、EC2 の設定管理で Ansible の古いコードが残っていたりします。

日々の運用業務を担いながらなので少しずつではありますが、CodeDeploy のようなマネージドサービスに移行をしたり、EC2 をコンテナ化したりしながら、対処しています。

また今後の課題としては、サーバー台数増加に伴うトイルの増加や、メンテナンス品質の要求レベルの上昇、それらに伴うメンテナンス工数の増加などがあり、順繰りに優先順位をつけて対応しているところです。
 

技術選定・キャッチアップについて

映像というプロダクト特性と、大規模なシステムを無停止稼働させている構造上、新しい技術をとりあえずすぐ試してみる、ということは行っておらず、選定は慎重に行っています。
半面で、改善に活かせそうな、新しいツールや技術のキャッチアップ・習得については、チームで工数を確保し、意欲的に取り組むようにしています。トップダウンではなく、メンバーからのリクエスト・提案ベースで、「じゃあ調べてみよう!」となることもあります。

こういったことは、取り組んでみたものの思っていた期待値と違ったという、ヒットしない確率もある程度あって当然という前提で進めているので、「無駄に終わるかも・・・」と最初から決めつけないように意識しています。

チームについて

コミュニケーション、リモートワークについて

冒頭でも書きましたが、現在5名のまだ小さいチームで、またそれなりの経験を積んできているメンバーばかりなので、賑やかにというよりは、ある程度落ち着いていて穏やかにもくもくと仕事をしている雰囲気です。
とは言え、コミュニケーションスタイルがフラットで、スタートアップらしい雰囲気のカジュアルなメンバーが多いので、雑談やスモールトークも自然と生じますし、日々の他愛ない話題で和むこともあります。
(それこそ前回のサッカーワールドカップ期間中は、連日皆でわいわい盛り上がっていました。)

リモート頻度については、全員がほぼ毎日リモートで仕事をしています。コミュニケーションには Slack、Google Meetなどをメインで用いており、オフィスで隣に座って仕事をしている状態ほどコミュニケーションがクイック且つ円滑とまでは言えないですが、一定の仕事の生産性がリモートでも担保できている環境です。

また全社的にSlack・Meet文化が浸透しており、またGoogleやNotionなども使用しているため、リモートの環境は比較的整っていると思います。
最近、さらなるコミュニケーションの活性化・円滑化のために、バーチャルオフィスツール「Gather(ギャザー)」を取り入れはじめました(※以下画像参照)。
リモートでも、オフィスにいる時のように話しかけやすい、会話が生まれやすい環境になれば、という試みです。

(メンバーがGatherに入って働いている様子)

日々の業務について

基本はスクラム形式をとっており、日々、以下のような流れで業務を進めています。

<一日の流れ(例)>
・9時~10時:勤務開始
・11時~:スタンドアップミーティング
・その後:各自作業
・17時~:ミーティング
・18時~19時:勤務終了

朝夕にデイリースクラムのミーティングを設けており、前日・当日の作業に対する共有や、困っていることの相談の時間をとるようにしています。

日々のミーティングを通して、意識的に、各メンバーの作業内容を全員が相互的に把握をできている、という状況を作ることで、業務で詰まってしまった時にも、互いに相談しやすい・サポートをしやすい環境になるように努めています。
 

カルチャーについて

カルチャーとしては、論理的に議論をすることを大事にしています。

何か判断をする際には、どういったメリットとデメリットがあるのかを洗い出し、それらを整理し、論理立てて話し合いながら、チームで判断を行っています。

課題など議題トピックを、感覚ではなく、構造的にとらえて議論することで、チームとしてより良い仕事ができると思っており、できるだけそのサイクルが潤滑に回るよう、気をつけています。
 

勉強会・オンボーディングなどについて

チーム内での研鑽、勉強会も行っています。
隔週にて、バックエンドのエンジニア主催の勉強会を開催しており、そこにインフラGのメンバーも参加しています。毎回、約 20 人以上が集まる勉強会で、一人15~20分くらいの発表を二人ずつのローテーションで回しながら進めています。

また、オンボーディングに関しても、コンテンツを日々整理・拡充しているところです。基本的には、メンターが一人付き、オンボーディング資料やTODOリストに沿ってレクチャーをする、という流れで進めています。 

上述の通り、リモートが多い環境ですが、状況に応じて、一緒にオフィスへ出勤し、隣のデスクでサポートを行うこともあります。 
実際、直近ジョインしたメンバーを例にすると、入社から最初の期間は、メンター(※)とともに週4日以上ほどオフィスに出社してもらい、隣同士のデスクに座りながら、OJTで、徐々に業務に馴染んでいってもらいました。

※メンター制度
 … 入社から1か月間は先輩社員がメンターとなってサポートするので、業務や会社のことについて気軽に相談できます。また週に一度、メンターとのランチ代を会社が負担します。

インフラグループの魅力ポイント・やりがい

  • 「映像」という無停止で溜め込まれ続けていく大規模データを扱えること

  • 高い可用性が要求されるクラウドインフラ構築・運営の経験ができること

インフラグループの魅力は様々ありますが、中でも上記2点がとてもチャレンジングであり、やりがいを感じられるポイントだと思っています。

セーフィーのプロダクトは、通常のウェブサービスとは違って、常時接続の録画サービスであるため、数秒程度のダウンも許されないケースがあります。そのような条件下で、どのようにダウンタイムを減らすか、圧縮するかを日々検討し、様々なトライ&エラーを繰り返していくことで、高度なメンテナンス技術を身につけることができるはずです。

また、通常のSaaS企業のウェブサービスと違い、映像配信の基盤や、カメラのファームウェアといった多様な技術領域・要素が絡んでくるため、幅広い技術にキャッチアップしながらスキルを伸ばしていきたい方にとっても、面白みがある職場かと思います。

さらにビジネスという観点では、今後、さらなるAIの発展に伴って「映像とAIの組み合わせで叶えられること」というのは、今以上に飛躍的に増えていくだろうと考えています。

映像という切り口から、常に新しい技術に触れ続けていける、それらを積極的に採用しながら事業会社ならではのチャレンジができる、という点も魅力ポイントなのではと思っています。

セーフィーインフラグループのこれから

事業全体では、昨年末、国内クラウドカメラ市場におけるシェアが過半数を超え、いよいよ映像活用を本格的に進めるフェーズとなってきました。これからもデバイスは増え続けますし、映像とAIを組み合わせたソリューションもますます誕生していきます。

その上で、そのシステムの土台となるインフラストラクチャを支えるインフラグループのミッションは大きく、とても重大です。

  • 100万台規模のデバイスが接続する次世代クラウド基盤、アーキテクチャの設計・開発

  • サーバーコストを抑えるための各種最適化

  • サービス・システムの監視やチューニング等の運用

上述のミッションだけでなく、 サービスの可用性向上のために、やりたいこと・やらねばいけないことだらけ、というまだまだチャレンジングなフェーズです。

また、クラウド録画サービスでのビジネスはまだまだ新しく、形が決まっておらず、ビジネスを模索していく中で、技術的に新しい取り組みを行っていくことも求められます。

数秒のダウンも許されないシビアなサービスだからこその慎重さ・丁寧さ、また未知の要素に遭遇する確率が高い分野での論理的思考力・大胆さ
そういったものが求められるチャレンジングなお仕事ではありますが、そこに面白みを感じてくださる仲間をこれからも増やしながら、さらに強く、大きくなっていけたらと思っています。

最後に

セーフィーインフラグループは、まだまだ仲間を募集しています!
もしご興味を持ってくださる方がいれば、カジュアルなお話からでも大歓迎ですので、ぜひエントリーいただけたら幸いです。

みなさまにお会いできることを楽しみにしています!

▼求人ページ

▼採用サイト


この記事が気に入ったらサポートをしてみませんか?