PagerDuty Summit 2019 参加記

画像1

On-Call 、そのうち緊急連絡(Emergency Call)の通知を自動的に行ってくれる SaaS である PagerDuty が主催したカンファレンス「PagerDuty Summit 2019」に参加してきました。

PagerDuty は「重大な障害時に自動的に関係者に連絡をする」ということに特化したサービスで、見た目極めて地味なサービスなのですが、世界中の多くのインターネットサービス企業や、AWSなどクラウド事業者などがサービス安定化のために導入しているサービスであり、私も PagerDuty はいくつかの会社在籍時に愛用していました。

参加のきっかけはこのイベントを知り合いに紹介してもらったことですが、軽いノリで PagerDuty 主催の Ringtone Contest ( 着信音コンテスト。 https://community.pagerduty.com/t/summit-2019-ringtone-contest/4660 ) に応募し、何の因果か Top Prize Winner となってしまいました。その賞品として無料でカンファレンスチケットをいただいたので、その縁もあり参加してみました。
(※渡航費宿泊費は別腹。)

スクリーンショット 2019-09-24 21.12.33

PagerDuty?

「Pager(病院の医師や消防士が持っている緊急連絡用のポケベル)」「Duty(責務、義務)」という言葉からも分かる通り、PagerDuty は何か重大な事が発生したときに関係者に速やかに連絡する、ことを目的としたサービスです。

私なりの理解で説明すると、以下の機能を実現するサービスです。

・ユーザーの緊急連絡先の管理
  (重大な障害が発生したら以下の手段で自動的にアラート)
 ・メール
 ・電話
 ・SMS
 ・Push (iOS/Android)
 ・3rd Party(Slackなど)
・障害担当者のスケジュール管理
・障害のエスカレーションフローの管理
 ・一次対応者、二次対応者などの管理
 ・一次対応者が時間内に対応しきれなかった場合、自動的に二次対応者に連絡がいく、など。

一見して極めて地味なツールで、「なくてもサービスは困らないんじゃない?」とサービス運用の経験が浅い人の誤解を招きがちなツールですが、今回カンファレンスに参加して改めて価値を感じました。

PagerDuty はサービスのあり方を定義するツール

PagerDuty を「重大な障害が発生した際に通知するツール」とした場合、このツールを導入するためには「サービスがどんな状態になったら重大な障害なのか」「どの機能が落ちたらまずいのか」をあらかじめ定義する必要があります。

もちろん定性的な定義ではダメで、ツールとして表現できるよう定量的な、数値で置き換えて判断できる形で定義する必要があります。

軸として、雑にあげてみても以下のような事が考えられます。これらはカンファレンス中にも Incident の例として挙げられていたものです。

・ユーザーへのサービス提供への影響度(SLA/SLO/SLI)
・サービスとしての整合性(データの二重書き込みや、データロストの発生など)
・セキュリティリスク(IDS/IPS, Vulnerability, SQL Injectionなど)

PagerDuty を組織内で有効に活用するためには、SRE の Best Practice で言われているようなチームづくりやサービスづくりが求められます。逆に、PagerDuty のようなツールを導入することで、サービスの何を守らなければいけないのか、サービスを運用するために考えなければいけないことや具備しなければいけない事は何なのか、といった事を洗い出すことができるとも言えます。

PagerDuty はコミュニケーションのあり方を定義するツール

PagerDuty の CEO がカンファレンスの Keynote のセッションで事あるごとに「Team Sport」という言葉を述べていました。

体験的にも迅速な障害対応はチームスポーツそのもので、限られた時間のなかメンバーが役割を決め協力し合いながら最速で問題を解決・緩和するために取り掛かる必要があります。

PagerDuty は様々な通知方法に対応をしており、電話やSMSだけでなく Slack など外部のツールとの連携も容易になっており、障害発生をトリガーに円滑に情報共有・コミュニケーション・コラボレーションが行えるよう工夫されています。

自動エスカレーション機能もそうですし、障害の Status 管理もコミュニケーションのための機能です。そもそも自動的にアラートが飛ぶのも、Excel などで連絡先を管理している際によくありがちな「障害が発生したけれども誰に連絡したら良いかわからない」という状況をドラスティックに改善してコミュニケーションを円滑にするための仕組みです。

カンファレンス中、単に技術の話だけではなく、燃え尽き症候群についての話や、Diversity / Incrusion の話を取り扱うセッションがあるなど、円滑なコミュニケーションを行うために何が必要なのか、示唆を与えてくれるセッションが多かったことも、PagerDuty の思想として何を大事にしているのかが見えてくるように感じました。

他にも、NBA Final MVP 取得者のプロバスケットボーラー(ならびにシリコンバレーのスタートアップのファウンダーでもある)Andre Iguodara さんが自身の経験をもとにチームワークの大事さを説いた話や、Hashicorp のハシモトさんが PagerDuty と一切関係の無い話に暴走しながら「特定の人だけに責務が集中し」「共有されておらず」「手作業に依存している」インフラをクラウド時代に適してないとアーキテクトの側面から切り込んだ話など、それぞれまったく無関係に見えながら「現代のシステムはあらゆる側面でチームスポーツだ」という事をテーマにしていたのかな、ともカンファレンス後に感じました。

PagerDuty は On−Call ツールからイベント集約ツールへ

今回のカンファレンスで繰り返し、新機能の Event Intelligence が紹介されていました。

画像3

重大な障害であるかを問わず様々なイベント情報を PagerDuty に集約することで、様々な処理を Intelligence にする、というサービスアプローチです。

デモなどでは Triage が紹介されていました。たくさん入力されたイベント情報の中から、ノイズを除去し大事な情報だけを選り分けてシステム管理者に伝える、という機能です。

画像4

PagerDuty 自体が元がシンプルな機能だったこともあってか、様々な 3rd Party ツールとの連携も容易のように見えます。今回のカンファレンスでは競合に見える Twilio の CEO との Keynote セッションもあったりと、様々なツールと連携しつつ、PagerDuty がイベント情報のハブになる、単純にアラート通知サービスとしてだけでなく「サービス運用のためにはひとまず情報は PagerDuty に流し込む」ツールに変貌しよう、という戦略が見て取れます。

画像5

PagerDuty を使う使わないに関わらず、これからの監視システムはこのような設計が求められ、よりインテリジェントに変化していく必要が求められているのでしょう。

ということで、上場も果たし、会社としても右肩上がりに見える中、ますますサービスとしての存在感が増してくる、そんな兆しを感じた PagerDuty Summit でした。

印象的なセッション

PagerDuty という、システム運用の肝となるサービスを提供している会社のカンファレンスということもあり、継続的にサービスを提供するために何を考える必要があり、何をしなければいけないのか、様々な示唆を与えてもらえるセッションが多かったように思います。

そう感じるセッションは、特に Day3 に多かった印象があります。

私は Day3 は各社・各コミュニティの Best Practice についてをテーマとするセッションをずっと拝聴していました。それぞれ

・燃え尽き症候群
(Recognizing and Recovering from Burnout)
・DevとOpsの関係性
(Getting Comfortable with Production to Improve Your Life in Dev)
・Diversity / Inclusion
(Data-Driven Diversity and Inclusion: A Runbook for On-Call Teams)
・Chaos Engineering
(Best Practices to Kickstart Your Chaos Engineering Journey)

というテーマについて語られていました。

サービスを続けていくというのは過酷な仕事で、時にはプレッシャーに押しつぶされることもあるでしょうし、過剰に思い入れを持って対応した結果 burnout してしまうこともあります。サービスを継続するだけでなく人も長く働いてもらうためには何を考えなければいけないのか。

画像6

新機能を開発すること(Dev)に注目が行きがちだが、サービスの継続性を支えるのは運用(Ops) があってこそ。お互いが気持ちよく開発をするために何を考えなければいけないのか。

画像7

能力と責任感があれば仕事は務まるはずだが、それ以外の様々な「バイアス」が実際には世の中には蔓延っている。みなが純粋に仕事に集中し、その力を存分に発揮できるようにするためには何を考えなければいけないのか。

画像8

複雑性が日々増していくシステムの中で、今までの方法論では目の前の課題に対応できないようになってきている。サービスを安定して継続していくために、どのようにシステムを考え、どのような取り組みをしなければいけないのか。

画像9

特に Diversity / Inclusion について、日本にいると同質化が進んでいてそれほど意識することもないですが、多民族国家のアメリカで、特に IT 業界において男性優位になりがちな職環境であることがニュース経由で伝わるなか(#metoo 運動も元 Uber の SRE の告白から火が付きました)、様々なバイアスにとらわれずにいかにエンジニアがエンジニアらしく働く事ができる環境が大事なのか、そんな事を考えされるセッションとして印象的でした。

PagerDuty は CEO が女性ですし、今回のカンファレンスでは女性の登壇が日本のそれと比べてとても多かったとも感じます。

様々なことを考えさせる、そんな示唆に富んだセッションが多かったのが、PagerDuty Summit の感想です。なかなか他のカンファレンスでは聞けない話も多く、そういう意味でとても参加してよかったなと感じています。

カンファレンスの風景

以下はカンファレンス中に印象的だった写真を貼っていきます。

画像10

PagerDuty らしい掲示。「Post mortem ?(障害の振り返りしてる?。原義は検死)」という文字の下に「We prefer no mortem(我々は死ぬのを好まない)」とあるあたりが気が利いているというか、アメリカンジョークというか。

画像11


NYSE に上場しましたよ、という話。ZOOMやSlack、DataDog などと同期になりますね。

画像12

PagerDuty で運用の無駄が減ると、これだけコストが減るんですよ、という話。ちょっと参考にするには規模がでかすぎるけど。

画像13

PagerDuty を活用すると、最初受け身(Reactive)だった人も、徐々に前のめり(Proactive)になり、最終的には未然に問題を解決する(Preventive)ようになる、というスライド。若干自己啓発っぽい雰囲気もありますが、実際そんな感じだと思います。

画像14

PagerDuty の社員たちが、PagerDuty の使用デモ、ということで、謎の寸劇を披露。あまりにも設定や演技がひどく、場内は爆笑・苦笑で満ちてました。

画像15

アメリカのカンファレンスらしく、朝食昼食おやつ完備。休憩時間には極めてアメリカンな感じの高カロリーの食べ物が振るわれていました。

画像16

画像17

NBA プレイヤー Andre Iguodara の登壇。会期中で一番の歓声が上がっていたような気がします。

画像18

空腹の子供に食事を届ける NPO 「mary’s meal」の人が重大な Incident の例として挙げた写真(ぬかるんだ道路に支援物資を運ぶ車が足を取られる)。むむ、なるほどの…、という感じ。

画像19

画像20

画像21

画像22

Day2 のセッションの後に開催されたパーティの様子。Union Square 隣の Westin Hotel がカンファレンス会場だったこともあり、パーティは Union Square 内の広場で行われました。

おまけ:Amazon GO

昨年10月に Amazon GO がサンフランシスコ市内にも設置されたらしいので、私も今回の機会に便乗して体験しに行ってきました。

画像23

Amazon GO 用のアプリを事前にダウンロードし、アカウントの情報(クレジットカードの決済情報など)を登録したうえで、店のゲートにアプリで表示される二次元バーコードをかざすと入店できます。

画像24

店内は飲み物やスナック菓子、サンドイッチなど。ほぼ日本のコンビニと同等の品揃えという感じ。

画像25

上を見上げると、センサーと思われる黒い箱がひっきりなしに設置されています。カメラや様々なセンサーを駆使して人の行動をトラッキングしているとの噂です。

画像26

商品をもってゲートを出ると、数分後に Push が飛んできて、開くとこのようなレシートが表示されます。Push が飛ぶまでゲートを出てからかなりタイムラグがあるので「万引してしまったのでは…」と少し焦りますが、大丈夫そうです。多分。


という感じで、様々な体験をさせていただくきっかけをいただいた PagerDuty の方には、この場を借りて感謝をしたいと思います。

そして、私が作成した Ringtone は、どこかで使われたりするのでしょうか...👀



この記事が気に入ったらサポートをしてみませんか?