野村浩司:システム障害対応の専門家

金融システムの開発保守運用と改善を12年担当。 7年にわたり合計約 1000 件の障害…

野村浩司:システム障害対応の専門家

金融システムの開発保守運用と改善を12年担当。 7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。 現在は社内外100チーム以上のシステム障害対応の改善に取り組んでいる。

マガジン

最近の記事

  • 固定された記事

私がシステム保守運用の道を選んだ理由

社内の保守運用界隈で話しているときに、以下のようなお話を聞いたことがあります。 「保守運用をやっているがメンバーのモチベーションが上がらない 「単純作業ばかりで将来が見えない」 システムの保守運用をしている方からする「あるある・・・」となる内容で、チームメンバーの方や、もしかしたらご自身が当てはまるということもあるかと思っています。 私自身は選んでシステムの保守運用を進んでいます。 同じような思いの方や悩んでいる方へば少しでも力になればと思い投稿いたします ※私の記

    • 継続的な改善

      システム障害対応の改善は続かないシステム障害対応の改善はなかなか進まないものです。 実際現場からはこのような声が聞こえてきます。 「予算がない」:そもそも保守担当の予算は少ない 「モチベーションがない」:システム障害が起きなければモチベーションがわかない 「効果がわかりづらい」:いつ起きるかわからないシステム障害の改善の効果が理解しづらい ただ、ひとたび大規模障害が起きたり、保守運用原価削減の要請がされると最初に改善対象になります。 どうやれば改善が続くのか?改善をする

      • システム障害対応における課題発見チャート

        皆様ご無沙汰しております。 今回は最近よく相談される「システム障害対応の改善をすることはわかったけど、どこに手を打てばよいかわからない」のに対して、課題の仮説を発見するためのチャートを共有しようと思います。 問題と課題の定義よくこの2つが混同することが多いので、最初に意識合わせをします。 こちらの東洋経済様の記事がわかりやすかったため、引用させていただきました。 この章の使い方システム障害対応において本書を手にとっていただいた読者の皆様も多くの問題を抱えていると思います。

        • ITSM関連のアンケート結果共有2!!

          前回のアンケートをもう少し整理していたので共有します! ただ、前回の中で40件を分析を対象に分析しています。 ◆どこで情報収集し、どこでツール決定しているか? 情報収集は、社外Web、社内Web、社内イベント・セミナーが上位という結果になった。 社内・社外のWeb検索が上位に選ばれ、SNS・比較サイトが選ばれなかったところから、 容易にアクセスでき、比較的偏りが無い情報を得ようとしていると考察した。  ツール決定は、社外Web、社内口コミ、社内Web、社内外イベント・セミ

        • 固定された記事

        私がシステム保守運用の道を選んだ理由

        マガジン

        • 06_インシデント管理・故障対応
          2本
        • 02_システム故障対応を進めるには
          0本
        • 05_システム監視・運用監視
          1本
        • 09_オススメ
          4本
        • 01_まとめ情報
          5本
        • 10_筆者など
          2本

        記事

          ITSM関連のアンケート:結果共有!!

          最近ITSMツールのアンケートをしていました。 そこで分かってきた内容を皆さんに共有すると何かのためになるかなと思いアンケートをしました。 前提回答者母数:65 ほとんどが私の知り合いで保守運用をしている方々が中心です。 普段どこで情報を集めているか? 特徴的だと思ったのは2点で ・Web検索が多い →SIerの周辺にいる人はもっと社内を見ている気がしたのですが、Web検索1位だと思いませんでした。 ・社内イントラ・社内セミナーが多い  →意外と周りの方は知ら

          ITSM関連のアンケート:結果共有!!

          大企業必見!!大規模ワークフローシステム

          以前、手軽に安いワークフローをご紹介させていただきました。 今回はワークフローシステムのうち、大規模に使えるものを紹介させていただこうと思います!! 私自身が大規模システムの保守運用と関係することが多いので、そちらの知見をもとにご紹介させていただきます。 大規模カスタマイズに完全対応!!:intra-mart個別の業務カスタマイズを含めて行うならば、intra-martが一番良いと思っています。 特に大企業のこだわりが強い会社であると、ツールとしてもビジネスパートナーとし

          大企業必見!!大規模ワークフローシステム

          無料で試せる!!システム保守運用のおすすめツール(金融オンプレ+クラウド)

          本日はシステム保守運用のおすすめツールを紹介いたします。 私自身は金融システムの保守運用の改善を11年やっており、その中で多くのサービス・ツールにチャレンジしてきました。 今回は特に自分が良かったなと思えたもので、システム保守運用に役立ったもの・役立ちそうなものを紹介いたします。 今回は特に「最初無料で試せるもの」をピックアップしてみました。 稼働時間の見える化:manictimeシステムの保守運用をしていると、改善に向けて稼働を見える化して、どこに時間がかかっている

          無料で試せる!!システム保守運用のおすすめツール(金融オンプレ+クラウド)

          モダンなインシデント管理ツールの選び方

          インシデント管理ツール 何を基準に選びますか?システム運用されている方ならば、インシデント管理ツールを使われていると思います。上司などから「こんな感じに選ぶといいよ」とご指示があったかと思いますが、さらに一歩上の課題解決ができるメリットがあればと願って記載いたします。 社内システム運用の責任者や、改善業務などご担当されているお立場の方にご覧頂ければ幸いです! 価格が安い、または、ある程度高いからそのツールを選びますか? そのツールが有名で実績があるツールだから選びますか?

          モダンなインシデント管理ツールの選び方

          相談事例:その2:スモールスタートしたけどアラームが多すぎる

          こちらでは、私が保守運用に関する相談を受けた事例を記載いたします。 「何とかサービスにたどり着いたけどアラームが多くつらい」 「サービスイン後の体制が弱く何とかやりくりをしないといけない」 という方、是非ご覧になってください! ※本記事は特定されることを回避するために、一部内容を変えています。ご容赦ください。 今回の相談者のプロフィールです。 ・クラウド上でサービスを開始、B2Cのウェブサービス ・クラウドのIaas上にアプリを構築 ・クラウドが不慣れでマネージドサービス

          相談事例:その2:スモールスタートしたけどアラームが多すぎる

          システム障害対応している人が読むと便利な情報まとめ

          私が11年システム運用・保守をしていて、比較的広く情報収集やコミュニケーションをしてきました。 その中でよかった情報メディアや書籍などを紹介いたします! 「システム運用・保守をやっているけど、世の中の情報がなかなか入ってこない」 「システム運用・保守の情報収集の第一歩どこ見ればよいか知りたい」 という方にお勧めです!是非ご覧ください。 downdetector:システム障害直後twitterの情報をもとに障害状態か記載してくれます。 「自分のシステムであれ、おかしい」と

          システム障害対応している人が読むと便利な情報まとめ

          システム障害対応に関する最新トレンド:AIops

          本日は数年前から話題にあがりつつ、なかなか取り込みづらいAIopsについてご紹介いたします。 「AIOpsの考え方って何?」 「AIOpsってどう取り組めばよいか」 という方にお勧めです! AIOpsとは?ひとことでいうならば、 システム運用・保守における「システム障害」や「例外オペレーション」を機械学習による統計処理を用いて、運用高度化・自動化などをすること という感じです。 ここ数年盛り上がり始めていて、他の業界に比べて運用フェーズは労働集約で都度対応というのがボ

          システム障害対応に関する最新トレンド:AIops

          知る人ぞ知るサービス紹介:システム監視

          今回はシステム監視のサービスをご紹介させていただこうと思います。 どのシステムでも監視は行われていると思っていて、サーバと近しい製品を選ばれる方が多いかと思っています。 それ以外にもいろいろジャンルがあるのでご紹介できればと考えています。 「システム監視はほぼデフォルトでやってきちゃったけどアラーム数が多くて大変」 「システム監視をもっと進化させたい!」という方、 是非ご覧ください! シンプルな監視zabbix オープンソースのサーバ・ネットワーク監視ソフトウェアで有名

          知る人ぞ知るサービス紹介:システム監視

          システム障害対応に関する最新トレンド:その4:MSP(マネージドサービスプロバイダ)

          こちらではシステム障害対応に関連した最新トレンドを記載いたします。 「世の中的に、今後はやりそうなキーワードを先に抑えておきたい」 「自分の行っている領域の最新トレンドのキーワードを知りたい」 という方は是非ご覧になってください! 今回はアメリカではAWSなど独自のエコシステム構築に動き出したMSP(マネージドサービスプロバイダ)です。 MSP(マネージドサービスプロバイダ)って何?名前はカッコイイですが、ざっくりいうと「システム運用・保守・監視の代行業」って感じです。

          システム障害対応に関する最新トレンド:その4:MSP(マネージドサービスプロバイダ)

          サービス比較の仕方おすすめ

          今回は、私が何かサービス比較などをするときの進め方・利用しているものをご紹介しようと思います。 「社内でサービス選定を任せられたが何からしていいかわからない」 「比較軸など選定が難しい」 という方は是非ご覧ください! ◆仮説を出した上で誰かに聞くこれを言うと本末転倒と思われるかもしれませんが、、、 何はともあれ自分なりの仮説を少し考えた上で、詳しい誰かに聞いてしまうのが一番だと思います。 仮説を考えるのも30分や1時間考えて、テキストでアウトプットしたレベルでOKだと私

          サービス比較の仕方おすすめ

          知る人ぞ知るサービス紹介:インシデントレスポンスサービス

          今回はインシデントレスポンスサービスをご紹介させていただこうと思います。 あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。 ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。 IT alerting software とか IT operation managementとか、いろんな言われ方をしますが、「インシデント発生から暫定対処まで」という概念

          知る人ぞ知るサービス紹介:インシデントレスポンスサービス

          システム障害対応の考え方:その5:非機能要求グレード2018

          システム障害対応の改善を考えていて、世の中で調べたもの、考え方で使えそうなものをご紹介いたします。 本日は未然防止や再発防止に使うものかもしれませんが、基本情報処理試験などを運営しているIPA(情報処理推進機構)が提供している「非機能要求グレード2018をご紹介します。 「レスポンス・バックアップ・信頼性でお客様と意識ずれが起きてしまった」 「改善に向けたポイントを網羅的に洗い出したい」 という方にお勧めです! 約200項目あたる非機能要求の項目が一覧化されており、漏れ

          システム障害対応の考え方:その5:非機能要求グレード2018