一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか?

ルールとか体制とかを中心に教えてほしいです。

ちなみにぼくの会社では、監視ツールや自作監視スクリプトでアラートをエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます)
これはぼくら社員にとって正直ストレスになるので、なにかよいルールや体制を上司に提案したいなと考えています。

ぜひみなさんの会社のやり方を教えてください。
よろしくお願いします。

回答の条件
  • 1人2回まで
  • 登録:2008/12/25 00:51:41
  • 終了:2009/01/01 00:55:03

ベストアンサー

id:goodvn No.3

goodvn回答回数228ベストアンサー獲得回数182008/12/25 12:25:53

ポイント22pt

障害対応を社内で行うと,一見コストを抑えてるように見えますが,精神的負担は想像以上で,いまは持ってるかもしれませんが,いつか持たなくなります(経験談)

ノイローゼになってしまって,何ヶ月,何年もまったく仕事ができない(うつなど)という人も何人か知ってますので,id:kazumaryuさんの今の状況は,この序章に見えます

さて,解決策ですが,こういうトラブル対応を専門とする会社がたくさんあります.具体的なフローとしては,障害対応マニュアルというものをまとめます.アラートをあげるルールや,そのアラートを受けた人が,どのような作業を行って解決に導くのか(場合によってはベンダーに連絡を取るのか),という台本を書きます

もちろん,障害対応のプロですから,このフロー作りも,クオリティが違います

障害対応を行う会社は,それを専門にやってる会社なので,24時間専門の技術者が待機して対応する体制をとってます

アウトソースは別のコスト負担に見えますが,結果的にはコストダウンになります.自社社員にやらせればタダだなんて思ってる上司には,その誤解についてガツンと言ったほうがいいと思います

id:kazumaryu

ご回答ありがとうございます。

ノイローゼですか。。。怖いですね。。。

でもストレスに感じているということは、この先そうなる可能性もあるんでしょうね。

気をつけないと。

障害対応を外注に出すならマニュアルをしっかりこちらで作らないといけないと思ってましたが、

コンサル的な感じで、フローづくりから一緒にやってもらえると、非常に助かりますね!

どんな業者があるのか調べてみようと思います。

2008/12/25 21:14:24

その他の回答(3件)

id:munyaX No.1

munyaX回答回数120ベストアンサー獲得回数242008/12/25 02:46:22

ポイント23pt

何社か渡ってますが比較的大きな規模になってくると

 ・専門部署が三交代制などで対応

 ・24時間の保守を外部に委託

のどちらかでやってます。


あらかじめ対応マニュアルを作成し現場で対応しきれないレベルや本番サービスに支障が発生した、もしくはすることが見込まれる場合はサービス担当者(プロデューサー、ディレクターなど)へ連絡が走ります。

この場合も24時間、担当者は連絡を受け取る体制が必要ですが、さすがに一人では無理なので、Aさんがだめな場合はBさんと言う具合に、数人リストアップし順次連絡をとっれもらうようにしていきます。担当者が重大な障害だと判断した場合は責任者に連絡し、緊急体制をしきます。



実際に監視する現場も専用のツールを使って運用の軽減を図るのはどこでも行うのですが、それを受ける人間は内外問わず必要で避けられないんですよね。

まとめると

 ・業務負荷が高いのであれば外に出す

 ・コストメリットを感じないのであれば中で運用

 ・製品、自社開発など何らかのツールを利用した負荷軽減

 ・いずれの場合も事前にマニュアル作成

 ・エスカレーションフロー、連絡ルートの確率

書き出してみると当たり前のことを当たり前にやる、という感じですねえ(^^;

id:kazumaryu

ご回答ありがとうございます。

なるほど、大きな規模であればやっぱり、専門部署を作ったり、外注したりってことになりますよね。

うちはまだそこまでの予算をとれない気がします。。

・いずれの場合も事前にマニュアル作成

・エスカレーションフロー、連絡ルートの確率

これはたしかに必要ですね!

どういう対応すればよいか明確になっていれば、エンジニアの精神的負担を軽減できる気がします。

たしかに当たり前のことと言えば当たり前のことでした。。。

2008/12/25 10:15:18
id:gotovip No.2

gotovip回答回数118ベストアンサー獲得回数262008/12/25 02:57:15

ポイント23pt

いっそのことアラートを一人に絞ってしまえばいいのでは

週や日ごとに担当を決めて必ずやらなければならないという状況になれば上司に怒られることはなくなるでしょう

もしアラートを受け取った人が何らかの事情でできなければ本人が直接他の人に頼めばよいのです

アラートに気づかないこともあるでしょう

そのときのためにアラートを受け取ったら「確認した」という報告やメールでも何でもいいですがスクリプトに送ります

もし一定時間この確認メッセージがこなければ自動的に他のエンジニアにアラートを送信するなどの対策を打っておけばよいでしょう

もう一点ありますが企業的に好ましくないかもしれませんね

アラートを受け取り障害を対応したエンジニアになんらかのボーナスを与えるようにすれば誰もやらないなんてことは少なくなるのではないでしょうか

これは私の思いつきで実際にやっているわけではないのであしからず

id:kazumaryu

ご回答ありがとうございます。

実はぼくも当番制がいいなとは思っていたんですが、なんせ社員が少なく(4名)かなり頻繁にまわってきてしまうということもあって、上司とも話したんですが、見送りになりました。

でも、「確認した」の仕組みはとてもいいですねー。

当番になった人に絶対的な責任がのしかかることはなくなりますね。

参考にさせていただきます。

それとボーナス(障害対応当番手当ても考えてます)っていうのは一般的に行われてるものなんでしょうか??

それともWebサイトを運営しているエンジニアにとって、業務時間外の障害対応っていうのは当たり前のことで、賃金に含まれているという認識が一般的なのかなぁ。

もちろん会社によってまちまちなんでしょうが、このこともみなさんにご意見聞けたらいいなと思っていた次第です。

2008/12/25 10:26:05
id:goodvn No.3

goodvn回答回数228ベストアンサー獲得回数182008/12/25 12:25:53ここでベストアンサー

ポイント22pt

障害対応を社内で行うと,一見コストを抑えてるように見えますが,精神的負担は想像以上で,いまは持ってるかもしれませんが,いつか持たなくなります(経験談)

ノイローゼになってしまって,何ヶ月,何年もまったく仕事ができない(うつなど)という人も何人か知ってますので,id:kazumaryuさんの今の状況は,この序章に見えます

さて,解決策ですが,こういうトラブル対応を専門とする会社がたくさんあります.具体的なフローとしては,障害対応マニュアルというものをまとめます.アラートをあげるルールや,そのアラートを受けた人が,どのような作業を行って解決に導くのか(場合によってはベンダーに連絡を取るのか),という台本を書きます

もちろん,障害対応のプロですから,このフロー作りも,クオリティが違います

障害対応を行う会社は,それを専門にやってる会社なので,24時間専門の技術者が待機して対応する体制をとってます

アウトソースは別のコスト負担に見えますが,結果的にはコストダウンになります.自社社員にやらせればタダだなんて思ってる上司には,その誤解についてガツンと言ったほうがいいと思います

id:kazumaryu

ご回答ありがとうございます。

ノイローゼですか。。。怖いですね。。。

でもストレスに感じているということは、この先そうなる可能性もあるんでしょうね。

気をつけないと。

障害対応を外注に出すならマニュアルをしっかりこちらで作らないといけないと思ってましたが、

コンサル的な感じで、フローづくりから一緒にやってもらえると、非常に助かりますね!

どんな業者があるのか調べてみようと思います。

2008/12/25 21:14:24
id:y-kawaz No.4

y-kawaz回答回数1419ベストアンサー獲得回数2252008/12/26 01:32:27

ポイント22pt

うちではまず、サーバやサービスに障害が発生したらメールを送信する監視システムが第一歩で、監視システムは担当者全員の携帯にメールを送信します。

これくらいはどこでもやってると思います。


ですが、これで安心してはいけません。

この障害メールに対して全員が対応を始めると2重に対応を行ってしまう無駄が出たり、

逆に誰かがやるだろうと全員が考えてスルーしてしまい大障害になる恐れがあるので、

対応担当を当番制で決めておきます。

例えば、担当者が3人いるとした場合1週間毎に対応当番を交代します。

当番の週は障害メールが来たら真っ先に対応する責任があります。

これにより責任が明確になるとともに、逆に当番以外の人間の精神的負担が大幅に軽減されます。


ですが、人間なのでいくら障害メールが来ていて当番脱兎しても寝ていて気がつかなかったりすることがあります。

この問題の対策として、更に以下のようなシステムを独自で作って運用しています。

まず監視システムは担当者以外に「担当を電話で叩き起こすシステム」にもメールを送ります。

この電話システムには担当者 A,B,C の携帯電話番号が設定されており、障害メールが届くと現在当番の人を判断してその人の携帯電話に電話をかけ始めます。

1回だと気がつかない場合もあるので10回くらいは何度もリダイアルして気付かせます。


ですが、人間なので、いくら寝ていなくても、風呂に入っているなどで電話の鳴る音にも気がつかない場合もあります。

その場合リダイアル上限に達したら電話システムはAを諦めて、B,Cの携帯に順番に電話をかけていきます。

Bが当番じゃないときでもBに電話が回ってきたときはAが対応できなかったんだなと諦めて対応します。

これはAに対するBの貸しになるので、Bは翌日Aに対して飯をおごってもらうなどして貸しを返してもらいます。


ちなみにこのリダイアル地獄は電話を取ってダイアルで暗証番号を入れることで止まります。

この暗証番号もポイントで、毎回同じ番号だと慣れてくると寝ぼけたまま障害電話を取って暗証番号を入れてリダイアルシステムを停止させてまた寝てしまうことがあります。

それを防ぐため、今日の日付を入力させるなど多少頭を使わないと止められない仕組みになってます。


いかにも人間的で単純なシステムですが、これが出来てからは対応漏れも減った上に、当番以外の時は実質対応休暇となるので担当者の精神的負担も大きく軽減されました。

id:kazumaryu

ご回答ありがとうございます。

質問の意図を完璧にくみとっていただき、かつ具体的な内容で、とても参考になります。

担当者全員の携帯にアラートを送るのはやはり一般的なことなんですか。。。

対応担当の当番に対してボーナス(手当て)的なものはあるんでしょうか?

もしない場合、果たしてこの対応当番に割り当てられるエンジニアさんたちに不満がないのか気になるなぁ。

ところで「担当を電話で叩き起こすシステム」これはとってもユニークですね!

担当者の精神的負担をコストと考えたときの費用対効果が高い気がします。

サービスをとめないという強い意志を感じますね!

2008/12/26 02:17:14
  • id:y-kawaz
    回答に書き漏れたことがあります。
    2番の回答にある「確認した」という報告ですが、リダイアルシステムを誰かが止めた(=誰かが対応し始めた)際にも全員の携帯にメールが飛ぶので、他の人は安心できます。

    また、この対応システムとは別に当然ですが、対応した人は障害の詳細はどんなのでこんな対応をしたという報告は社内Wikiに書いておきみんなで情報を共有します。

  • id:kazumaryu
    y-kawazさん、ありがとうございます。
    たしかにみんなの携帯に「対応します」メールが飛べば安心できますね。

    y-kawazさんの会社の障害対応のシステムや体制はすごくしっかりしていて、
    見習いたい点が多々あるんですが、一つ気になることがあります。

    当番を割り当てられる担当者のなかには、「当番やだなぁ」とストレスを感じている人がいるのではないかと。
    当番に対する手当てがあったり、もしくは最初から賃金に含まれていたりするんですか?

    もちろん責任感やサイト愛といった動機でやるのが理想なんでしょうが・・・
  • id:y-kawaz
    >当番に対する手当てがあったり、もしくは最初から賃金に含まれていたりするんですか?
    従業員全員が当番を割り当てられる訳ではなく一部の対応スキルもある数人(主に社員)のみが対象です。
    その人には最初から深夜や休日の障害対応の労力と精神的負担を想定した十分な手当が賃金に含まれています。
    (たまに自分担当の時に障害が全然発生しない時期が続くとラッキーですが、当然逆パターン(自分の時ばかり何故か障害多発)もありますがこの為に良い給料貰ってるんだと思って頑張ります)

    報酬に関しても紆余曲折あり今は今の形になってます。
    最初は特に何も手当や罰則無しでしたが、緊張感が薄れて対応漏れが多いので↓のようにしてみました。

    実は昔は更に人数が少なくて社長と自分の2人が1週交代で当番をしてたのですが、そのときは上の回答に書いた「Bが当番じゃないときでもBに電話が回ってきたときはAが対応できなかったんだなと諦めて対応します。これはAに対するBの貸しになるので、Bは翌日Aに対して飯をおごってもらうなどして貸しを返してもらいます。」この肩代わりが発生したときは、互いに飯を奢るレベルではなく罰金と手当をかねて個人間で2万円払いましょう!という決まりを作っていたこともありました。
    これは当番時は罰金の緊張感、当番以外ではサポート時の手当が得られると、一石二鳥の効果がありサポート側もキチンとやったりして上手く回ってました。

    ですがこの体制は昔からのベテラン2人だから成り立っていて、そのうち2週に1度は色々辛いので対応要因を育てて増やそうとなったときに、罰金ルールは新人には厳しすぎるので結局廃止しました。
    代わりに基本賃金のアップで手当てするようになりました。
    二人のころより負担も減るし、安定して賃金アップはやはり嬉しいので今はこれで上手く回ってますね。

    新人導入時の当番の順番も少し変化があり、A,Bがベテラン、Cが新人の場合、主な対応当番はA,B,Cと3人ループですが、Cが当番の時はAとBが更に順番に副当番となり、直接対応させるのはCだけど、対応方法が分からないときはそのときの副当番に遠慮無く携帯電話して対応方法を聞いてよいルールです。
    これで当番の負担が3週に1回に減り、新人の教育にもなり、対応漏れも防げるという感じです。
    障害対応は高度なスキルが必要になりますが障害時こそスキルアップのチャンスなので、この当番用の新人は副当番のサポートの中とは言え緊張感とあいまり成長も早かったですね。
    半年か1年くらいこのまま運用するころには副当番に振られることもほとんど無くなってきて立派な3人体制になり楽になりました。
  • id:y-kawaz
    ちなみにあまりに熾烈な対応状況が続く時期というのはやはりあって、そうなると、人間どうしても眠いが優先になったり、ストレスによる体調不良などが現れてきて、「責任感やサイト愛」等というモノは薄れてきてしまいますね。なので最終的にはそういうのに頼れなくないですね。人間誰でも追い詰められたらどうしても駄目になります(^^;

    その精神的コストを賃金へ反映したり、対応人数を増やしたりなど、人間的な問題も個人の責任にせず誰もがやらかすこととしてカバーできる案を考えたりと、システムとして破綻しにくいものを構築するのは大切だと思いました。多分今後も大きなトラブルや環境の変化などあれば原因と対策を考えてルールも変わるんだとと思います。

    電話システムは「人間だもの、眠いときもあるし、気づかないろきもあるし、トンズラしたい気分のときもあるよ」というある種の諦め許しを認めて、それでも対応漏れを起こさないようにと考えて出来てきたものです。この「個人を責めない」というシステムを作ったのが精神的負担の軽減の大きなところになってるのかなと、振り返って思いました。
  • id:kazumaryu
    ご丁寧なご回答ありがとうございます。
    うちの現状とかなりかぶるところがあって、すごく参考になりました。
    「個人を責めないシステム」ここに鍵があるような気がします。
    おっしゃる通り、環境によってなにがいいルールなのか変わってきますよね。
    y-kawazさんが紆余曲折の末、今の体制を見出したように、
    ぼくらもみんなで話し合いながら色々トライをしてみようと思います。
    重ね重ねありがとうございました!
  • id:matsubobo
    専門でやっているMSPへ外注します。
  • id:matake
    うちの会社では、アラートが携帯に届き、対応可能な担当者がSkypeに集まってきます。
  • id:pitworks
    サーバ構築管理をする会社を経営しています。

    コストをかけるだけの価値があると思われる案件では24時間の監視サービスを
    弊社の監視サービス意外に追加で導入をお勧めしております。
    弊社の場合は、Nnetworks( http://www.nnetworks.co.jp/ )を利用しております。

    監視会社を利用する前に、サーバの自動復旧(BASHやperlで作成したプログラムで実施)などを
    実装した上で導入した方が良い場合もあるので、運用の自動化検討など自社の運用監視を見直す方が
    有効な場合もあります。

    また監視を外部の会社にお願いする場合も、負荷分散装置がある環境ではシングルポイントになる
    DBだけを監視に回す方法もあります。例えば、DB2台(マスターと障害発生時のマスター)を監視を
    お願いするだけなら安上がりですよ。

    おまけ、、、
     自社で携帯電話でのメールアラートで回す場合、人数が増えると必ず精度が下がります。
     以前対策として、PHSを1台購入してプライマリ―アラート携帯電話として毎週爆弾ゲームwしてみたら、
     PHSが回ってきた人が対応する率が上がり、問題解決になった事もありました。
     24時間監視会社にアウトソーシングするよりは安上がりです。
  • id:kazumaryu
    みなさま、コメントありがとうございます!

    matsuboboさん
    MSPですか、なるほど。
    サーバーやネットワークのハード面の障害にはとても有効そうですね。
    ちなみにぼくの会社では障害のほとんどがアプリに起因するもので、
    外注なども考えたのですが、やはりプログラマでないと対応が難しいのです。。

    matsuboboさん
    まさに今うちもそんな感じです!
    ただ、平日の夜なんかはわりと集まるんですが、
    やはり休日になると集まりが悪くなりますねぇ。

    pitworksさん
    ご紹介ありがとうございます。
    Nnetworks知りませんでした。
    MSPを検討する際には参考にさせていただきます。
    >PHSを1台購入してプライマリ―アラート携帯電話として
    これとてもいいですね!
    誰が当番か非常に明確になります。

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません