.................................................
<< 12年09月 >>
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30


最近のコメント
10/07 北本
09/29 拝承
07/28 北本
07/20 ばてれん
10/26 北本
.............................
何となくリンク
.............................

2020年
02月
05月
2019年
04月 05月
08月 09月
2018年
01月 02月 03月
04月 05月 06月
09月
10月
2017年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2016年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2015年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2014年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2013年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2012年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2011年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2010年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2009年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2008年
01月 02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月
2007年
02月 03月
04月 05月 06月
07月 08月 09月
10月 11月 12月



スーパー障害対応 2012年9月16日(日)10時55分
分類:雑ネタ [この記事のURL]

09/12(水) 09:50頃、オフィスに1本の電話が拝承展開される。
それは障害調査依頼の電話でした。
この時の電話が、あの悪夢のような障害になろうとは夢にも思いませんでした。

最初は聞いたことあるようなパターンの障害だったので、
エンドユーザー環境依存で発生してるのかな、と思い詳しく聞くと、
そういった障害問い合わせが多発しているとのことでした。

業務影響が出ているものなので、使用しているサーバー及びネットワーク機器を片っ端から再起動しても復旧せず。
障害発生から10時間以上発生するも暗礁に乗り上げる。

製品開発したメーカーへ解析を進めているが、同じく原因不明のまま。
通常は平日日勤帯のみ会社で仕事するのだが、
この日から24時間シフト体制を組んでフル稼働になる。

一旦、09/13(木) 04:30頃に家に帰りました。
昼休憩もせず、ぶっ通し16:30の勤務。

家に帰って仮眠を取り、再び出社。
11:15に再びオフィスへ戻り障害調査を継続。
残ったメンバーに確認するも復旧の目処は立たず。

連休中の体制を組み障害復旧を継続調査することに。

この日帰れたのは、翌日の19:30頃。
09/13 11:15 〜 09/14 19:30 約32時間ぶっ通しの激務。

09/15(土) 08:45 出社すると1時間程前、遂に原因が判明したと吉報が。
ただしプログラムのどこで、その事象が発生しているのかは不明。
ある値を一定値以上にすると事象が発生することを突き止めた感じ。

検証環境で、事象再現させ、復旧手順を確立した上で商用環境での作業を実施。
遂に復旧。その後、残タスクの整理を行い、09/16(日) 02:00 会社を出ました。
この日の勤務時間は、17時間。

週明けにやること山積みですが、
取り急ぎ復旧したことでパーティ開く勢いになりそうです。


nik5.144