これは昨日の話なので昨日書くべきだったが23時時点で完全解決していなかったので書けなかった。 昨日は久しぶりにちゃんとシステム障害を食らった。 詳細はあまり書かないことにするが簡単に説明すると、 私が所属しているコースのチャットツールを動かしているサーバーにてネットワーク断が発生しチャットツールにアクセス不能となった。 チャットツールはコース内での連絡手段として使われるのでアクセスできないと結構困る感じ。
夜中にネットワークが落ちて気づいたのは朝だった。 午前中の間に何かあった時のために切り替える待機系にアクセスを切り替え、 昼間はそれで動かしておきその日の夜中にネットワークを復旧させ切り戻した。
ネットワークの復旧は一瞬(1コマンド)でできたので午前中にそれをやっていればすぐ復旧したのだが、 まあ後の祭りだし調査や待機系に切り替えるテストもできたので悪くはなかったと思う。 反省点は待機系の整備がちゃんとできてなくて切り替えに少し時間がかかってしまったところだろう。 でもそれも今回作業する中でいい感じに設定し終えたので今後は大丈夫だと思う。
私がほぼ個人でメンテしているMisskeyサーバーの方では障害発生して対応したりとかはやっているが、 どちらかというと実験的にやってるものなので緊張感はない。
2年くらい前に結構大きな障害食らってその時は本当に泣きそうになりながら対応したが、 その時と比べると大したことなかったし、システムへの慣れ度合いも高まってたので心境としてはちょっと大変だなくらいで済んだ (むしろ楽しかった)。 これは成長しているということだろうか。