20231020システム運営事故反省会
事故概要
2023年10月20日夜(日本標準時),システム運営事故により,サービスが一時的に停止しました.
被害がMinecraft(mc.short-circuits.org), Misskey(misskey.yeonji.net)などに及びました.
事故の経緯
- 2023年10月20日夕方,Giteaサーバーを構築し,registry機能を有効にしました.
- 2023年10月20日夜,DockerイメージをGiteaのregistryにpushしたところで,Giteaサーバーが停止しました.
- その数秒後,ホストマシンAのネットワークが停止しました.
- その一分後,ホストマシンBのネットワークも停止しました.
- その後順次に,サービスが大規模に停止しました.
- その約5分後,ホストマシンCがカーネルパニックに陥りました.
事故の原因
- Giteaサーバーのストレージがネットワークストレージ(NFS)を利用しており,遅延が生じていました. サイズの大きいイメージをpushする際に,ネットワークイベントが多発し,偶発的なNICのバグによってNICが停止しました. ホストマシンAのNICの停止により,ホストマシンA上で稼働している全てのサービスが停止しました.
- DHCPサービスもホストマシンA上で稼働しており,DHCPに依存している全てのマシンのネットワークが停止しました. マシンBはDHCPからIPアドレスを取得しているため,稼働が停止しました. また,マシンBにはストレージサービスも提供されており,そのストレージサービスに依存している他のサービスも稼働不可になりました.
- ホストマシンCには一部NFSを利用しているサービスがあり,NFSが利用不可になったため,カーネルパニックが発生しました.
事故の反省
さあ,これからどう改善したらいいでしょうか.