20231020システム運営事故反省会

20231020システム運営事故反省会

事故概要

2023年10月20日夜(日本標準時),システム運営事故により,サービスが一時的に停止しました.

被害がMinecraft(mc.short-circuits.org), Misskey(misskey.yeonji.net)などに及びました.

事故の経緯

  1. 2023年10月20日夕方,Giteaサーバーを構築し,registry機能を有効にしました.
  2. 2023年10月20日夜,DockerイメージをGiteaのregistryにpushしたところで,Giteaサーバーが停止しました.
  3. その数秒後,ホストマシンAのネットワークが停止しました.
  4. その一分後,ホストマシンBのネットワークも停止しました.
  5. その後順次に,サービスが大規模に停止しました.
  6. その約5分後,ホストマシンCがカーネルパニックに陥りました.

事故の原因

  1. Giteaサーバーのストレージがネットワークストレージ(NFS)を利用しており,遅延が生じていました. サイズの大きいイメージをpushする際に,ネットワークイベントが多発し,偶発的なNICのバグによってNICが停止しました. ホストマシンAのNICの停止により,ホストマシンA上で稼働している全てのサービスが停止しました.
  2. DHCPサービスもホストマシンA上で稼働しており,DHCPに依存している全てのマシンのネットワークが停止しました. マシンBはDHCPからIPアドレスを取得しているため,稼働が停止しました. また,マシンBにはストレージサービスも提供されており,そのストレージサービスに依存している他のサービスも稼働不可になりました.
  3. ホストマシンCには一部NFSを利用しているサービスがあり,NFSが利用不可になったため,カーネルパニックが発生しました.

事故の反省

さあ,これからどう改善したらいいでしょうか.