データベースサーバー障害 - jp7.mixhost.jp
Incident Report for mixhost
Postmortem

平素は格別のご高配を賜り厚く御礼申し上げます。

2018年12月9日(日)06:00頃〜21:30頃に発生したjp7.mixhost.jpサーバーで発生しました障害につきまして、ご利用のお客様には長時間にわたり大変ご迷惑をおかけし、またデータベースデータのロールバックが発生しましたことを、深くお詫び申し上げます。

以下に、判明した障害事象、障害原因および対応状況についてご報告いたします。

障害事象と発生日時

2018年12月9日(日)06:00頃〜21:30頃の間において、ストレージシステムの不具合により、データベースサーバーが停止する事象が発生いたしました。
また、ストレージシステムの不具合により、データベースの破損が発生し、弊社にて取得していた正常なバックアップデータよりロールバックを実施いたしました。

お客様への影響

jp7.mixhost.jpサーバーをご利用中のお客様(全mixhostユーザー様の約2%)におきまして、下記の影響が発生いたしました。

2018年12月9日(日)06:00頃〜21:30頃の間において、データベースサーバー(MariaDBサーバー)のご利用が困難な状況となりました。
また、その他サービスに関しても復旧に際し数回程度不安定な状態となりました。

データベースサーバーの復旧に際し、データのロールバックを実施いたしました。
そのため、データベースの内容が12月2日、または12月1日時点の内容にロールバックされております。

障害の原因

ストレージシステムにおきまして、ハードウェアの不具合が発生いたしました。
当該サーバーのストレージシステムは、2台のSSDを用いてデータを自動的に両方のSSDに保存し、故障によるデータの破損から保護する仕組みが導入されておりました。
しかしながら、今回のストレージシステムの不具合により、データベースサーバーが格納されていたストレージが正常動作せず、データベースデータの構成ファイルが破損し、復旧が困難な状態となりました。
この不具合は非常に稀なものであり、再発の可能性は非常に低いものとなります。

当該サーバーにおきましては、データベースサーバーのデータとその他データを物理的に分離しており、今回の障害につきましてはデータベースサーバーのみの影響となっております。

このため、弊社ではバックアップからのデータの復元に着手いたしましたが、上記不具合により直近のバックアップデータにも同様の不具合が発生している状況となっておりました(バックアップデータは物理的に離れた別のデータセンターに保管しております)。
弊社にて不具合が発生していないバックアップデータを確認しました所、12月2日時点、及び12月1日時点のバックアップにおいて問題がないことが確認されましたので、2日間のバックアップデータからなるべく最新の不具合が発生していないデータを復元させていただきました。

また、今回ストレージシステムの復旧、及び破損していないデータベースの確認におきまして長時間を要したことから、復旧までの期間が長期化いたしました。

再発防止策

当該サーバーにおきましては、不具合の発生していたストレージシステムの修復を実施いたしました。

弊社では2017年11月より、より堅牢なストレージシステムを構築した新しいハードウェアの導入を進めており、今回のサーバーと同等のサーバーにつきましては、順次新しいハードウェアにリプレースを進めてまいります。

特別措置

今回障害の対象となりましたお客様につきましては、お詫びといたしまして3ヶ月間のご利用期間を無料で延長させていただきます。
ご利用期間の延長につきましては、数日中に付与予定となっております。

ご利用中のお客様には長時間に渡る障害、またデータのロールバックが発生しましたことを、重ねてお詫び申し上げます。

Posted 6 months ago. Dec 10, 2018 - 12:40 JST

Resolved
復旧致しました。詳細につきましてはご契約のお客様へ直接メールでご案内させていただいております。
この度はご迷惑をおかけしましたことを深くお詫び申し上げます。
Posted 6 months ago. Dec 10, 2018 - 00:45 JST
Monitoring
復旧いたしましたが、現在最終調整を行っております。
長時間に渡りご迷惑をおかけしておりますことをお詫び申し上げます。
Posted 6 months ago. Dec 09, 2018 - 22:06 JST
Update
サーバーのストレージの問題が確認されたため、ストレージの回復作業及びデータベースの整合性を確認しております。
長時間に渡り大変申し訳ございませんが、復旧までお待ちいただきますようお願い申し上げます。
Posted 6 months ago. Dec 09, 2018 - 19:44 JST
Identified
現在弊社のエンジニアがデータベースサーバーの回復処理を行っております。
データベースサーバーの回復処理が完了次第、復旧する見込みです。
長時間ご迷惑をおかけしておりますことをお詫び申し上げます。
Posted 6 months ago. Dec 09, 2018 - 11:43 JST
Update
現在弊社のエンジニアが問題の解決に当たっております。
長時間ご迷惑をおかけしておりますことをお詫び申し上げます。
Posted 6 months ago. Dec 09, 2018 - 09:49 JST
Investigating
現在データベースサーバー障害が発生しており、接続が不安定な状況となっております。
新たな情報が入り次第、すぐに状況をご報告いたします。
ご利用中のお客様にはご迷惑をおかけしますことを深くお詫び申し上げます。
Posted 6 months ago. Dec 09, 2018 - 08:40 JST