アクセス障害 - jp46.mixhost.jp
Incident Report for mixhost
Postmortem

平素は格別のご高配を賜り厚く御礼申し上げます。

2019年9月11日(水)8:10頃?9月13日(金)09:30頃に発生したjp46.mixhost.jpサーバーで発生しました障害につきまして、ご利用のお客様には長時間に渡り大変ご迷惑をおかけし、またデータベースデータのロールバックが発生しましたことを、深くお詫び申し上げます。
mixhost全体のご契約者様の、約1%にあたるご契約者様にご迷惑をおかけいたしました。

以下に、今回の障害の原因と今後の対策についてご説明をさせて頂きます。

※ご理解頂きやすいように、できるだけ分かりやすい表現をするために専門用語を避けてご説明をさせて頂きます。

障害事象と発生日時

2019年9月11日(水)8:10頃に、当該サーバーのストレージシステムに物理的な故障が発生し、当該サーバーが停止いたしました。
その後、新しいサーバーにバックアップよりデータの復元を実施し、9月13日(金)09:30頃に復旧いたしました。

お客様への影響

jp46.mixhost.jpサーバーをご利用中のお客様におきまして、下記の影響が発生いたしました。

・2019年9月11日(水)8:10頃?9月13日(金)09:30頃の間において、ウェブ、メール、データベースを含むサービスがご利用いただけなくなりました。
・2019年9月12日(木)9:30頃より、順次お客様のアカウントがご利用いただける状態となり、9月13日(金)09:30頃に全てのアカウントがご利用いただける状態となっております。
・お客様のデータにつきましては、2019年9月10日(火)20:00頃のバックアップデータより復元させていただいております。

原因と対応について

当該サーバーは、ストレージシステムに信頼性の高いサーバー用のSSDを複数台搭載しており、それらはRAID10構成(SSDを冗長化し、一部のSSDの故障が発生した場合もデータの破損を防止する仕組み)にて運用しております。
今回の障害では、その冗長化されたストレージシステムで物理的な故障が発生し、データへのアクセスができない状態となりました。

障害発生時、弊社が採用している大手のサーバーの製造元の技術者も交えてサーバーの修理、及びデータの回復を試みておりましたが、復旧が困難な状況であった為、新しいサーバーを用意し、最新のバックアップデータよりお客様のアカウントを復元いたしました。
なお、故障発生の詳細な原因につきましては、現在も継続してサーバーの製造元も交えて調査を継続しております。

一般的にレンタルサーバーで発生する障害というのは、

・外部からの攻撃
・サーバ内サイトのアクセス急増
・その他物理的な原因

などにより、軽度な障害というのはよく発生致します。
それらの障害については、すぐに原因が判明し障害時間も数秒から数分で解消します。

弊社は、「絶対に一番いいレンタルサーバーを提供する」という理念がありますので、その理念に基づき、サーバーの管理、監視、チューニングを行い、「障害は起こるもの」という前提を疑い、軽度な障害を数秒から数分で解決するのではなく、「障害を起こさない」という目標を掲げ対策することによって、ほぼ0%に近づけることができました。

しかしながら今回の障害については、サーバー本体が故障し、さらに冗長化されたデータの取り出しも不可能となる、「通常起こりえない」事態になりました。

よって現在、壊れた原因を究明しております。

原因究明方法

原因究明については弊社の技術者、データセンターの技術者、サーバーの製造元によって行われています。

しかしながら、データセンターの技術者からは「今回の事例は過去にほぼ例が無いため原因究明に時間がかかる可能性が高い」という報告を受けております。

今後提供予定のサーバについて

弊社では昨年発生大規模な障害を受け、サーバーの製造元、データセンターを含む大規模な変更を実施致しました。

当初サービス開始時に導入していたサーバは、不安定で軽度な障害も多発していたこと、そして今回と同じように、限りなく可能性の低い「サーバーが故障し、データの取り出しが不可能になる」という事態を受けて切り替えいたしました。

しかしながら今回のサーバーについては国内、海外ともに比較検証した結果、最も「安定性が高く」「高速である点」「軽度な障害はほぼ0%に近い数値」に減らせたこと、そして「今回の障害は本来起こりえる可能性が限りなく低いこと」である点から、切り替えをする予定はございません。

弊社でも今回の障害の重大性は認識しており、現在全力で原因究明を行っており、原因が判明次第再発防止策を講じさせていただきます。

今後の対応の変化について

ただし「本来起こりえる可能性が限りなく低いこと」であっても、昨年は利用者様の約2%、今回は利用者様の約1%の多くの皆様にご迷惑をおかけしたことは間違いございません。

しかも「本来起こりえる可能性が限りなく低いこと」が2年間で2度発生致しました。

加えて、利用者様の多くが私たちが大事にするべきアフィリエイター様、ブロガー様であり、Twitter等でも「障害」についてさかんに議論されることになります。

また弊社の代表は元アフィリエイターであり、アフィリエイター時代に

「なぜ日本には満足いくサーバがないのか」
「もっと個人でもすごいサーバを使ってほしい」

という考えで作られたサーバでもあります。

これらを考えると

・多くの皆様にご迷惑をおかけしないために
・mixhostは障害が起きやすいというイメージを払拭するために
・よりいっそう安定的なサーバーを目指すために

以下の手順にて今後対応してまいります。

1.まず原因究明を致します
⇒そもそも起こりえる可能性が限りなく低い事態という報告を現在頂いておりますので、原因究明には少し時間がかかる可能性があります。
しかしあらゆる角度から弊社技術者、データセンター技術者、サーバー製造元、及び協力会社が原因究明を実施いたします。

2.原因究明後、防ぐことができない原因の場合
⇒サーバーというのもいわゆる「機械」ですので、いつか故障は発生します。
弊社は障害発生を事前に防ぐために常に監視及びメンテナンスを実施し、少しでも不具合があれば部品の取り換えや本体の交換を行います。
しかしそれを行っていたにも関わらず突発的に起こったものであれば、防ぐことのできない事例ですので、バックアップ体制の見直しや、バックアップからの復旧時の対応速度の向上も含めて対処いたします。

3.防ぐことができる原因の場合
⇒これはその原因を取り除くためにサーバーの監視、管理を行います。
これはmixhostの理念に基づき徹底的に対応致します。

4.想定できる障害は引き続き、限りなく0%に近い数値を目指す
⇒よくいわれる「サーバの障害」というレベルの障害は、mixhostで現状ほぼ0%に近い結果となっておりますので、こちらについては引き続きしっかりと管理致します。

今回の障害に関係するよくある質問

▼WordPressテーマのCocoonでサイドバーのみしか表示されない
WordPressをご利用中の一部のお客様の環境において、WordPressサイトのサイドバーのみが表示され、記事部分などが正常に表示されない事象が確認されております。
サイトのレイアウトが崩れたり表示が正常に行われていない場合、お手数ですが以下の方法をお試しください。

・WordPressテーマのアップデート

1.WordPress管理画面にログイン
2.外観>テーマを選択
3.現在利用中のテーマあるいは親テーマを選択しアップデート(※)

※テーマが最新版の場合はアップデートの表示がおこなわれません。

最新のアップデートがない場合あるいは上記の方法を行ってもサイトの表示が正常にならない場合は、以下の方法をお試しください。

・WordPressテーマを一時的に切り替える
1.WordPress管理画面にログイン
2.外観>テーマを選択
3.現在「有効化」しているテーマと別のテーマ欄にて「有効化」を選択
4.再度、利用するテーマ欄にて「有効化」を選択

▼外部のネームサーバーを利用している場合にサイトが表示されない
今回の障害からの復旧に伴い、サーバーのIPアドレスが変更されております。
外部のネームサーバーをご利用のお客様は、下記手順にて新しいサーバーのIPアドレスをご確認いただき、更新していただくようお願いいたします。
https://help.mixhost.jp/hc/ja/articles/115003735631

皆様へ

今回障害の被害を受けられた皆様に改めてお詫び申し上げます。

弊社としては影響の大きい障害が発生してしまったこと、復旧に時間を要したこと深く悔やんでおります。

またアフィリエイター様、ブロガー様に満足のいくサーバーを提供したいという思いがあるにも関わらず

このような障害が起こり、ご迷惑をおかけしたことも深く悔やんでおります。

今後は上記に記載させて頂いた通り、原因究明と対応策を徹底的に実施し、予期できない事態についても対応できるよう邁進してまいります。

この度は大変ご迷惑をおかけしましたことを心よりお詫び申し上げます。

Posted Sep 13, 2019 - 20:05 JST

Resolved
2019年9月11日(水)8:10頃〜9月13日(金)09:30頃までハードウェアのストレージ故障に起因するアクセス障害が発生しておりました。
9/10 20時頃に取得していたバックアップデータよりロールバックを実施いたしました。
ご利用中のお客様におかれましては、長時間にわたりご迷惑をおかけしたことを深くお詫び申し上げます。
Posted Sep 13, 2019 - 10:32 JST
Identified
現在、jp46サーバにおいて、ハードウェア障害が発生し、サーバーにアクセスできない状況となっております。
9/10 20時ごろに取得したバックアップから復元作業を行っております。
ご利用中のお客様におかれましては、長時間にわたりご迷惑をおかけしていることを深くお詫び申し上げます。
Posted Sep 12, 2019 - 10:46 JST
Update
jp46サーバーにおきましてハードウェア障害が発生し、サーバーにアクセス出来ない状況となっております。
現在、調査・復旧対応を実施いたしております。

当該サーバーをご利用のお客様には長時間にわたり大変ご迷惑をおかけしておりますこと深くお詫び申し上げます。
Posted Sep 11, 2019 - 11:28 JST
Investigating
現在、jp46サーバにおいて、アクセス障害が発生しており、弊社のエンジニアが調査を行っております。
新たな情報が入り次第、すぐに状況をご報告いたします。
ご利用中のお客様にはご迷惑をおかけしますことを深くお詫び申し上げます。
Posted Sep 11, 2019 - 09:45 JST
This incident affected: クラウドレンタルサーバー.