障害の発生原因と今後の取り組みについてのご報告
NR
Nature Remo<noreply@tips.nature.global>
To:
You
Thu 2024-07-11 03:56
This message is in Japanese
Translate to English
Never translate from Japanese
This message is in Japanese
障害の発生原因と
今後の取り組みについてのご報告
平素よりNatureの商品・サービスをご利用いただき、誠にありがとうございます。
先日、2024年7月8日22:00より発生しましたシステム障害の原因と、再発防止および障害発生時の影響を最小限に抑えるための取り組みについてご報告いたします。
◾️発生した事象と原因
今回のシステム障害は、Natureサーバー上のデータベースに対する書き込みリクエストが一時的に急増し、想定していたキャパシティを超えたため、書き込みリクエストにかかる時間が大幅に延びる事象が発生しました。
この結果、APIサーバーがダウンし、Nature Remoとサーバー間の通信を適切に処理できず、Nature Homeアプリからの操作ができない状態になりました。
その後大量のNature Remoからの再接続が発生しシステム全体に障害の影響が広がったことから、原因の特定と対処に時間がかかり長時間に及ぶ障害となりました。
◾️今後の対応について
まず、直接の原因である時系列データベースについて、書き込みキャパシティを見直し、一時的に書き込みリクエストが増えた場合でも問題なくレスポンスを返せるよう一次対応を完了いたしました。
今後、一部の負荷の上昇がシステム全体を不安定にさせないよう、各部分を疎結合にし、障害発生時の影響範囲を最小化する変更をしていこうと考えています。
さらに、大規模な障害発生時のユーザーの皆様への周知方法についても、弊社公式サイト、サービス稼働ステータスページおよびSNSでの周知に加え、Nature Homeアプリでのプッシュ通知や登録いただいているメールアドレスへのメール送付を行ってまいります。
(弊社起因ではない障害時等、プッシュ通知やメール送付の仕組みが働かない場合がございます。ご理解いただけますと幸いです。)
また、サーバーとの通信がうまく作動しない状態においても、サーバーを介さない形で一部の家電をコントロールできる仕組みの構築を検討してまいります。
◾️最後に
猛暑が続く中、この度のシステム障害により、皆様にはご不便とご心配をおかけいたしましたことを深くお詫び申し上げます。
Natureは、サーバーのパフォーマンス、安定性、コストの3つをバランスしながら運用してまいりましたが、Nature RemoおよびNature Remo Eがこれまで以上に多くの皆様にご使用いただくようになり、生活に欠かせないインフラとしてより一層の安定性が求められるようになっております。
皆様がより安心して自然体に暮らせるよう、サービス品質の向上に努めてまいります。引き続きご指導ご鞭撻のほど、どうぞよろしくお願いいたします。
現在も改善が見られない場合には、サポートチームからご案内させていただければと思いますので、以下の窓口からお問い合わせください。
お問い合わせはこちら
えっとな、上の赤字はリモートのデバイス装置のことやけど、このメールが来たらアカンのや。
この日やったかどうか忘れたけど、デバイス装置が途切れたんや。
それはこのアホの管理ミスやないんや。
ブルートゥースの接続が切れたけえ、もう一度、セットアップをやり直して復旧させたんや。ワシ自身が。
ま、ワシんちを勝手に見とるゆうこと、あるいはワシの目を共有しとるとかやな。
ま、こいつも終わりやろうて。