【追記あり】Skeb、大規模障害で1500万相当の機会損失 クラウドサービスから突然の停止措置...サポートに連絡も音沙汰なく「大変遺憾」
コメント
注目のコメント
障害確認から1時間未満で別プラットフォームへのマイグレーション決定って決断が速すぎる。
もちろん移行作業中にHerokuが復旧する可能性も折り込み済みだったのだろうけど、今に至るまでHeroku側から回答が無い以上ダウンタイムを最小化するナイス判断だった可能性は高い。こちらが詳細な障害対応経緯。
https://medium.com/skeb-jp/report-36b5608aa867
界隈では Skeb の対応の速さが賞賛されており、確かにこれはすごいと思います。Heroku の障害を検知して報告してから、1 時間も経たないうちに別クラウドサービスへの移管を判断している。このスピード感でインフラを移行するのは普通だと考えづらい(し出来ない)ので、もともと移行予定があったのかなぁと思いました。
が、この件に関しては、いくつかの観点で気になることも。
① Heroku のステータスページを見ると、この時間帯に障害が起きていたようには見えない。Skeb 固有の問題でアカウントが停められるなどの事態が発生していたのかも?
上記の障害経緯報告の一つ前の記事によると、Skeb の Heroku アカウントに問題が発生していたようなので、もしかすると Skeb が Heroku から BAN された可能性もありますね。とはいえ後述の通り Enterprise 契約をしているようなので、いきなり BAN されるというのは考えづらいですが・・・警告への対応が漏れていた可能性も否定できない。
https://medium.com/skeb-jp/fail-4e8a9503d55a
② スケブ社は Heroku Enterprise 契約を締結していると明記されています。サポートページによると Heroku Enterprise はエンタープライズクラスのサポートを謳っており、Salesforce Success Plan に対応している模様。こちらは 24/7/365 の対応を約束していますが、今回は Salesforce からは返事があったものの、Heroku からの連絡はもらえなかったようです。これは SLA 的に問題ないのだろうか?
またそもそも今回の件が Heroku による BAN だった場合、国内 Salesforce 側が頑張って Heroku 本社に問い合わせても、BAN された理由が開示されないなどの可能性も十分に考えられます。この辺り、Skeb としてもその可能性を見越して早めの移行を決断したのかもしれません。
そもそも Heroku アカウントをなぜ止められてしまったのか、理由が気になるところです。>スケブ社は今回の騒動を受け、対応したエンジニア4人にそれぞれ3万円を支給するとともに、「障害対応手当」制度を新設した。29日、30日の休業も決めた。
障害の検知から移管までの対応のスピードが凄いね。もちろん、それには『決断』が必要であり、決断のスピードが凄いということ。
そしてエンジニアへの上記対応も素晴らしい。