KADOKAWA Technology Review
×
無料の会員登録で、記事閲覧数が増えます
コネクティビティ Amazon’s $150 Million Typo Is a Lightning Rod for a Big Cloud Problem

損失額1億5000万ドル AWS障害でクラウドは再設計へ

システムの運用を丸投げできるはずのクラウドで、最大手のアマゾンがサービスを適切に運用できていなかった。政府のサービスすらクラウド上で稼働しており、中央集権型Webサービスの信頼性を高める見直しが必要だ。 by Jamie Condliffe2017.03.06

あらゆるデータをクラウド上に保存するなら、万全の運用体制のあるクラウド事業者を選ぶだろう。だが先週、世界最大手のクラウド事業者であるアマゾンは、運用体制に不備があることを露呈してしまった。

2月28日、かなりの数のWebサイトが稼働しなくなった。Slackでは仕事の連絡ができなくなり、Trelloではプロジェクトを管理できなくなり、なんとMIT Technology Review(英語版)では、ブレークスルー・テクノロジー10の記事が読めなくなった。また、スマート・ホームでも、機器に不具合が生じたようだ。

原因は、アマゾンのクラウド型ストレージ「Amazon S3」の障害だ。アマゾンは世界最大手のクラウド・コンピューティング事業者であり、アマゾンのクラウドを利用していた多くのサービスが正常に動作しなくなった。システム障害はすぐに復旧せず、回復までに4時間以上かかった。

クラウドの機能停止による実際の損失額は正確には割り出しにくい。しかしウォール・ストリート・ジャーナル紙は、スタンダード・アンド・プアーズが発表する上位500社で、150億ドル以上の損失があったとする分析会社サイエンスの見積もりを掲載している。また、ネットワーク・トラフィックの監視会社アピカは、オンライン小売業者上位100位のうち54社でWebサイトのパフォーマンスが低下し、少なくとも20%の損失があったと見ている。実際の損失額がともかく、クラウドの停止で大きな損失があったことは間違いない。

損失額が大きいだけに、クラウドが停止した理由は情けない。障害に関する説明でアマゾンは、根本的な原因は定期メンテナンス中にバージニア州北部の施設で働くスタッフが実行した誤ったコマンドにあると認めた。ひとりの誤操作でインターネット全体を巻き込む大規模障害が発生したのだ。

誤操作したスタッフは、限られたサーバーをオフラインにするつもりが、必要以上のサーバーをオフラインにしてしまい、その中にシステム全体が使う基本プロセスが稼働しているサーバーが含まれていたため、ユーザーのリクエストを処理する施設の機能が根本的に失われてしまった。

アマゾンは世界各地で複数のクラウド「エリア」を運用しており、サービスの利用者は複数のクラウド・エリアでファイルを保存したり、コードを実行したりできる。しかし、複数のクラウド・エリアの使用は費用がかかるうえ、ザ・レジスターが記事にしているように、異なるエリアでサービスを運用していた企業でもシステムに不具合があった。設備の容量が足りず、エリアの切り替えがうまくいかなかった可能性が高い。

アマゾンのクラウドが停止するちょうど4日前、MIT Technology Reviewは中央集権型Webサービス特有のリスクを指摘しており、アマゾンのクラウド・サービスが動作しなくなった場合にどんな問題があるかを推測していた。記事はクラウド停止の「リスクはとても大きい」と警告し「セキュリティや信頼性、提供者としての適性」が重要である一方、中央集権型Webサービスを提供する企業はこうした要素を過小評価していると指摘した。

アマゾンも同じ意見のようだ。アマゾンではすでに防止策としての安全装置を設置し、今後は不慣れなスタッフが今回ほどの短時間に多くのサーバーをシャットダウンできないようにした。

対策はここから始まる。現時点では、クラウド・サービスを強化するには追加の保護方針が明らかに必要だ。たとえばアマゾンは、バージニア州北部の施設全体が一度に停止するような状況を許すべきではなかった。本来は、クラウド・サービスを複数のサブシステムに分割し、サブシステムごとに障害を閉じ込めるように設計すべきだった。

そこまでしても、中央集権型Webサービスはぜい弱なままかもしれない。たとえばボットネットを使い、ハッカーが事業社1社に大きな攻撃を仕掛けるだけで、Webの大部分を再び停止させられる可能性がある。だからといって、事業者の単純なミスでWeb全体が停止するような事態はあってはならない。

(関連記事:Wall Street Journal, the Register, AP, Amazon Web Services, “クラウド型社会混乱の可能性がクラウドフレアのデータ漏洩で判明,” “2017年版ブレークスルー・テクノロジー10:モノのボットネット”)

人気の記事ランキング
  1. First Evidence That Night Owls Have Bigger Social Networks than Early Risers 社交的な夜型、孤独な朝型——行動パターンに明らかな違い
  2. Google Reveals Blueprint for Quantum Supremacy グーグルが量子超越性の実現にめど、数カ月内に実証も
  3. Put Humans at the Center of AI グーグルへ転じた スタンフォード研究者が語る 次世代AIに必要なこと
  4. Forget Killer Robots—Bias Is the Real AI Danger グーグルが指摘する、イーロン・マスクが語らないAIの本当の脅威
  5. Is AI Riding a One-Trick Pony? 人工知能バブル 3度目の冬はやってくるのか
タグ
クレジット Photograph by Adrian Dennis | Getty
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
「コネクティビティ」の記事
人気の記事ランキング
  1. First Evidence That Night Owls Have Bigger Social Networks than Early Risers 社交的な夜型、孤独な朝型——行動パターンに明らかな違い
  2. Google Reveals Blueprint for Quantum Supremacy グーグルが量子超越性の実現にめど、数カ月内に実証も
  3. Put Humans at the Center of AI グーグルへ転じた スタンフォード研究者が語る 次世代AIに必要なこと
  4. Forget Killer Robots—Bias Is the Real AI Danger グーグルが指摘する、イーロン・マスクが語らないAIの本当の脅威
  5. Is AI Riding a One-Trick Pony? 人工知能バブル 3度目の冬はやってくるのか
ザ・デイリー重要なテクノロジーとイノベーションのニュースを平日毎日お届けします。
公式アカウント