KADOKAWA Technology Review
×
Amazon’s $150 Million Typo Is a Lightning Rod for a Big Cloud Problem

損失額1億5000万ドル AWS障害でクラウドは再設計へ

システムの運用を丸投げできるはずのクラウドで、最大手のアマゾンがサービスを適切に運用できていなかった。政府のサービスすらクラウド上で稼働しており、中央集権型Webサービスの信頼性を高める見直しが必要だ。 by Jamie Condliffe2017.03.06

あらゆるデータをクラウド上に保存するなら、万全の運用体制のあるクラウド事業者を選ぶだろう。だが先週、世界最大手のクラウド事業者であるアマゾンは、運用体制に不備があることを露呈してしまった。

2月28日、かなりの数のWebサイトが稼働しなくなった。Slackでは仕事の連絡ができなくなり、Trelloではプロジェクトを管理できなくなり、なんとMIT Technology Review(英語版)では、ブレークスルー・テクノロジー10の記事が読めなくなった。また、スマート・ホームでも、機器に不具合が生じたようだ。

原因は、アマゾンのクラウド型ストレージ「Amazon S3」の障害だ。アマゾンは世界最大手のクラウド・コンピューティング事業者であり、アマゾンのクラウドを利用していた多くのサービスが正常に動作しなくなった。システム障害はすぐに復旧せず、回復までに4時間以上かかった。

クラウドの機能停止による実際の損失額は正確には割り出しにくい。しかしウォール・ストリート・ジャーナル紙は、スタンダード・アンド・プアーズが発表する上位500社で、150億ドル以上の損失があったとする分析会社サイエンスの見積もりを掲載している。また、ネットワーク・トラフィックの監視会社アピカは、オンライン小売業者上位100位のうち54社でWebサイトのパフォーマンスが低下し、少なくとも20%の損失があったと見ている。実際の損失額がともかく、クラウドの停止で大きな損失があったことは間違いない。

損失額が大きいだけに、クラウドが停止した理由は情けない。障害に関する説明でアマゾンは、根本的な原因は定期メンテナンス中にバージニア州北部の施設で働くスタッフが実行した誤ったコマンドにあると認めた。ひとりの誤操作でインターネット全体を巻き込む大規模障害が発生したのだ。

誤操作したスタッフは、限られたサーバーをオフラインにするつもりが、必要以上のサーバーをオフラインにしてしまい、その中にシステム全体が使う基本プロセスが稼働しているサーバーが含まれていたため、ユーザーのリクエストを処理する施設の機能が根本的に失われてしまった。

アマゾンは世界各地で複数のクラウド「エリア」を運用しており、サービスの利用者は複数のクラウド・エリアでファイルを保存したり、コードを実行したりできる。しかし、複数のクラウド・エリアの使用は費用がかかるうえ、ザ・レジスターが記事にしているように、異なるエリアでサービスを運用していた企業でもシステムに不具合があった。設備の容量が足りず、エリアの切り替えがうまくいかなかった可能性が高い。

アマゾンのクラウドが停止するちょうど4日前、MIT Technology Reviewは中央集権型Webサービス特有のリスクを指摘しており、アマゾンのクラウド・サービスが動作しなくなった場合にどんな問題があるかを推測していた。記事はクラウド停止の「リスクはとても大きい」と警告し「セキュリティや信頼性、提供者としての適性」が重要である一方、中央集権型Webサービスを提供する企業はこうした要素を過小評価していると指摘した。

アマゾンも同じ意見のようだ。アマゾンではすでに防止策としての安全装置を設置し、今後は不慣れなスタッフが今回ほどの短時間に多くのサーバーをシャットダウンできないようにした。

対策はここから始まる。現時点では、クラウド・サービスを強化するには追加の保護方針が明らかに必要だ。たとえばアマゾンは、バージニア州北部の施設全体が一度に停止するような状況を許すべきではなかった。本来は、クラウド・サービスを複数のサブシステムに分割し、サブシステムごとに障害を閉じ込めるように設計すべきだった。

そこまでしても、中央集権型Webサービスはぜい弱なままかもしれない。たとえばボットネットを使い、ハッカーが事業社1社に大きな攻撃を仕掛けるだけで、Webの大部分を再び停止させられる可能性がある。だからといって、事業者の単純なミスでWeb全体が停止するような事態はあってはならない。

(関連記事:Wall Street Journal, the Register, AP, Amazon Web Services, “クラウド型社会混乱の可能性がクラウドフレアのデータ漏洩で判明,” “2017年版ブレークスルー・テクノロジー10:モノのボットネット”)

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
タグ
クレジット Photograph by Adrian Dennis | Getty
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る