KADOKAWA Technology Review
×
【1/31まで】年末年始限定!お得に購読できるキャンペーン実施中
Amazon’s $150 Million Typo Is a Lightning Rod for a Big Cloud Problem

損失額1億5000万ドル AWS障害でクラウドは再設計へ

システムの運用を丸投げできるはずのクラウドで、最大手のアマゾンがサービスを適切に運用できていなかった。政府のサービスすらクラウド上で稼働しており、中央集権型Webサービスの信頼性を高める見直しが必要だ。 by Jamie Condliffe2017.03.06

あらゆるデータをクラウド上に保存するなら、万全の運用体制のあるクラウド事業者を選ぶだろう。だが先週、世界最大手のクラウド事業者であるアマゾンは、運用体制に不備があることを露呈してしまった。

2月28日、かなりの数のWebサイトが稼働しなくなった。Slackでは仕事の連絡ができなくなり、Trelloではプロジェクトを管理できなくなり、なんとMIT Technology Review(英語版)では、ブレークスルー・テクノロジー10の記事が読めなくなった。また、スマート・ホームでも、機器に不具合が生じたようだ。

原因は、アマゾンのクラウド型ストレージ「Amazon S3」の障害だ。アマゾンは世界最大手のクラウド・コンピューティング事業者であり、アマゾンのクラウドを利用していた多くのサービスが正常に動作しなくなった。システム障害はすぐに復旧せず、回復までに4時間以上かかった。

クラウドの機能停止による実際の損失額は正確には割り出しにくい。しかしウォール・ストリート・ジャーナル紙は、スタンダード・アンド・プアーズが発表する上位500社で、150億ドル以上の損失があったとする分析会社サイエンスの見積もりを掲載している。また、ネットワーク・トラフィックの監視会社アピカは、オンライン小売業者上位100位のうち54社でWebサイトのパフォーマンスが低下し、少なくとも20%の損失があったと見ている。実際の損失額がともかく、クラウドの停止で大きな損失があったことは間違いない。

損失額が大きいだけに、クラウドが停止した理由は情けない。障害に関する説明でアマゾンは、根本的な原因は定期メンテナンス中にバージニア州北部の施設で働くスタッフが実行した誤ったコマンドにあると認めた。ひとりの誤操作でインターネット全体を巻き込む大規模障害が発生したのだ。

誤操作したスタッフは、限られたサーバーをオフラインにするつもりが、必要以上のサーバーをオフラインにしてしまい、その中にシステム全体が使う基本プロセスが稼働しているサーバーが含まれていたため、ユーザーのリクエストを処理する施設の機能が根本的に失われてしまった。

アマゾンは世界各地で複数のクラウド「エリア」を運用しており、サービスの利用者は複数のクラウド・エリアでファイルを保存したり、コードを実行したりできる。しかし、複数のクラウド・エリアの使用は費用がかかるうえ、ザ・レジスターが記事にしているように、異なるエリアでサービスを運用していた企業でもシステムに不具合があった。設備の容量が足りず、エリアの切り替えがうまくいかなかった可能性が高い。

アマゾンのクラウドが停止するちょうど4日前、MIT Technology Reviewは中央集権型Webサービス特有のリスクを指摘しており、アマゾンのクラウド・サービスが動作しなくなった場合にどんな問題があるかを推測していた。記事はクラウド停止の「リスクはとても大きい」と警告し「セキュリティや信頼性、提供者としての適性」が重要である一方、中央集権型Webサービスを提供する企業はこうした要素を過小評価していると指摘した。

アマゾンも同じ意見のようだ。アマゾンではすでに防止策としての安全装置を設置し、今後は不慣れなスタッフが今回ほどの短時間に多くのサーバーをシャットダウンできないようにした。

対策はここから始まる。現時点では、クラウド・サービスを強化するには追加の保護方針が明らかに必要だ。たとえばアマゾンは、バージニア州北部の施設全体が一度に停止するような状況を許すべきではなかった。本来は、クラウド・サービスを複数のサブシステムに分割し、サブシステムごとに障害を閉じ込めるように設計すべきだった。

そこまでしても、中央集権型Webサービスはぜい弱なままかもしれない。たとえばボットネットを使い、ハッカーが事業社1社に大きな攻撃を仕掛けるだけで、Webの大部分を再び停止させられる可能性がある。だからといって、事業者の単純なミスでWeb全体が停止するような事態はあってはならない。

(関連記事:Wall Street Journal, the Register, AP, Amazon Web Services, “クラウド型社会混乱の可能性がクラウドフレアのデータ漏洩で判明,” “2017年版ブレークスルー・テクノロジー10:モノのボットネット”)

人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  4. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
タグ
クレジット Photograph by Adrian Dennis | Getty
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
2023年のテクノロジー大予測

2023年のテクノロジーはどう動くのか? AIから量子コンピューター、宇宙開発、mRNAワクチンまで、重要トレンドをMITテクノロジーレビューが徹底予測。各分野の専門家や有力プレイヤーへの取材をもとに、技術・資金・政策などの多角的な視点で解説する。

記事一覧を見る
人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  4. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
MITテクノロジーレビュー[日本版] Vol.9
MITテクノロジーレビュー[日本版] Vol.9量子時代のコンピューティング

グーグルやIBMなどの巨大テック企業からベンチャーまで、世界的な開発競争が加速する「量子コンピューター」を中心に、コンピューティングの動向を取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る