身に覚えのない170万円の請求が……AWSの運用管理で起きた“4つのしくじり”(3/4 ページ)
クラウド専業のSIer・アイレットのインフラエンジニアが、運用管理者向けイベント「Cloud Operator Days Tokyo 2020」に登壇。AWSのマネージドサービスで起こした失敗談を語った。高額請求が来たり、予期せぬエラーが出たりといった“しくじり”があったという。
AWS Lambdaが突然死
3つ目のしくじりは、Lambdaでエラーが頻発したこと。「Lambdaの突然死」と古屋さんは表現する。
アイレットはある顧客向けに、S3から抜き出したzipファイルをLambda上のプログラムで解凍し、それをまた別のS3バケットに保管するという仕組みを実装した。これも運用を始めてしばらくの間は何の問題もなく動作していたものの、あるタイミングを境にLambdaで「No space left on device」(デバイス上の容量が不足している)というエラーが頻発するようになった。
だが、実際にはS3の容量には余裕があり、エラーの原因とは考えにくかった。そこでさまざまな仮説を立てて検証を進めた結果、Lambda上のディスク容量が枯渇していることが判明した。
Lambda上のプログラムでは、S3から受け取ったzipファイルを解凍し、いったんローカルのテンポラリディレクトリ上に展開した後、別のS3バケットへと渡していた。Lambdaのテンポラリディレクトリの上限は512MBだが、展開するファイルのサイズはそれより小さいため、問題が起こるとは予想していなかった。
しかしAWSのドキュメントをよく見てみると、「Lambda関数を連続して呼び出す場合、AWS Lambdaはできる限り実行コンテキストを再利用する」との記述が見つかった。つまり、Lambda上のプログラムが繰り返し呼び出された場合、テンポラリディレクトリが毎回クリアされるとは限らず、前回の処理で保存したファイルが残った状態のまま次の処理で再利用されるケースがあるということだ。
「最終的には、処理のたびにファイルを削除することで事なきを得た。『Lambdaは毎回使い切り』と勝手に思い込んでいると、同じようなワナにはまる可能性があるので、ユーザーは要注意だ」(古屋氏)
関連記事
- コロナ禍でテレワーク普及も、日本はクラウド後進国のまま? その裏にあるSI業界の病理
新型コロナウイルスの感染拡大に伴い、企業活動がオンラインにシフトしつつある。だが日本企業では、依然としてクラウド活用が進んでいないという。その要因について、ガートナージャパンのアナリスト、亦賀忠明氏に聞いた。 - 「リモートアクセスできない」――コロナ禍のテレワーク、ITインフラの課題が浮き彫りに 打開策は「クラウド」が首位
ITmedia NEWSが「コロナ禍におけるクラウド活用」に関する読者調査を実施。テレワーク環境の課題として「社員のリモートアクセス権がない/不十分」「ITインフラの負荷が増大する」などが挙がった。解決策として最多だった手段は「クラウドサービスの導入」。業務効率化やITインフラの可用性向上などを期待する声が集まった。 - IaaS市場はなぜ伸びている? 大手3社の戦略の違いは? クラウド業界事情を基礎から徹底解説
クラウドは2000年代半ばに登場した比較的新しい技術でありながら、現在では当たり前の存在となった。目まぐるしく変化を続けるクラウドへの理解を深めるため、市場の中でも特に成長が著しいIaaS領域に着目し、世界の主要ベンダーとその動向をみていこう。 - 「クラウドは信頼できない」は本当か? AWS、Office 365、自治体IaaSの障害を経て、私たちが知っておくべきこと
2019年は国内外で、大規模なクラウドサービスの障害が相次いで発生した。それに伴い、「クラウドサービスは信頼できないのでは」といった議論も巻き起こった。だが、オンプレミスにも課題はある。メリットとデメリットを認識した上で、クラウドとうまく付き合っていくべきだろう。そのために必要な基礎知識と考え方を、ITジャーナリストの谷川耕一氏が解説する。 - 「君、今日からクラウド担当ね」 未経験者が1人で始めた、ファミマのAWS移行の舞台裏
「AWS Summit Tokyo 2019」のセッションに、ファミリーマートでクラウド移行の責任者を務める土井洋典さんが登壇。土井さんは、前任者が突然退職したため、ある日突然上司からクラウド担当を任された経験を持つ。たった1人でのスタートだったというが、どうやってAWS移行を成功させたのだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.