aws : まだプログラマーですが何か？

Amazon EC2 インスタンスの負荷測定をどうやって行うべきか、という問題です。結論を先にいうと「EC2 インスタンスの場合は top コマンドではなく、CloudWatch を使うべき」ということになります。

きっかけは自分が先日ツイートしたこの現象に気付いたことでした：

Amazon EC2インスタンスのCPU利用率をCloudWatch（左）とtopコマンド（右）で取得した。前者はずっと80%超の警告状態で、後者はせいぜい10%。かなり差があるけど、これはいったい・・・？？ pic.twitter.com/1eS7apNOwd
— きむらけい (@dotnsf) January 14, 2014

EC2 で運用しているサーバーの CPU 負荷を測定すると、CloudWatch で測定した場合は80%超え（上図左）になってアラート出まくりなのに、直接ログインして top コマンドで測定するとせいぜい10%前後（上図右）になる、というものです。

なぜ測定方法によって負荷値が異なるのか？　CPU 負荷の定義が違うのか？　だとしたらどちらを信用すべきなのか、どちらかはそもそも信用してはいけないのか、・・・・

よくわからんなあ・・・　と思っていたのですが、ある日こんな情報を見つけました：
EC2 monitoring: the case of stolen CPU

簡単に言うと、「例えば CPU が 0.1 個割り当てられた仮想マシンでは、（topコマンドでの）CPU 負荷 = 10% の状態でその仮想マシンのCPU的には100%になっている」ということです。なので EC2 上の（Xen上の）仮想インスタンスを１台のマシンとみなして負荷を計測するのであれば CloudWatch を使うべき、ということになります。逆に言えばこの環境下での top コマンドの結果には注意が必要です。

上記ページには "If you’re an IBM customer with a pSeries frame these questions aren’t entirely new to you"（IBM の pSeries の顧客であれば特別目新しいことではない）とも書かれてます。へぇ、AIX ってそうなんだ。知らなかったけどね・・・ :P

タグ：: #amazon; #aws; #ec2; #top; #cloudwatch

まだプログラマーですが何か？

プログラマーネタ中心。たまに作成したウェブサービス関連の話も https://twitter.com/dotnsf

タグ：aws

Amazon EC2 インスタンスの負荷測定