テックブログ

Amazon EC2 で不具合?ステータスチェックを確認してみた

こんにちは。Wです。

弊社にて監視業務や障害対応をする際、監視システムだけでなく、ベンダー提供の監視サービスやステータスチェック機能を使っています。
様々な情報を確認・整理して、復旧に向けて正確な対応や報告を行うためです。
今回は、その1つである、Amazon EC2 インスタンスのステータスチェック について、まとめていこうと思います。

インスタンスのステータスチェックとは?

Amazon Web Service(以下AWS)で EC2インスタンス をご利用されている方はご存じかと思いますが、AWSのコントロールパネルで確認することができます。
(AWS コントロールパネル > EC2 > インスタンス > 対象EC2インスタンス > ステータスとアラーム [ステータスチェック])
これは、AWS側で稼働中のすべての EC2インスタンスに対して自動チェックを実行しており、その結果を表示しています。
この自動チェック機能があることで、現在EC2インスタンスがどういう状態なのか、発生している問題はハードウェアなのか、それともソフトウェアなのか、原因の切り分けが可能になります。

ステータスチェックが実行されるのは1分ごとで、「成功」または「失敗」の結果が返されます。
すべてのチェックに成功すると、インスタンス全体のステータスはOKとなります。
そして、ステータスチェックは組み込まれた機能であるため、無効にしたり、削除したりすることはできません。
せっかく提供されている機能ですので、有効活用する他ありません。

このステータスチェックを活用し、もしインスタンスが正常に機能しなくなった場合に、自動的にインスタンスを復旧する Amazon CloudWatch アラームを作成することも可能です。
(今回、詳細の設定については割愛します)

また、ステータスチェックには以下の3種類がありますので、この後確認していきたいと思います。

  • システムステータスのチェック
  • インスタンスステータスのチェック
  • アタッチ済みの EBS ステータスチェック

その他詳細については、以下のAWS公式のドキュメントをご確認ください。

インスタンスのステータスチェック

タイプ① システムステータスのチェック

まずは、システムのステータスチェックです。
ドキュメントには、以下の内容で説明されています。

システムステータスチェックは、インスタンスが実行されている AWS システムをモニタリングします。
これらのチェックでは、修復には AWS の関与が必要なインスタンスの基盤の問題が検出されます。

(中略)
システムステータスチェックの失敗の原因となる問題の例を次に示します。

・ネットワーク接続の喪失
・システム電源の喪失
・物理ホストのソフトウェアの問題
・ネットワーク到達可能性に影響する、物理ホスト上のハードウェアの問題

https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

つまり、障害が発生してサーバに接続できない場合などにシステムのステータスチェックを確認すると、その原因が「AWS側、サーバの基盤側に問題があるか」を確認することができます。
その後の対応としては、AWS側での問題解決を待つか、停止しているEC2インスタンスを起動するなど自分たちで解決するか、を選択することになります。

タイプ② インスタンスステータスのチェック

続いて、インスタンスステータスのチェックです。
ドキュメントには、以下の内容で説明されています。

個々のインスタンスのソフトウェアとネットワークの設定をモニタリングします。
Amazon EC2 は、ネットワークインターフェイス (NIC) にアドレス解決プロトコル (ARP) リクエストを送信することでインスタンスのヘルスをチェックします。
これらのチェックでは、ユーザーが関与して修復する必要のある問題が検出されます。

(中略)
インスタンスステータスチェックの失敗の原因となる問題の例を次に示します。

・失敗したシステムステータスチェック
・正しくないネットワークまたは起動設定
・メモリの枯渇
・破損したファイルシステム
・互換性のないカーネル

https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

つまり、インスタンスステータスのチェックに失敗している場合は、基本的にユーザ自身で対応する必要があります。
ログなどから原因を特定して、サーバの再起動や各種ミドルウェアの設定調整など、適宜対応をします。

タイプ③ アタッチ済みの EBS ステータスチェック

最後に、アタッチ済みの EBS ステータスチェックです。
ドキュメントには、以下の内容で説明されています。

Amazon Elastic Block Store (Amazon EBS) は、EC2 インスタンスと組み合わせて使用できる、高性能で可用性の高いブロックストレージです。

アタッチ済みの EBS ステータスチェックは、インスタンスにアタッチされている Amazon EBS ボリュームが到達可能かどうか、および I/O 操作を完了できるかどうかをモニタリングします。

(中略)
アタッチ済みの EBS ステータスチェックが失敗する原因となる問題の例を次に示します。

・EBS ボリュームの基盤となるストレージサブシステムのハードウェアまたはソフトウェアの問題
・EBS ボリュームの到達可能性に影響する、物理ホスト上のハードウェアの問題
・インスタンスと EBS ボリューム間の接続に関する問題

https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

EC2インスタンスにアタッチされた1つ以上のEBSボリュームで I/O 操作を完了できない場合、その原因が「AWS側、サーバの基盤側に問題があるか」を確認することができます。
その後の対応としては、AWS側での問題解決を待つか、EC2インスタンスを再起動するなど自分たちで解決するか、を選択することになります。

まとめ

今回は、Amazon EC2 「インスタンスのステータスチェック」についてまとめました。
ベンダーから提供されているサービスやコントロールパネルは非常に便利で、設定変更などが視覚的にわかりやすくなるだけでなく、得られる情報がたくさんあります。
より良い運用管理のために、ぜひ有効活用してみてください!

それでは、また。

この記事をシェアする

  • facebook
  • twitter
  • hatena
  • line
URLとタイトルをコピーする

実績数30,000件!
サーバーやネットワークなど
ITインフラのことならネットアシストへ、
お気軽にご相談ください