こんにちは アミーです。
以前弊社 UOZU にてネットワーク設計の落とし穴の記事で、帯域制限についてふれていますが
今回は実際にさくらのクラウドにて運用していたサーバで実際に起こった問題でどういった対処をしたか紹介したいと思います。

何が問題だったのか
はじめに帯域制限について記載しましたが、結論として障害の原因はサーバの帯域上限でした
さくらの通常のサーバはメモリ32GB未満では 1.0Gbps となります。
https://manual.sakura.ad.jp/cloud/support/technical/network.html
これは仕様を理解していないと、トラフィックを見ただけだけど気が付きにくいです。
サーバの負荷状況の割にWebサイトが表示されない(遅い)という症状が続いており、原因の究明に時間がかかっておりました。
いくつか情報はマスクいたしますが、当時のトラフィック状況です。

1Gbps で頭打ちしています。
スイッチの下に大量にサーバをぶら下げて運用経験のある人はおや?と思えると思いますが、クラウド環境が増えてからというもの、この手の経験をした人も少なくなっており、ぱっとみてなかなか怪しむのが難しくなっていました。
この状況ですとサイトのアクセスが減らない限りサーバや、Apacheやサーバ再起動しても、瞬間的にトラフィックが下がるだけですぐに遅延するようになります。負荷が低かったわけではありませんが、なぜ負荷がそこまで高いわけでもないのに、処理が進まないの??という状態になっていました。
緊急対処
最初に記載しましたが、メモリを32GB 以上にすることでサーバ1台のトラフィック上限が引き上がるため、その対応を実施いたしました。
サーバ1台のまますぐに実施可能な手段になります。
恒久対処
負荷分散として、サーバを3台で運用する形に変更しました。こちらは準備、動作確認が必要なため、すぐに対応に移れないため、恒久対策として別の軸で提案しました。
複数台に分散することで合計でメモリ32GBせず、1台1台のスペックをある程度下げても、さばけるトラフィック量は増えることになります。
終わりに
今回は少し特殊なトラブルシューティングの紹介でした。
Webサイトが見られないというのは考えたくありませんが、絶対にないとは言い切れません。
弊社では監視サービスを提供しております。ご興味ございましたらお問い合わせください。
ありがとうございました。


