▽1
●
JULY ●2000ポイント ベストアンサー |
【1】Linuxサーバが再起動できるかどうか事前にシミュレーションする方法はありますでしょうか?
無いです。強いて言うと、仮想マシン上であれば、その仮想マシンのコピーを作って、ということができなくは無いですが、物理マシン上であれば無いです。
電源を強制的に落としたのであれば、起動できなくなる可能性が高くなるのは仕方がないので、そこは覚悟するしか無いです。
【2】Linuxサーバが死にそうか?確認する方法はありますでしょうか?
OS が完全に停止するような、ソフトウェア的なトラブルの前兆を捉えるとすれば、メモリの利用率、プロセス数、CPU の負荷状況、ルートパーティションの使用率、といったあたりをモニターすることは考えられます。
ただ、短時間で急激な変化を起こすような場合では、その前兆を捉えることはできないので、必ず確認できるわけではありません。
ハードウェア上のトラブルは、こういった「借り物の専用サーバ」の場合、ユーザが監視するのか、サービス提供が監視するのかわかりませんが、ユーザ側での監視には制限があるかもしれません。
通常、サーバのメーカーから、ハードウェア状態を SNMP 経由で取得するためのソフトウェアが配布されているのですが、「借り物の専用サーバ」でそういったものが利用できるかわかりません。
【3】ホスティングサーバの運用として
SNMP等での死活・負荷監視、ログチェック、SPAM対策、セキュリティパッチ
以外に行うべきことについてご教示頂けませんでしょうか?
真剣に可用性を考えるであれば、本当はクラスタリングをするのが王道です。ただ、借りている専用サーバ、という制約では、実現は難しいと思います。
先述のハードウェア状態の監視もそうですが、ハードウェア上のトラブルに対しては、借り物の専用サーバでは限界がある、という感じがします。であれば、いっそ AWS のような IaaS サービスの方が、ハードウェアの心配をユーザ側が心配する必要が無い、というメリットがあると思います。
ハードウェア上のトラブルは無視するとして、ソフトウェア上のトラブルのことを考えると、リソース監視は強化した方が良いと思います。メモリやディスクの利用状況は押さえておきたいところです。
あとは、きちんとログを見ることでしょうか。本当は、今回のトラブルがどういった原因で発生したのか、きちんとログを解析したり、そもそも、きちんとログが取れるように設定しておく、ということが大切だと思います。