お世話になります｡Webｻｰﾊﾞ管理者です｡ CentOS6.5､Plesk11で専用ｻｰﾊﾞを(G？O社)ﾚﾝﾀﾙし､ﾎｽﾃｨﾝｸﾞを提供しております｡筐体は1年前に新規で契約したので…

お世話になります｡Webｻｰﾊﾞ管理者です｡
CentOS6.5､Plesk11で専用ｻｰﾊﾞを(G？O社)ﾚﾝﾀﾙし､
ﾎｽﾃｨﾝｸﾞを提供しております｡
筐体は1年前に新規で契約したのですが､
先日､主要ｻｰﾋﾞｽが停止し､SSH､ｼﾘｱﾙｺﾝｿｰﾙでもｱｸｾｽできなくなり､
止むを得ず､ﾃﾞｰﾀｾﾝﾀｰｽﾀｯﾌの方で電源再投入をしてもらいました｡
ところが､再起動することができず､多くのﾎｽﾃｨﾝｸﾞ利用者に大きな迷惑をかけてしまいました｡(結局ﾊﾞｯｸｱｯﾌﾟﾃﾞｰﾀで別筐体に移動させ事態は収束)

そこで質問させて頂きたいのですが､
【1】Linuxｻｰﾊﾞが再起動できるかどうか
事前にｼﾐｭﾚｰｼｮﾝする方法はありますでしょうか？
【2】Linuxｻｰﾊﾞが死にそうか？確認する方法はありますでしょうか？
(あいまいな表現ですみません)
【3】ﾎｽﾃｨﾝｸﾞｻｰﾊﾞの運用として
SNMP等での死活･負荷監視､ﾛｸﾞﾁｪｯｸ､SPAM対策､ｾｷｭﾘﾃｨﾊﾟｯﾁ
以外に行うべきことについてご教示頂けませんでしょうか？

【1】Linuxｻｰﾊﾞが再起動できるかどうか事前にｼﾐｭﾚｰｼｮﾝする方法はありますでしょうか？

無いです｡強いて言うと､仮想ﾏｼﾝ上であれば､その仮想ﾏｼﾝのｺﾋﾟｰを作って､ということができなくは無いですが､物理ﾏｼﾝ上であれば無いです｡

電源を強制的に落としたのであれば､起動できなくなる可能性が高くなるのは仕方がないので､そこは覚悟するしか無いです｡

【2】Linuxｻｰﾊﾞが死にそうか？確認する方法はありますでしょうか？

OS が完全に停止するような､ｿﾌﾄｳｪｱ的なﾄﾗﾌﾞﾙの前兆を捉えるとすれば､ﾒﾓﾘの利用率､ﾌﾟﾛｾｽ数､CPU の負荷状況､ﾙｰﾄﾊﾟｰﾃｨｼｮﾝの使用率､といったあたりをﾓﾆﾀｰすることは考えられます｡

ただ､短時間で急激な変化を起こすような場合では､その前兆を捉えることはできないので､必ず確認できるわけではありません｡

ﾊｰﾄﾞｳｪｱ上のﾄﾗﾌﾞﾙは､こういった｢借り物の専用ｻｰﾊﾞ｣の場合､ﾕｰｻﾞが監視するのか､ｻｰﾋﾞｽ提供が監視するのかわかりませんが､ﾕｰｻﾞ側での監視には制限があるかもしれません｡

通常､ｻｰﾊﾞのﾒｰｶｰから､ﾊｰﾄﾞｳｪｱ状態を SNMP 経由で取得するためのｿﾌﾄｳｪｱが配布されているのですが､｢借り物の専用ｻｰﾊﾞ｣でそういったものが利用できるかわかりません｡

【3】ﾎｽﾃｨﾝｸﾞｻｰﾊﾞの運用として
SNMP等での死活･負荷監視､ﾛｸﾞﾁｪｯｸ､SPAM対策､ｾｷｭﾘﾃｨﾊﾟｯﾁ
以外に行うべきことについてご教示頂けませんでしょうか？

真剣に可用性を考えるであれば､本当はｸﾗｽﾀﾘﾝｸﾞをするのが王道です｡ただ､借りている専用ｻｰﾊﾞ､という制約では､実現は難しいと思います｡

先述のﾊｰﾄﾞｳｪｱ状態の監視もそうですが､ﾊｰﾄﾞｳｪｱ上のﾄﾗﾌﾞﾙに対しては､借り物の専用ｻｰﾊﾞでは限界がある､という感じがします｡であれば､いっそ AWS のような IaaS ｻｰﾋﾞｽの方が､ﾊｰﾄﾞｳｪｱの心配をﾕｰｻﾞ側が心配する必要が無い､というﾒﾘｯﾄがあると思います｡

ﾊｰﾄﾞｳｪｱ上のﾄﾗﾌﾞﾙは無視するとして､ｿﾌﾄｳｪｱ上のﾄﾗﾌﾞﾙのことを考えると､ﾘｿｰｽ監視は強化した方が良いと思います｡ﾒﾓﾘやﾃﾞｨｽｸの利用状況は押さえておきたいところです｡

あとは､きちんとﾛｸﾞを見ることでしょうか｡本当は､今回のﾄﾗﾌﾞﾙがどういった原因で発生したのか､きちんとﾛｸﾞを解析したり､そもそも､きちんとﾛｸﾞが取れるように設定しておく､ということが大切だと思います｡