お世話になります。Webサーバ管理者です。

Question

digital-server

3

3もっと見る

2000pt

コンピュータインターネット

お世話になります。Webサーバ管理者です。

CentOS6.5、Plesk11で専用サーバを（G？O社）レンタルし、
ホスティングを提供しております。
筐体は１年前に新規で契約したのですが、
先日、主要サービスが停止し、SSH、シリアルコンソールでもアクセスできなくなり、
止むを得ず、データセンタースタッフの方で電源再投入をしてもらいました。
ところが、再起動することができず、多くのホスティング利用者に大きな迷惑をかけてしまいました。（結局バックアップデータで別筐体に移動させ事態は収束）

そこで質問させて頂きたいのですが、
【１】Linuxサーバが再起動できるかどうか
　　　事前にシミュレーションする方法はありますでしょうか？
【２】Linuxサーバが死にそうか？確認する方法はありますでしょうか？
　　　（あいまいな表現ですみません）
【３】ホスティングサーバの運用として
　　　SNMP等での死活・負荷監視、ログチェック、SPAM対策、セキュリティパッチ
　　　以外に行うべきことについてご教示頂けませんでしょうか？

回答の条件

1人1回まで

登録：2015/02/14 09:48:35
終了：2015/02/15 18:39:19

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

JULY · Accepted Answer · 2015-02-14T23:06:05+09:00

【１】Linuxサーバが再起動できるかどうか事前にシミュレーションする方法はありますでしょうか？

無いです。強いて言うと、仮想マシン上であれば、その仮想マシンのコピーを作って、ということができなくは無いですが、物理マシン上であれば無いです。

電源を強制的に落としたのであれば、起動できなくなる可能性が高くなるのは仕方がないので、そこは覚悟するしか無いです。

【２】Linuxサーバが死にそうか？確認する方法はありますでしょうか？

OS が完全に停止するような、ソフトウェア的なトラブルの前兆を捉えるとすれば、メモリの利用率、プロセス数、CPU の負荷状況、ルートパーティションの使用率、といったあたりをモニターすることは考えられます。

ただ、短時間で急激な変化を起こすような場合では、その前兆を捉えることはできないので、必ず確認できるわけではありません。

ハードウェア上のトラブルは、こういった「借り物の専用サーバ」の場合、ユーザが監視するのか、サービス提供が監視するのかわかりませんが、ユーザ側での監視には制限があるかもしれません。

通常、サーバのメーカーから、ハードウェア状態を SNMP 経由で取得するためのソフトウェアが配布されているのですが、「借り物の専用サーバ」でそういったものが利用できるかわかりません。

【３】ホスティングサーバの運用として
　　　SNMP等での死活・負荷監視、ログチェック、SPAM対策、セキュリティパッチ
　　　以外に行うべきことについてご教示頂けませんでしょうか？

真剣に可用性を考えるであれば、本当はクラスタリングをするのが王道です。ただ、借りている専用サーバ、という制約では、実現は難しいと思います。

先述のハードウェア状態の監視もそうですが、ハードウェア上のトラブルに対しては、借り物の専用サーバでは限界がある、という感じがします。であれば、いっそ AWS のような IaaS サービスの方が、ハードウェアの心配をユーザ側が心配する必要が無い、というメリットがあると思います。

ハードウェア上のトラブルは無視するとして、ソフトウェア上のトラブルのことを考えると、リソース監視は強化した方が良いと思います。メモリやディスクの利用状況は押さえておきたいところです。

あとは、きちんとログを見ることでしょうか。本当は、今回のトラブルがどういった原因で発生したのか、きちんとログを解析したり、そもそも、きちんとログが取れるように設定しておく、ということが大切だと思います。

お世話になります。Webサーバ管理者です。

ベストアンサー

JULY9662472015/02/14 23:06:05

コメント（0件)

この質問への反応（ブックマークコメント）