php/mysqlのフレームワークを使って、
ニュースサイトのようなものを構築する予定です。
キャッシュ機能などを使うとしても、
ニュースサイトのような、
・記事が大量になる
・画像付き記事のアクセスが多くなる
・検索エンジンクロールが多くなる
ことが予測されるサイトで、
cakeのようなフレームワークで構築するのは、避けた方が良いのでしょうか?
日本語エンコードしたURLのキャッシュができないようなので、
例えばタグに関する記事一覧ページなどは
キャッシュできないので、
記事が膨大になるとヤバいのじゃないかと気になっています。
サイトの成長に合わせてサーバーを移転・分散を考えていますが、
初めは安価なサーバーで開始する予定です。
アドバイス頂けると助かります。
よろしくお願いします。
某大手ニュースサイトのエンジニアをしています。
ページビューで月6000万、データ転送量は月1500GBから毎月増加傾向にあります。
基本的な構築はLAMPで行われておりcakeフレームワークは利用していません。
かなり先を見ている質問になっていますが、現時点ではcakeフレームワークを使っても問題ないと思います。
キャッシュ機構であれば、サーバサイドのネットワークシステムで十分です。
ただ、DBはコストパフォーマンスが低いですから極力DBへのSQLクエリを減すことを心がけています。
後はサイトの規模に合わせてサーバを調達すれば大丈夫です。
ニュースサイトの場合ストレージよりもメモリを多く積めるサーバを選択します。
スティックなファイルを毎回生成するのも負荷軽減の対策ですが、細々としたところで不便になったり、小さな変更で逆に大きな負荷を与えてしまうので、最初は動的ファイルがいいでしょう。
ちなみに、私たちのニュースサイトはWordPressを基盤としたニュースサイトを運営しています。
画像付き記事のアクセスが多くなる
そんなことありません。ユーザの8割強がアクセスするページは最新記事です。
検索エンジンクロールが多くなる
30分に一回程度でしょうか。それも最新記事なので、問題ありません。
一度に全記事に対してクロールするわけではないので障害にはなりませんが、Googleの場合Webマスターツーで制御できます。
記事が大量になる
1Tのストレージを28%程度しか消費していません。
ただバックアップが必要になるので、全体の容量としては10T近くあります。
サーバをレンタルする場合でしたら、ストレージやメモリが足りなくなった時、上位プランへ移行できるのか必ず確認してください。
DBのデータをはき出すのは、サーバに高負荷を与えるためレンタルサーバでは全データを出力できないことがありました。結局分割して出力したのですが移転作業が大きくずれこみました。
onigirinさんが心配していることは、長い目で見てもほとんど問題ありません。
そこまで長期の視点で計画することはすばらしいことですが、やってみて失敗し学ぶことも多くあります。頑張ってください!
大手のNewsサイトは1週間分くらいしかデーターが残っておりません。データーに掲載期限を設けることは必要かと思います。掲載期限が決まれば、データー量はほぼ一定と考えて良いのではないでしょうか? あとは、アクセス数、回線容量とサーバーの処理能力とのバランスになります。検索エンジンのクロールは、全ページを見るわけではないので気にしなくてもいいと思います。
どうもありがとうございます。
確かに掲載期限がありますね。
普通のニュースとはちょっと違い、どちらかというとブログ。
ギガジンのようなイメージをしているため、情報を蓄積したいと思っています。
検索エンジンは、今までの経験的に、全てキャッシュしていることと、
マナーのない検索エンジンがけっこう動的ページへ頻繁にアクセスすることもあるので、
負荷が気になっています。
ある程度のアクセス数が見込まれるサイトにスクリプトやフレームワークを使う理由が分かりません。
静的なコンテンツにすれば良いと思います。
いずれにしても、アクセス数が増えてから考えれば良いことだと思います。
どうもありがとうございます。
cakeで作ってキャッシュさせれば、静的コンテンツと同じかな、と思い、その方向で考えています。
静的コンテンツをはき出す形の場合、
記事が数千から数万単位になった場合、
レイアウトチェンジなどの全体的な修正の時、
非常に重すぎる再構築処理になるので大丈夫かなと気になりました。
また、ファイル数が膨大に出てくるので、
1フォルダに数千以上のファイルは、
管理する際に難しいと感じました。
アクセス数が増えてから修正するより、
初めからある程度方向性を決めてやってみたいと思っています。
某大手ニュースサイトのエンジニアをしています。
ページビューで月6000万、データ転送量は月1500GBから毎月増加傾向にあります。
基本的な構築はLAMPで行われておりcakeフレームワークは利用していません。
かなり先を見ている質問になっていますが、現時点ではcakeフレームワークを使っても問題ないと思います。
キャッシュ機構であれば、サーバサイドのネットワークシステムで十分です。
ただ、DBはコストパフォーマンスが低いですから極力DBへのSQLクエリを減すことを心がけています。
後はサイトの規模に合わせてサーバを調達すれば大丈夫です。
ニュースサイトの場合ストレージよりもメモリを多く積めるサーバを選択します。
スティックなファイルを毎回生成するのも負荷軽減の対策ですが、細々としたところで不便になったり、小さな変更で逆に大きな負荷を与えてしまうので、最初は動的ファイルがいいでしょう。
ちなみに、私たちのニュースサイトはWordPressを基盤としたニュースサイトを運営しています。
画像付き記事のアクセスが多くなる
そんなことありません。ユーザの8割強がアクセスするページは最新記事です。
検索エンジンクロールが多くなる
30分に一回程度でしょうか。それも最新記事なので、問題ありません。
一度に全記事に対してクロールするわけではないので障害にはなりませんが、Googleの場合Webマスターツーで制御できます。
記事が大量になる
1Tのストレージを28%程度しか消費していません。
ただバックアップが必要になるので、全体の容量としては10T近くあります。
サーバをレンタルする場合でしたら、ストレージやメモリが足りなくなった時、上位プランへ移行できるのか必ず確認してください。
DBのデータをはき出すのは、サーバに高負荷を与えるためレンタルサーバでは全データを出力できないことがありました。結局分割して出力したのですが移転作業が大きくずれこみました。
onigirinさんが心配していることは、長い目で見てもほとんど問題ありません。
そこまで長期の視点で計画することはすばらしいことですが、やってみて失敗し学ぶことも多くあります。頑張ってください!
どうもありがとうございます。
フレームワーク+キャッシュで、しばらくは大丈夫そうとのことで安心しました。
検索エンジンは、以前別のサイトで、グーグルヤフー以外のマイナーなものや海外エンジンがいろいろ大量にやってきて、
負荷が大変なことになってサーバーが重くなったことがあったので、懸念してました。
とりあえずはフレームワークでやって、サーバーを移転するステップまで運営を行ってみたいと思います。
大変参考になりました。
ありがとうございます。
どうもありがとうございます。
フレームワーク+キャッシュで、しばらくは大丈夫そうとのことで安心しました。
検索エンジンは、以前別のサイトで、グーグルヤフー以外のマイナーなものや海外エンジンがいろいろ大量にやってきて、
負荷が大変なことになってサーバーが重くなったことがあったので、懸念してました。
とりあえずはフレームワークでやって、サーバーを移転するステップまで運営を行ってみたいと思います。
大変参考になりました。
ありがとうございます。