「印字用のサイト」というのはPDFファイルのことでしょうか?ちょっと分からなかったのですが、検索エンジンとしては印字用のページがミラーサイトかどうかというチェックはおそらく入っていないと思います。またミラーサイトであっても特にペナルティ(ページランクが下げられるようなもの?)はないと思います。
検索サイトとは無関係な領域ですが、許可を取らずに勝手にほかのさいとのミラーサイトを作った場合は著作権法違反に問われる可能性があります。そのような法的な意味ではミラーサイトにはペナルティはあります。
大手SEO会社でも印刷用ページを設けて、色々やってた時期がありました。
が、今さっき見たらそのサイトにおける印刷用ページは消えていて、普通に閲覧しているページがそのまま印刷用に最適化してありました。
このSEO業者のサイトを見ても、印刷用ページを別に設けることはあまり宜しくないと推測されます。
rel=”nofollow”の記述を検索エンジンは推奨しているので、この記述を使えば印刷用ページを設けても良いのかもしれませんね。
ミラーサイトという認識・判定を決めるのは難しいですが、若干SEOスコアは低くなるかと思われます。
ミラーサイトは、何らかのペナルティーの対象となります。が、あまりミラーサイトを運営する人は少ないですね。
詳しい解説ありがとうございます。もやもやがとれました。
http://www.tohoho-web.com/wwwxx079.htm
robots.txt とは?
googlebotなどを含めた大抵の主要クローラー(検索エンジンのロボット)は、ホスト側からの指定がない限り、印刷用ページであろうと、ミラーサイトであろうと、関係なく通常のウェブページと同様にインデックスしていきます。
これらのクローリングを避ける方法としては、ホスト側のサーバにクローラーへの指定事項を記述したrobots.txtを用意するか、各印刷用ページにMETAタグでnoindex指定をする方法があります。
# 印刷用ページを用意している大手ニュースサイトなどでは、前者のrobots.txtにより制御している場合がほとんどかと思われます。
参考URLをご覧ください。
「とほほのWWW入門」さんのrobots.txtに関する解説ページと、米TIME誌のウェブサーバで実際に使用されているrobots.txtへのリンクです。
後者robots.txtの、Disallowの5行目を見ていただくと分かると思いますが、
Disallow: /time/magazine/printout/
...と、記述されていますよね。
この /time/magazine/printout/ は、time.com の全ての印刷用ページが保存されているディレクトリです。
こうすることで、.../printout/ の中身にはロボットはクロールしてこなくなるという仕組みです。
そういったクロークをコントロールする方法でも対処できるのですね。ありがとうございました。
PDFではなく、テキストベースで印字可能なサイズになるページです。地図とか、資料とか。そういったものです。