URLを教えた人がアクセスする分には構わないのですが、Googleなどにクロールされて第三者からアクセスされることは避けたいと考えています。
http://hoge.sample.com/
というふうにsample.comのドメインを所有していて、hogeというサブドメインを設定してそのURLで公開したいと考えています。
サーバーはさくらレンタルサーバーのスタンダードプランです。
ドメインはムームードメインで取得しました。
ターミナルからSSHでログインしてコマンドを入力することにはそこまで抵抗はありません。
BASIC認証のような認証画面を挟むことはできるだけ避けたいです。
.htaccessかApacheかわかりませんが、なにか効果的なやり方があれば教えて頂けないでしょうか。
※URLを教えた人がツイッターにURLをつぶやくなどして、私が意図していない第三者がアクセスしうる可能性があるということは承知しています。
どこまでやるかはあなた次第ですが、
簡単なものから、やっぱり認証を利用するところまでざっくりと…。
(1)拒否を表明する
robots.txtやHTMLタグのnoindexやnofollowを使って拒否を表明する方法は、
お約束を守ってくれる大手サイト以外に効き目はありませんが、
短期間で広まってしまうことは避けられるでしょう
(2)海外からのアクセスは拒否する
htaccessにて拒否することで無意味なアクセスは防げます。
JPに割り当てられているIPアドレス範囲
http://ftp.apnic.net/stats/apnic/delegated-apnic-latest
サンプルコードを載せておられるブログ
http://wataame.sumomo.ne.jp/archives/550
上記のdelegated-apnic-latestを利用した方法では、
バイドゥなどがクロールしてくるので、
JPNIC管理下のIPアドレス範囲で許可して、
他は必要に応じて追加するほうが賢いとは思う。
https://www.nic.ad.jp/ja/dns/jp-addr-block.html
もっと確実にしたいなら(非常に面倒ではありますが)、
あなたがURLを教えた相手の利用しているプロバイダのIPアドレス範囲を調べて許可する。
(3)BASIC認証を利用する
安易には入れなくなります。
利用者が知らぬところでプロクシを通っている場合があり、
プレーンテキストでのBASIC認証に完全性を求めることはできません。
(4)認証+SSLを利用する
今のところ、一番秘匿できる方式
さくらスタンダードでは設定を変えるだけで共有SSLを利用できるので、
これを使わない手はないのかもしれません。
robots.txt を設定してクローラをブロックするのが一般的だと思います。
robots.txt ファイルを使用してページをブロックまたは削除する
...
robots.txt ファイルを作成する
非常に単純な形式の robots.txt ファイルでは、次の 2 つのルールを使用します:
- User-agent: 以降のルールを適用するロボット
- Disallow: ブロックする URL
robots.txt ファイルの各セクションは独立しており、先行のセクションには依存しません。次に例を示します:
...User-agent: *
Disallow: /folder1/
User-Agent: Googlebot
Disallow: /folder2/この例では、/folder2/ に一致する URL のみが Googlebot に対してブロックされます。
robots.txt ファイルを使用してページをブロックまたは削除する - ウェブマスター ツール ヘルプ