ホームに robots.txt を置きましょう。
http://tech.bayashi.net/pdmemo/robots.html
たとえばこんな記述です。
User-Agent: Googlebot
Disallow: /*
google は、robots.txt の指示に従います。
User-Agent: Googlebot
Disallow: /hatena/*
これで。
って、前の人のURLをちゃんと読めばわかりますよ :)
それをpubloic_htmlのindex.htmlとおなじフォルダーに置けばよいのでしょうか?
robots.txtを無視するクローラーもあるので、robots.txtを配置するだけですと、そういった検索エンジンに掲載されてしまいます。
どこかの検索エンジンで掲載されれば、その検索結果が他の検索エンジンに掲載され、いずれはrobots.txtにしたがう検索エンジンにも載せられてしまいます。
なので、より確実性を高めるために、public_htmlへのrobots.txt配置に加えて、hatenaディレクトリへの.htaccess配置をおすすめします。
.htaccessの内容は、各検索エンジンのIPアドレスを拒絶する内容です。
例:
-----------
order deny,allow
#拒否するIPアドレス
deny from 66.249.16.211
deny from 66.249.70.141
deny from 66.249.70.213
#Yahoo
deny from 68.142.212.160
deny from 68.142.212.165
deny from 68.142.212.175
deny from 68.142.212.180
deny from 68.142.212.199
deny from 68.142.212.226
deny from 68.142.212.229
#その他のIPを許可
allow from all
-----------
と、こんな感じで、検索エンジンのIPアドレスを追加していきます。
各クローラーのIPアドレスはネット上でたくさん見つけられるので検索してみてください。
■あなたのホームページURL
http://hogehoge.com/index.html
上記でアクセスした場合に、
■ファイルをUpする先のフォルダー構成
/public_html/index.html
が表示されるのだとしたら
index.htmlと同じところに、メモ帳で新しいファイルを作り、中に
User-Agent: *
Disallow: /hatena/*
を書いて、 robots.txt という名前で保存してアップロードすれば大丈夫です。
User-Agentを*にしたのは、GoogleだけではなくYahoo検索等も表示したくないのではないかと思い変更しました。
Googleだけなら、User-Agent: * の部分を User-Agent: Googlebot と書き換えてください。
もう少し正確に言うと、public_htmlのindex.htmlは表示されていいのですが、それ以下の/hatenaディレクトリと、それ以下のすべてのディレクトリを表示させたくないのです。お願いします。