(例えば) こちらのサイトはどの様にしてこうした状態になっているのでしょうか?


(現サイト)
AL.Place
http://zefai.sakura.ne.jp/

(アーカイブ)
Internet Archive Wayback Machine
http://web.archive.org/web/*/http://zefai.sakura.ne.jp/

上記のサイトはアーカイブに収集されていた当時と同じ URL で現在も運営されておりますが、
その Internet Archive の方では…

 Dec 13, 2007 *

からは一切その Web ページの収集が行われていないのです。
これと同じ事を実現する方法を教えて下さい。

※ 仮に .htaccess で SetEnvIf User-Agent → Deny で弾くというのであれば、それはどの様に表記すれば良いのでしょう?
※ meta タグに noindex を書くとかいう馬鹿げた回答は不要です

回答の条件
  • 1人2回まで
  • 登録:2009/12/06 01:31:49
  • 終了:2009/12/06 02:41:40

ベストアンサー

id:TREEG No.1

TREEG回答回数255ベストアンサー獲得回数342009/12/06 02:03:31

ポイント100pt

.htaccess

SetEnvIf User-Agent "ia_archiver" deny_ua

order allow,deny

allow from all

deny from env=deny_ua

私の持っているサイトでは、不正なUAを弾く設定にして、尚かつ、上記を含めて書いていたため(だと思いますが)一切保存されていませんでした。

参考までに・・・こちらで消すこともできるようです。

metaタグではありませんが、公式サイトではこれで削除できるようです。

http://www.archive.org/about/exclude.php

なお、例のHPについて少し調べていましたが、UAを偽装したり、robots.txtも見てみましたが特にこれと行って対策してあるようには見えません。単に、アーカイブされる条件から外れたのではないでしょうか?

もしくは、UA以外の他の条件を絡めてはじいているのかもしれません。

id:Reiaru

なるほど、"ia_archiver" ですか。


確かに見るからにそれっぽいですし、TREEG 様の実績からしても間違い無さそうです。

今回の質問で例に挙げさせて頂いたサイトでもその様な措置を取ったのでしょうね。

(さすがに他サイトの .htaccess は通常見る事ができませんからね)


あ、私が何かを消したいとかいう事ではないのです。

たまたまアーカイブに残っていない部分があるサイトがある事を知って「あれれ?」と。

果たしてどんな風にしたらそんなこと (アーカイブされない) ができるのかな?と思いまして。


ありがとうございました(^-^)

いつかどなたかにその辺りを聞かれる事があれば、今回のこの質問 URL を教えてあげたいとおもいます。

2009/12/06 02:32:23

その他の回答(1件)

id:TREEG No.1

TREEG回答回数255ベストアンサー獲得回数342009/12/06 02:03:31ここでベストアンサー

ポイント100pt

.htaccess

SetEnvIf User-Agent "ia_archiver" deny_ua

order allow,deny

allow from all

deny from env=deny_ua

私の持っているサイトでは、不正なUAを弾く設定にして、尚かつ、上記を含めて書いていたため(だと思いますが)一切保存されていませんでした。

参考までに・・・こちらで消すこともできるようです。

metaタグではありませんが、公式サイトではこれで削除できるようです。

http://www.archive.org/about/exclude.php

なお、例のHPについて少し調べていましたが、UAを偽装したり、robots.txtも見てみましたが特にこれと行って対策してあるようには見えません。単に、アーカイブされる条件から外れたのではないでしょうか?

もしくは、UA以外の他の条件を絡めてはじいているのかもしれません。

id:Reiaru

なるほど、"ia_archiver" ですか。


確かに見るからにそれっぽいですし、TREEG 様の実績からしても間違い無さそうです。

今回の質問で例に挙げさせて頂いたサイトでもその様な措置を取ったのでしょうね。

(さすがに他サイトの .htaccess は通常見る事ができませんからね)


あ、私が何かを消したいとかいう事ではないのです。

たまたまアーカイブに残っていない部分があるサイトがある事を知って「あれれ?」と。

果たしてどんな風にしたらそんなこと (アーカイブされない) ができるのかな?と思いまして。


ありがとうございました(^-^)

いつかどなたかにその辺りを聞かれる事があれば、今回のこの質問 URL を教えてあげたいとおもいます。

2009/12/06 02:32:23
id:sirotugu40 No.2

sirotugu40回答回数449ベストアンサー獲得回数142009/12/06 02:07:04

ポイント15pt

インターネットアーカイブ から削除するには?

http://7ch.biz/internetarchive_tukaikata/

真ん中あたり。

id:Reiaru

や、削除してもまた収集されますよね。多分。

それとも、一度あちらに削除申請をしたら以後は収集されなくなるとかそういうルールがあるのでしょうか?


私がそうしたいという訳ではないのですが、ちょっと「あれ?」と思ったので質問させて頂いている所です。

2009/12/06 02:18:13
  • id:Reiaru
    あれあれ?
    プレビューではきちんと表示されていたのですが (これはバグですね。質問登録後に勝手に改行が入れられています)、
    質問文にあるアーカイブの方の URL はこちらです。

    http://web.archive.org/web/*/http://zefai.sakura.ne.jp/
  • id:Reiaru
    以前、URL を括弧でくくると改行されるみたいなアイデアがあったと思うのですが、
    これって多分、http を<br>http にしちゃってるんですね。

    なんて思ってソースを表示する訳の分からない状態に。

    <a rel="nofollow" target="_blank" href="http://web.archive.org/web/" class="urllink">http:<wbr>/<wbr>/<wbr>web.<wbr>archive.<wbr>org/<wbr>web/<wbr></a>*<wbr>/<wbr><br>

    <a rel="nofollow" target="_blank" href="http://zefai.sakura.ne.jp/" class="urllink">http:<wbr>/<wbr>/<wbr>zefai.<wbr>sakura.<wbr>ne.<wbr>jp/<wbr></a><br>
    <br>

    なんですかこれ(汗;
  • id:TREEG
    私も気になってソースを見ましたが、
    <a rel=”nofollow” target=”_blank” href=”http://web.archive.org/web/” class=”urllink”>http://web.archive.org/web/</a>*/<br />
    <a rel=”nofollow” target=”_blank” href=”http://zefai.sakura.ne.jp/” class=”urllink”>http://zefai.sakura.ne.jp/</a><br />
    にっているようです。
    をhttp://見つけると、その前に、改行タグを入れ、アンカーにするようです。
    そして、終わりと思われるところで閉じているようです。
    そのため、今回、http://が2つあるため、別のURLと誤認識したのでしょうね。



  • id:Reiaru
    なるほど…
    取りあえず括弧は関係なく、http:// 辺りに問題があるのですね。
    何だか質問でもないのにわざわざ調べて頂きまして真に恐縮です。

    微妙に不便なだけで、致命的ではないのが厄介だったりもするのですが、
    以前はこうではなかった筈のに、何故こんな変な事に…?

    この数ヶ月間で質問文に括弧使って変な事になっている方もかなり見かけましたし、
    何とかならないのですかね、うーん。
  • id:Reiaru
    あと、コメント欄は全ての はてな記法 やら HTML が無効になる仕様ですので、
    そのまま半角で書いても大丈夫ですよ。

    人力検索やいわしでも、あっちこっちで仕様が統一されていなさすぎて、
    皆さんが混乱してたりもするという事実もあります(笑)
  • id:TREEG
    >あと、コメント欄は全ての はてな記法 やら HTML が無効になる仕様ですので、
    >そのまま半角で書いても大丈夫ですよ。
    ありがとうございます。そうなんですね。しかし、大文字だと見づらいですね。

    >確かに見るからにそれっぽいですし、TREEG 様の実績からしても間違い無さそうです。
    >今回の質問で例に挙げさせて頂いたサイトでもその様な措置を取ったのでしょうね。
    >(さすがに他サイトの .htaccess は通常見る事ができませんからね)
    これについて、.UA(UserAgent)を偽装してチェックもしてみたのですが、弾かれませんでしたので、このサイトがUAで拒否しているかどうかについては分かりません。
    もう少し条件を追加してUA+IPなどとしてあるかもしれませんが、それよりも、単純にIAの収集基準から外れたのではないでしょうか?
    ただ、取り急ぎ、アクセスを禁止したい場合、.htaccessは効果があるように思います。

    なお、もう少し調べてみましたが、abc-martも2007年から保存されていません。保存するサイトの条件が変わったのでしょうかね。
    http://web.archive.org/web/*/http://www.abc-mart.com/ <同じくUA偽装チェックでも弾かれませんでした
    参考
    http://web.archive.org/web/*/http://www.stemcellproject.mext.go.jp/
    http://web.archive.org/web/*/http://q.hatena.ne.jp/

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません