apacheのアクセスログを集計してみてみると、リファラに微妙におかしいデータが少し見つかりました。
「123.jpgというファイルをwww.aaaa.comから参照されている」というようなことを見ているのですが、絶対にwww.aaaa.comから参照される可能性のない、567.jpgが参照されているというようなデータがちらほら見つかります。
一部の参照元だけであれば、「参照側のサイトのミスで違うものを参照したことがあるのかな?」とも考えることができるのですが、多くの参照元で同じようなことがおきています。
※大半のログは正常な内容です。
Apacheのログ自体がたとえば参照元でなく、「直前に見ていたページのURLをリファラと勘違いする」というようなことはあるのでしょうか?
それとも、集計しているソフト(WebLog Expert)の集計結果が怪しいと考えるのがいいのでしょうか?
Apacheのログ自体がたとえば参照元でなく、「直前に見ていたページのURLをリファラと勘違いする」というようなことはあるのでしょうか?
私も生ログは正確なものだと思っていますが、実際のところ、「ブラウザが勘違いしている」ということが多そうです。
直前に見ていたサイトやページのリファラを持ったまま変なアクセスをしてくる人、うちのサイトにもいますよ。
Apache 自体に直前に何を見ていたかを知る方法はありません。
あくまでブラウザの自己申告でリファラとして送信してきているデータをログに出しているだけです。
ブラウザのバグなのか、意図的にあり得ない値を設定しているのかはわかりませんが、Apache ではどうしようもない部分です。
ブラウザのバグなんてあるんですね。とてもためになります。
ブラウザのプラグインやグリースモンキーの中には、既存のウェブページ上で実行されて文字列や画像へのリンクを貼り込むものがいろいろとあります。
ブラウザのバグの他に、閲覧側でページ内容が加工されていて、閲覧側では確かにその画像にリンクされているケースもあるということです。
グリースモンキーまで影響してくるんですか。
ためになります。
>Apache 自体に直前に何を見ていたかを知る方法はありません。
>あくまでブラウザの自己申告でリファラとして送信してきて
>いるデータをログに出しているだけです。
私もそう思うというより、事実です。
推測ですが、画像だけを集めるソフトがあるんですが、
これだと適当なリファラをだすかと思います。
不自然なログのブラウザ情報を見てみてはどうでしょうか?
なるほど。追えるかわかりませんが、そのログのブラウザ情報を見てみます。
リファラは結構怪しいものなんですね。
ありがとうございます。
ありがとうございます。
ブラウザがそんな状態になるなんてことがあるんですね。
とても参考になります。ありがとうございます。