人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

GoogleやYahoo!で文字を重ねて検索すると、リンク先に存在しない文字がヒットします。
リンク先のほとんどがPDFですが、理由を知っている人がいたら教えて下さい。
検索例は「java」なら「jjaavvaa」、「日本語」なら「日日本本語語」という具合です。

●質問者: cloned
●カテゴリ:コンピュータ 生活
✍キーワード:Google Java PDF Yahoo! ほと
○ 状態 :終了
└ 回答数 : 7/7件

▽最新の回答へ

1 ● Asuca
●30ポイント

http://www.yahoo.co.jp/

Yahoo! JAPAN

縦書きと 横書きの問題だと思います


日日

本本

語語


これが 日日本本語語 で検索されるんだと思います

◎質問者からの返答

ありがとうございます!

なるほど。英字の場合でも同じような理由でしょうか。


2 ● Asuca
●30ポイント

http://www.city.numazu.shizuoka.jp/d-sikara/kouhounumazu/1260/pa...

今グーグルで jjjjjaaaaapppppaaaaannnnn って検索したら上記のページがでて ページ内で jjjjj で検索したら上のJAPANが出ました

文字に特定の飾り付けをするとなるようです

◎質問者からの返答

ありがとうございます!

確認しました。PDF内でもちゃんと検索できますね。ということはPDF側の問題かな。


3 ● r_iizuka
●30ポイント

http://72.14.207.104/search?q=cache:L5f9DceIjsMJ:education.hitac...

「HTMLバージョン」となっているものを見ると、「jjaavvaa」のような形で表示されます。

GoogleがPDFを解析してデータベースに入れるときに、そのような形で保存されているためだと思います。

また、このような形になってしまうのは、影付き文字などで文字を重ねた表現を使っているため、データ上紛らわしい状態になっていることが推測されます。

◎質問者からの返答

ありがとうございます!

PDF自身が犯人ですね!きっと。


4 ● TomCat
●30ポイント

http://blog.dtpwiki.jp/dtp/pdf/

M.C.P.C.: PDF バックナンバー

これはGoogleがpdfなどをテキストにしてキャッシュする際に、

影文字や疑似ボールドなどの装飾を

同一文字の連続として変換してしまうから、

ということのようです。


昔、機械式タイプライターの頃、

同じ文字を重ね打ちしてボールドにしていたような、

ちょうどそんな感じですね。

http://plaza.rakuten.co.jp/kibayashi/diary/200508040000/

PDF落ち着けwwwのガイドライン - 神霊K・B・Y・Sが1体出た! - 楽天ブログ(Blog)

このことは掲示板でも話題になっていたようですね。

◎質問者からの返答

ありがとうございます!

リンクのページは読みきれていませんが、コメントして頂いた内容は理解できました!


5 ● ginpei
●30ポイント

http://www002.upp.so-net.ne.jp/hidemi-k/webpublishing/advancedHT...

とりあえず文字でも重ねてみますか

同じ文字を少しだけずらして重ねる事で、影をつけたり、立体的に見せたりしているのだと思います。

前後含めてコピーしたものをメモ帳などに貼り付けてみて下さい。

さっき見えていたものと違って、実際は同じ文字が複数あるのがわかると思います。


HTML で近いことをやっているものがありました。URL のページをご覧下さい。

(ちなみに PDF ならともかく、HTML でこういう事をするのはかなり邪道です。)

◎質問者からの返答

ありがとうございます!

URLのHTML(私も邪道だと思います)はこの現象の正体が判りやすいですね。


1-5件表示/7件
4.前の5件|次5件6.
関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ