人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

【人力検索のスキル向上】検索エンジンで、通常検索できない、インターネット上のHTMLのTAG内文字列、例えばALTやヘッダー文字列のリンク、リフレッシュなどのコメント文も含めて検索する方法を教えて下さい

yahoo!などの検索サイトを使ったやり方でも構いません

[はてなダイアリーキーワード]で検索をしようと思ったのですが、登録されてない文字は検索できないのですね

●質問者: aki73ix
●カテゴリ:コンピュータ 生活
✍キーワード:HTML tag Yahoo! [はてな インターネット
○ 状態 :終了
└ 回答数 : 6/6件

▽最新の回答へ

1 ● matsu2004
●5ポイント

http://www.bayashi.net/st/pdmemo/seo.html

技林/アクセス解析CGI

alt属性をどのロボットが見ているかどうか、までは言及していませんね。。

http://robot-simulator.seo-tool.jp/index.html

検索エンジンロボットシミュレーター | 住 太陽の「SEO 検索エンジン最適化」

「検索エンジンロボットシミュレーター」などを使ってみると、どんな「閲覧のされ方」をするのか、転じて、どう検索(閲覧)していったらいいのか、がわかるかもしれませんね。

以上中途半端な回答ですが・・

◎質問者からの返答

検索方法はしってるんですけどね

検索結果の中から抽出できたらいいのですが、それができるものってなかなか無いみたいなのです

そういえば、句読点で検索しようとしても無視されますよね・・・句読点含めて検索したいときに不便なんですよね


2 ● gb2
●5ポイント

http://www.hicat.ne.jp/home/tomcre/search/g_help.html

多くの一般の検索エンジンでは、外部公開されているフォームからRaw-HTML内の検索は行えません。

検索する際、それらを対象に含めるとすると、検索対象が膨大になりすぎるためです。

さらに、普通はそれを検索対象とすることはないためです。

なので、登録の際に、キャッシュとは別に、検索対象DBにユーザが”見える”範囲のみをインデクサします。

img内のaltはインデクサされることが多いですが、それのみを検索対象とするオプション等は見たことがありません。

◎質問者からの返答

確かにそうなんですよね

その、例外的な検索エンジンってないですかね?

しかし、句読点などを含めて検索できないのが疑問だったりします


3 ● くいっぱ
●15ポイント

http://hw001.gate01.com/kzsoft/

Web自動巡回型ダウンロードツール「WebFCS」

TAG内文字列とか、コメント文字列まで検索でひっかるようになったら、

自分のホームページは恥ずかしくてソース直さなきゃいけないことに…

こんな難しい質問をするのは誰だろと、思ったら…

akiさんですか、これ以上スキル向上させてどうするんだろとかも思いますが。

それはさておき。

登録されていない文字について検索するという方法として考えられるのは、

消極的手法としては類語検索なんてどうでしょうか。

実用的ではないかもしれませんが…、

類語を引き当てるにはいいかもしれません。

http://hw001.gate01.com/kzsoft/

Web自動巡回型ダウンロードツール「WebFCS」

AltやTagなどの検索については、おそらく検索エンジンのロボットも

インデックスは作ってないとおもいますので、

自分で収集しなければいけないと思います。

(そう言えばかなり昔はロボット検索のやつは出てましたね…)

1.自動巡回ツールなどで関連キーワードのサイトを一括取得。

(これが一番難しいかもしれませんが…、ここで類似検索を使う手もあります)

2.ナマズなどの全文検索エンジンをつかってindex化。

(もしかしたら、日本語ワカチ書きをベースに構成されているので、

TAG内検索などの設定を自作しなくてはいけないかも…)

3.あとは検索。

1のサイズが増えれば増えるほど2のindex化に時間がかかるかと思います。

◎質問者からの返答

ありがとうございます

サイト内のみタグ検索も出来るというものは結構あるんですけどね^^;

自分で検索エンジンを作るのも、ハードディスクが、あれば構わないのですが全部合わせても100Gに満たないので、データベース構築の段階で無理がありますね(^^;

後は、句読点や記号をキーにくわえる方法も募集しています


4 ● くいっぱ
●5ポイント

http://www.gengokk.co.jp/thesaurus/

シソーラス(類語)検索

む。投稿後自分のURL引用の間違いに気が付きました。

ソーシラス検索はこちら。

http://www2s.biglobe.ne.jp/~tosinari/_o-link/

旅人の門

お詫びに自分の検索エンジンリンク集。

もぉだいぶメンテナンスしてないので、ガタガタです。

◎質問者からの返答

・・ありがとうございます


5 ● tarohbin
●5ポイント

http://www.robot-search.com/search_05.htm

www.robot-search.com

urlは役にたたないかも知れません

タグ内に書かれた言葉は(<IMG ALT=”ことば” や <A title=”ことば”) はgoogleの巡回ロボットに読まれているようです。

携帯電話で

http://www.google.com

Google

又は

http://www.google.co.jp

Google

で調べてみて下さい反映されています。

しかし、絵のかわりに文字などを入れているわけで コメントタグ内(<!--ことば)なども読まれることを前提に作られていない

特に<META のリフレッシュはそこまで!しか読まれないはず。

(<NAME=”description” content=”ことば”)は読まれています。

画像が重いため google 携帯版が解りやすいかも?

◎質問者からの返答

GoogleはWAP2.0だとちゃんと見えないんですが

携帯版だとどうなるんですかね

うちの携帯だと見れないんです


1-5件表示/6件
4.前の5件|次5件6.
関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ