ｳｪﾌﾞｻｲﾄの一括ｽｸﾚｲﾋﾟﾝｸﾞ方法とあるｳｪﾌﾞｻｲﾄのﾀｲﾄﾙだけの取得を考えたとします｡例えば､PHPであればfile_get_htmlなどを使用するなどして､ｽｸﾚｲﾋﾟ… - 人力検索はてな

人力検索はてな

ﾓﾊﾞｲﾙ版を表示しています｡PC版はこちら

i-mobile

ｳｪﾌﾞｻｲﾄの一括ｽｸﾚｲﾋﾟﾝｸﾞ方法

とあるｳｪﾌﾞｻｲﾄのﾀｲﾄﾙだけの取得を考えたとします｡

例えば､PHPであればfile_get_htmlなどを使用するなどして､ｽｸﾚｲﾋﾟﾝｸﾞが可能です｡
しかし､この方法ではｳｪﾌﾞｻｲﾄのﾍﾟｰｼﾞを指定してｽｸﾚｲﾋﾟﾝｸﾞすることはできても､ｳｪﾌﾞｻｲﾄにあるﾃﾞｰﾀをまとめて取得することはできません｡
どれだけのﾃﾞｰﾀが入っているかが不明なので､全てを指定することができません｡

しかし､ﾌﾘｰｿﾌﾄなどでは､一気に対象ｳｪﾌﾞｻｲﾄからﾀｲﾄﾙなどの希望ﾃﾞｰﾀを取得できたりします｡
特にﾃﾞｰﾀﾍﾞｰｽを利用しているようなｳｪﾌﾞｻｲﾄでは全体数もつかみ切れないのが通常だと思うのですが､これはどのような技術で実現しているのでしょうか？

●質問者: jamis
●ｶﾃｺﾞﾘ:ｳｪﾌﾞ制作
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

▽1 ● degucho
●90ﾎﾟｲﾝﾄ

ﾀｲﾄﾙというのがよくわかりませんが
ﾄｯﾌﾟﾍﾟｰｼﾞからのﾘﾝｸ先を片っ端から取得しているはずです｡
file_get_htmlであればのﾀｸﾞを取得してhrefの先に対して
file_get_htmlを繰り返します｡画像であればimgﾀｸﾞののsrc属性とか｡
従ってどこからもﾘﾝｸがない直接ｱﾄﾞﾚｽ指定でないと取得できないﾃﾞｰﾀは見つからないと思います｡
ﾀﾞｳﾝﾛｰﾀﾞ的なｿﾌﾄはﾘﾝｸをたどる階層の数や外部ｻｰﾊﾞへのﾘﾝｸを取得するかなどの設定が大抵あります｡
基本的にHTTP GETで取得できるﾃﾞｰﾀで
ﾃﾞｰﾀﾍﾞｰｽのﾃﾞｰﾀを全て取得するのは無理だとは思いますが
掲示板などでURLに連番が推測できるような場合は連番での取得を試みているがもしれません｡

jamisさんのｺﾒﾝﾄ
回答ありがとうございます｡ﾀｲﾄﾙというのはﾍﾟｰｼﾞのﾀｲﾄﾙです｡ﾘﾝｸの総当たりなんですか｡確かに､一番可能性が高いですね｡

▽2 ● Lhankor_Mhy
●0ﾎﾟｲﾝﾄ

一般にｸﾛｰﾗは､既知のHTML文書の新しいｺﾋﾟｰを要求し､文書中に含まれるﾘﾝｸをたどり別の文書を収集するという動作を繰り返す｡新しい文書を見つけた場合はﾃﾞｰﾀﾍﾞｰｽに登録する｡また､既知のﾌｧｲﾙが存在しないことを検出した場合はﾃﾞｰﾀﾍﾞｰｽから削除する｡
ｸﾛｰﾗ - Wikipedia

jamisさんのｺﾒﾝﾄ
回答ありがとうございます｡

▽3 ● かずきち｡
●10ﾎﾟｲﾝﾄ

ﾉｰﾄﾞを辿ります｡
それかipｱﾄﾞﾚｽにpingを投げて､その応答を見ます｡

jamisさんのｺﾒﾝﾄ
回答ありがとうございます｡

かずきち｡さんのｺﾒﾝﾄ
ｸﾛﾗｰ作るならpythonでbeautifulsoupのﾗｲﾌﾞﾗﾘはｵｽｽﾒです｡

関連質問

●質問をもっと探す●

0.人力検索はてなﾄｯﾌﾟ
8.このﾍﾟｰｼﾞを友達に紹介
9.このﾍﾟｰｼﾞの先頭へ
□対応機種一覧
□お問い合わせ
□ﾍﾙﾌﾟ/お知らせ
□ﾛｸﾞｲﾝ
□無料ﾕｰｻﾞｰ登録
□はてなﾄｯﾌﾟ