お世話になります。
大学の卒論用に企業データを集めています。
WEBサイトをクローリングしてデータを集めていますが、うまくいかず、アドバイスを頂けたらと思っております。
・条件
WEBサイトは数多くあるため、汎用性のある抽出方法にしたい(HTML構造に影響されない)
WEBサイトには、企業情報が一覧で並んでいる(例えば商工会の企業一覧など)
・参考サイト
https://www.chusho.meti.go.jp/soudan/ken_shokokai.html
https://www.info.city.tsu.mie.jp/www/sp/contents/1001000010307/index.html
上記のようなサイトをクローリングして住所、電話番号、企業名のテーブルを作りたいです。
WEBサイトが少数であれば、サイトごとにHTMLを解析してスクレイピングすべきだと思います。
ただWEBサイトの数が多い物で・・・
汎用的に「住所、電話番号、企業名」のセットをデータ化(CSV)できる仕組みを作りたいと思っています。
何かヒントやアドバイスがあれば、教えていただければ幸いです。
どうぞよろしくお願い致します。
今回の収集対象の特徴から、正規表現でパターンマッチを行うといいのではないでしょうか。特に電話番号はマッチ条件を作りやすいので(ググればパターンも出てくるでしょう)、これを糸口にするといいかもしれません。収集要素がテーブルなどの一定の構造に収まっているなら、なおやりやすいですね。環境がわからないのでコード例示は行いませんが、プロセスとしては以下のようになるのではないでしょうか。
あとはトライエラーでマッチングパターンを改造し、ノイズを減らしていくだけかと思います。
回答ありがとうございました!
何となくですが方向性が見えてきました。