▽1
●
LLマン ●100ポイント ベストアンサー |
web上のニュース記事を集積したい
何を組み合わせれば最軽量に実装出来る
kizasi.jp : きざしツール : kizAPI
クローラーのようなものを作りたいのでしたら、
汎用性と軽量性はトレードオフの関係です。
つまり、特化すればするほど軽量になります。
ご質問では、便利なAPIを組み合わせる方向に目が行ってますが、
目的の方、すなわち要件定義を整理しても軽量にできます。
たとえば、ゲームを作りたいときにオンライン対応にするかどうか、
掲示板を作るときに画像をアップロードできるかどうか、
などという要件の差によって軽量さは違ってきますよね。
同様に「好調な企業」というのが、純粋に経済的な意味だけであれば、
株価などのファイナンス情報を収集する方法もあります。
もし、これに違和感を覚えられるとしたら、おそらく先入観がありますし、
その固定観念を崩さないと、軽量な実装も手に入りません。
というのも、正攻法で言葉の意味を解読する自然言語処理は難しいです。
言葉を統計処理するテキスト・マイニングは、それよりかは現実的ですが、
それでも複雑な処理になると難しい部分が出てきます。
そこで、株価が上昇した企業のニュースだけ収集すれば、
結果的に「好調な企業」のニュースが収集できる確率が高いです。
(ただし、株価が世評と食い違うケースも出てくるでしょう)
この株価の収集方法だと、芸能人のニュースには対応できません。
しかし、そういう風に特化していかないと、軽量化など難しく、
汎用的かつ巨大なクローリング・フレームワークを作るハメになります。
ですから、まず要件を整理して、特化することで軽量化します。
そして、その要件によって、実装も変わってくることでしょう。