人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

おそらくテキストマイニング、機械学習に関連する質問です。下記の求人情報検索サイトでは、どんな技術が使われているか、推測してください。
どちらも求人情報の検索サイトですが、企業の求人ページ等から拾ってきた情報を、職種・勤務地等の項目で整理してDB化しています。ポイントは、非定型の企業HPから、どうやって情報を綺麗に整理するか、です。
http://jp.indeed.com/
http://www.jobengine.jp/

●質問者: tokyo-joe
●カテゴリ:コンピュータ インターネット
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● KOTARO
●34ポイント

>どんな技術が使われているか推測
形態素解析ツール(エンジン)が使われている。のではないかと思います。
フリーもたくさんありますが、市販のRosette形態素解析システム(Basis Technology)がよく使われているようです。
また、このへんの製品、あるいはデータマイニングの結果や情報を茶筌(ChaSen)やMeCabを使って切り出して、テキストマイニングできるように加工。Webマイニングとかにも活用しているんですかね。


tokyo-joeさんのコメント
ご回答ありがとうございます。 形態素解析は必須だというのはわかるのですが、データマイニング・テキストマイニングがどう利用されているかが、よくわかりません。 ご存知かもしれませんが、データマイニング・テキストマイニングは、文書全体を曖昧なまま統計的に処理して、分類したり意味を抽出したりする手法です。 一方で、これらサイトで行なっているのは、非構造データである企業HPからの、特定データの抽出です。これをどういう技術で可能にしているのかに興味があります。

2 ● lang_and_engine
●33ポイント ベストアンサー

抽出処理を2段階に分けましょう。

(1)を実現するためには,企業HPのHTMLソースを「DOM構造」としてパースし,各文言がどのような糸で掲載されているのかを判定していく必要があります。

Webページに限定するのであれば,(X)HTMLのセマンティクスや,GoogleにWebサイトを認識させるためのSEO対策の手法なども参考になるでしょう。

例えば,titleタグやh1タグでマークアップされた要素中の文言は,極めて重要な情報,そのWebページを特徴づけて要約する,価値の高い情報と言う事になります。

また,ul要素・ol要素・table要素などでマークアップされた情報は,何らかの項目を列挙していると判定できます。

このようにして,Webページから「各文言に対して意味や重みが付与されたデータ構造としての文書情報」が抽出されます。(1)がここまでです。


(2)では,(1)の成果物を分解し,さらに詳細なレベルで解析します。

例えば文書中に「Windows」という固有名詞が使われていれば,このページは「コンピュータ」というタグを付けよう。みたいな細かい分類処理を行ないます。

「東京都」というワードが見つかれば,勤務先は東京都であろうと分類します。

そのような解析処理のために必要なのが形態素解析であり,それらのツールの種類については,No.1さんが回答なさいました。

この結果,各ページの特徴を単語レベルで解析することができ,任意のキーワードで検索をかけた時に適切なページが返される事になります。


Googleがやっている事よりも一歩進んだ,メタな検索+インデクシングのアルゴリズムですね。


lang_and_engineさんのコメント
誤記です。 >Googleがやっている事よりも一歩進んだ →Googleがやっている事よりも範囲を限定した GoogleはセマンティックWebの先駆けですね。 彼らの恐ろしいところは, 人間から見てWebをセマンティックに扱えるようにするのみならず, Webから見て人間をセマンティックに扱えるようにしつつある・・・ という点です。

tokyo-joeさんのコメント
ご回答ありがとうございます。 確かにそのような手法を使っているのかな、とは想像していました。

3 ● tak
●33ポイント

わたくしが同様のものを作りました。
http://d.hatena.ne.jp/TAK_TAK/20090909



もちろんテキストマイニングは関係あるのですが、
これは"コンテンツ抽出"とかいう技術です。

http://www.mibel.cs.tsukuba.ac.jp/~ceekz/


tokyo-joeさんのコメント
おお、すごい! そのものズバリのサイトを構築されたんですね。 教えを請いたいです! また、"コンテンツ抽出"というキーワードや専門家の情報もお教え頂き、ありがとうございました。

takさんのコメント
形態素解析はあまり意味がありません....本質的ではありません、このようなサイトを作るために考えなければならないことはもっと別にあります。 データベース設計、 内部設計、 特に、大規模データのアクセスと更新などをどうにかすることのほうが大事です。 コンテンツ抽出については....具体的にどうやっているのかは教えられません。 リンク先を隅々までじっくり読んでみてください。

tokyo-joeさんのコメント
なるほど。 データベース設計ですか。 コンテンツ抽出の方法は、興味津々ですね。何しろ情報技術関連の知り合いに聞いてみても、あまりまともな答えが返ってこないトピックですので。 リンク先はじっくり読ませていただきます。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ