おそらくテキストマイニング、機械学習に関連する質問です。下記の求人情報検索サイトでは、どんな技術が使われているか、推測してください。

どちらも求人情報の検索サイトですが、企業の求人ページ等から拾ってきた情報を、職種・勤務地等の項目で整理してDB化しています。ポイントは、非定型の企業HPから、どうやって情報を綺麗に整理するか、です。
http://jp.indeed.com/
http://www.jobengine.jp/

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2012/04/23 10:38:07
  • 終了:2012/04/30 10:40:03

ベストアンサー

id:language_and_engineering No.2

lang_and_engine回答回数170ベストアンサー獲得回数632012/04/23 18:30:17

ポイント33pt

抽出処理を2段階に分けましょう。

  • (1)非構造データである各種企業HPから,(単なるプレーンテキストではなく)データ構造としての文書情報を解析して抽出する。

  • (2)(1)の出力結果を,文書のデータ構造を気にしながら単語レベルの解析にかけ,意味に応じて分類し。検索可能な形式で蓄積する。


(1)を実現するためには,企業HPのHTMLソースを「DOM構造」としてパースし,各文言がどのような糸で掲載されているのかを判定していく必要があります。

Webページに限定するのであれば,(X)HTMLのセマンティクスや,GoogleにWebサイトを認識させるためのSEO対策の手法なども参考になるでしょう。

例えば,titleタグやh1タグでマークアップされた要素中の文言は,極めて重要な情報,そのWebページを特徴づけて要約する,価値の高い情報と言う事になります。

また,ul要素・ol要素・table要素などでマークアップされた情報は,何らかの項目を列挙していると判定できます。

このようにして,Webページから「各文言に対して意味や重みが付与されたデータ構造としての文書情報」が抽出されます。(1)がここまでです。


(2)では,(1)の成果物を分解し,さらに詳細なレベルで解析します。

例えば文書中に「Windows」という固有名詞が使われていれば,このページは「コンピュータ」というタグを付けよう。みたいな細かい分類処理を行ないます。

「東京都」というワードが見つかれば,勤務先は東京都であろうと分類します。

そのような解析処理のために必要なのが形態素解析であり,それらのツールの種類については,No.1さんが回答なさいました。

この結果,各ページの特徴を単語レベルで解析することができ,任意のキーワードで検索をかけた時に適切なページが返される事になります。


Googleがやっている事よりも一歩進んだ,メタな検索+インデクシングのアルゴリズムですね。

 

id:language_and_engineering

誤記です。
>Googleがやっている事よりも一歩進んだ
→Googleがやっている事よりも範囲を限定した

GoogleはセマンティックWebの先駆けですね。

彼らの恐ろしいところは,
人間から見てWebをセマンティックに扱えるようにするのみならず,
Webから見て人間をセマンティックに扱えるようにしつつある・・・
という点です。

2012/04/23 20:56:01
id:tokyo-joe

ご回答ありがとうございます。
確かにそのような手法を使っているのかな、とは想像していました。

2012/04/24 09:09:02

その他の回答(2件)

id:kou-tarou No.1

koutarou回答回数654ベストアンサー獲得回数812012/04/23 14:23:58

ポイント34pt

>どんな技術が使われているか推測
形態素解析ツール(エンジン)が使われている。のではないかと思います。
フリーもたくさんありますが、市販のRosette形態素解析システム(Basis Technology)がよく使われているようです。
また、このへんの製品、あるいはデータマイニングの結果や情報を茶筌(ChaSen)やMeCabを使って切り出して、テキストマイニングできるように加工。Webマイニングとかにも活用しているんですかね。

id:tokyo-joe

ご回答ありがとうございます。
形態素解析は必須だというのはわかるのですが、データマイニング・テキストマイニングがどう利用されているかが、よくわかりません。
ご存知かもしれませんが、データマイニング・テキストマイニングは、文書全体を曖昧なまま統計的に処理して、分類したり意味を抽出したりする手法です。
一方で、これらサイトで行なっているのは、非構造データである企業HPからの、特定データの抽出です。これをどういう技術で可能にしているのかに興味があります。

2012/04/23 14:45:51
id:language_and_engineering No.2

lang_and_engine回答回数170ベストアンサー獲得回数632012/04/23 18:30:17ここでベストアンサー

ポイント33pt

抽出処理を2段階に分けましょう。

  • (1)非構造データである各種企業HPから,(単なるプレーンテキストではなく)データ構造としての文書情報を解析して抽出する。

  • (2)(1)の出力結果を,文書のデータ構造を気にしながら単語レベルの解析にかけ,意味に応じて分類し。検索可能な形式で蓄積する。


(1)を実現するためには,企業HPのHTMLソースを「DOM構造」としてパースし,各文言がどのような糸で掲載されているのかを判定していく必要があります。

Webページに限定するのであれば,(X)HTMLのセマンティクスや,GoogleにWebサイトを認識させるためのSEO対策の手法なども参考になるでしょう。

例えば,titleタグやh1タグでマークアップされた要素中の文言は,極めて重要な情報,そのWebページを特徴づけて要約する,価値の高い情報と言う事になります。

また,ul要素・ol要素・table要素などでマークアップされた情報は,何らかの項目を列挙していると判定できます。

このようにして,Webページから「各文言に対して意味や重みが付与されたデータ構造としての文書情報」が抽出されます。(1)がここまでです。


(2)では,(1)の成果物を分解し,さらに詳細なレベルで解析します。

例えば文書中に「Windows」という固有名詞が使われていれば,このページは「コンピュータ」というタグを付けよう。みたいな細かい分類処理を行ないます。

「東京都」というワードが見つかれば,勤務先は東京都であろうと分類します。

そのような解析処理のために必要なのが形態素解析であり,それらのツールの種類については,No.1さんが回答なさいました。

この結果,各ページの特徴を単語レベルで解析することができ,任意のキーワードで検索をかけた時に適切なページが返される事になります。


Googleがやっている事よりも一歩進んだ,メタな検索+インデクシングのアルゴリズムですね。

 

id:language_and_engineering

誤記です。
>Googleがやっている事よりも一歩進んだ
→Googleがやっている事よりも範囲を限定した

GoogleはセマンティックWebの先駆けですね。

彼らの恐ろしいところは,
人間から見てWebをセマンティックに扱えるようにするのみならず,
Webから見て人間をセマンティックに扱えるようにしつつある・・・
という点です。

2012/04/23 20:56:01
id:tokyo-joe

ご回答ありがとうございます。
確かにそのような手法を使っているのかな、とは想像していました。

2012/04/24 09:09:02
id:TAK_TAK No.3

tak回答回数988ベストアンサー獲得回数822012/04/23 18:46:07

ポイント33pt

わたくしが同様のものを作りました。
http://d.hatena.ne.jp/TAK_TAK/20090909



もちろんテキストマイニングは関係あるのですが、
これは"コンテンツ抽出"とかいう技術です。

http://www.mibel.cs.tsukuba.ac.jp/~ceekz/

他1件のコメントを見る
id:TAK_TAK

形態素解析はあまり意味がありません....本質的ではありません、このようなサイトを作るために考えなければならないことはもっと別にあります。



データベース設計、
内部設計、  特に、大規模データのアクセスと更新などをどうにかすることのほうが大事です。



コンテンツ抽出については....具体的にどうやっているのかは教えられません。
リンク先を隅々までじっくり読んでみてください。

2012/04/25 12:22:18
id:tokyo-joe

なるほど。
データベース設計ですか。

コンテンツ抽出の方法は、興味津々ですね。何しろ情報技術関連の知り合いに聞いてみても、あまりまともな答えが返ってこないトピックですので。

リンク先はじっくり読ませていただきます。

2012/04/25 15:07:12
  • id:tdoi
    挙げているサイトが自動でページを解析している根拠ってありますか?
    採用ページをクロールして、集めて、人力でデータを入力していたりする可能性もあるのではないかなぁと。
    また、それらを元に、企業側との契約なんかもないと、利益の出るサービスにならない気もしますし。
  • id:tokyo-joe
    >tdoiさん
    Indeedに関しては、日本での登録求人件数が100万件を超えているとのことなので、ほぼ間違いなく自動で入力しているでしょう。
    http://ja.wikipedia.org/wiki/Indeed

    ジョブエンジンは、本日現在25,485件登録されていると表示されています。人力で出来るかどうか、微妙な判断になるかもしれませんが、求人情報の回転の早さを考えると、自動でやっていると考えるのが自然だと思います。
  • id:tokyo-joe
    あ、ジョブエンジンも自動だと説明がありましたね。
    http://www.jobengine.jp/info/info_dtl.html?tmpl=career_index
    問題は、その自動登録をどうやって行なっているか、ですね。
  • id:donbe2
    indeedさんに似ているサービスで、stanbyっていうのもあるみたいですね。
    https://jp.stanby.com

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません