おそらくﾃｷｽﾄﾏｲﾆﾝｸﾞ､機械学習に関連する質問です｡下記の求人情報検索ｻｲﾄでは､どんな技術が使われているか､推測してください｡どちらも求人情報の検索ｻｲ…

おそらくﾃｷｽﾄﾏｲﾆﾝｸﾞ､機械学習に関連する質問です｡下記の求人情報検索ｻｲﾄでは､どんな技術が使われているか､推測してください｡
どちらも求人情報の検索ｻｲﾄですが､企業の求人ﾍﾟｰｼﾞ等から拾ってきた情報を､職種･勤務地等の項目で整理してDB化しています｡ﾎﾟｲﾝﾄは､非定型の企業HPから､どうやって情報を綺麗に整理するか､です｡
http://jp.indeed.com/
http://www.jobengine.jp/

＞どんな技術が使われているか推測
形態素解析ﾂｰﾙ(ｴﾝｼﾞﾝ)が使われている｡のではないかと思います｡
ﾌﾘｰもたくさんありますが､市販のRosette形態素解析ｼｽﾃﾑ(Basis Technology)がよく使われているようです｡
また､このへんの製品､あるいはﾃﾞｰﾀﾏｲﾆﾝｸﾞの結果や情報を茶筌(ChaSen)やMeCabを使って切り出して､ﾃｷｽﾄﾏｲﾆﾝｸﾞできるように加工｡Webﾏｲﾆﾝｸﾞとかにも活用しているんですかね｡

抽出処理を2段階に分けましょう｡

(1)非構造ﾃﾞｰﾀである各種企業HPから，(単なるﾌﾟﾚｰﾝﾃｷｽﾄではなく)ﾃﾞｰﾀ構造としての文書情報を解析して抽出する｡

(2)(1)の出力結果を，文書のﾃﾞｰﾀ構造を気にしながら単語ﾚﾍﾞﾙの解析にかけ，意味に応じて分類し｡検索可能な形式で蓄積する｡

(1)を実現するためには，企業HPのHTMLｿｰｽを｢DOM構造｣としてﾊﾟｰｽし，各文言がどのような糸で掲載されているのかを判定していく必要があります｡

Webﾍﾟｰｼﾞに限定するのであれば，(X)HTMLのｾﾏﾝﾃｨｸｽや，GoogleにWebｻｲﾄを認識させるためのSEO対策の手法なども参考になるでしょう｡

例えば，titleﾀｸﾞやh1ﾀｸﾞでﾏｰｸｱｯﾌﾟされた要素中の文言は，極めて重要な情報，そのWebﾍﾟｰｼﾞを特徴づけて要約する，価値の高い情報と言う事になります｡

また，ul要素･ol要素･table要素などでﾏｰｸｱｯﾌﾟされた情報は，何らかの項目を列挙していると判定できます｡

このようにして，Webﾍﾟｰｼﾞから｢各文言に対して意味や重みが付与されたﾃﾞｰﾀ構造としての文書情報｣が抽出されます｡(1)がここまでです｡

(2)では，(1)の成果物を分解し，さらに詳細なﾚﾍﾞﾙで解析します｡

例えば文書中に｢Windows｣という固有名詞が使われていれば，このﾍﾟｰｼﾞは｢ｺﾝﾋﾟｭｰﾀ｣というﾀｸﾞを付けよう｡みたいな細かい分類処理を行ないます｡

｢東京都｣というﾜｰﾄﾞが見つかれば，勤務先は東京都であろうと分類します｡

そのような解析処理のために必要なのが形態素解析であり，それらのﾂｰﾙの種類については，No.1さんが回答なさいました｡

この結果，各ﾍﾟｰｼﾞの特徴を単語ﾚﾍﾞﾙで解析することができ，任意のｷｰﾜｰﾄﾞで検索をかけた時に適切なﾍﾟｰｼﾞが返される事になります｡

Googleがやっている事よりも一歩進んだ，ﾒﾀな検索＋ｲﾝﾃﾞｸｼﾝｸﾞのｱﾙｺﾞﾘｽﾞﾑですね｡