このPDFはイメージデータのみで、テキスト情報は含まれていないようです。
システム管理やシステム監査など、比較的マイナーな(受験者数の少ない)試験カテゴリに関して、
良質なテキスト情報を取得したいのですが、どのような方法が考えられるでしょうか。
ここで言う「良質なテキスト情報」とは、実際に出題された問題文や解答の選択肢の文言と比較して
差分の無い状態のテキストを指します。
個人のホームページで過去問を公開されている方もいますが、一部に誤字脱字があったり、
(意図的に?)表現が少し変えてあったりして、完全なものは見付けられませんでした。
質問の回答とは全然関係のないコメントで申し訳ないのですが、
>>ここで言う「良質なテキスト情報」とは、実際に出題された問題文や解答の選択肢の文言と比較して
>>差分の無い状態のテキストを指します。
とありますが、情報処理技術者試験って2月19日締切のもので、最後ですよね?その後はITパスポート試験に統合されると思うのですが、、、
そう考えると、あまり「良質なテキスト情報」にこだわる必要はないのではないかと、、
何か別の意図があって質問されているのでしたら申し訳ありません。
本家提供のPDFがイメージ情報のみならば、テキスト情報が外部で手に入る可能性は低いと思われますが、
後は、テキストデータを含まないPDFからでも、OCRによって文字認識できるPDFソフト
(例えば、http://www.sourcenext.com/titles/use/92000/?i=new)などで、自分で手に入れるしかなにのではないかと、、、
どうしても無料で済ませたいのでしたら、まずIPAからダウンロードしたPDFをフリーソフトなど使い、JPEGで書き出すか、
プリントアウトしたものをスキャナーで読み込み、http://ai2you.com/ocr/product/koko13/koko13.aspエプソンの読んでココ!の無料体験版をダウンロードしてきて、OCRで読み取れば、テキストデータを作ることができると思います。
回答、ありがとうございます。
メルナガのバックナンバーも公開されていますね。一部の問題を見てみた感じですが、
「良質なテキスト情報」であるかという点では、なかなか良い印象を持ちました。
ただ、「システム監査技術者」の2007年春の全問題を一覧で入手したいと考えた際に
少ない手間でテキストを取得できない点がもう一つです。
また、問題の網羅性があるかどうか(全問題が揃うか)という点も?です。
とは言え、参考になりました。ありがとうございます。
ありがとうございます。
ただ、OCRでイメージデータを読み取った場合には、どうしても文字認識の間違いが生じるため、
「一部に誤字脱字がある」状態になってしまうと思います。
これを人手で補正する作業を行うのであれば、個人のホームページで公開されている過去問からテキストを得て、
それをIPA公開のPDFと見比べて修正する方法と手間は変わらない、もしくは手間が増えると考えています。
質問内に目的を記載しておらず、分かりづらかったかも知れません。
やりたい事は、高度情報処理技術者試験の午前問題を対象とした出題傾向分析です。
例えば、『「テクニカルエンジニア(システム管理)」や「システム監査技術者」では、
2006年から「フォレンジクス」の問題が必ず出題されるようになった。』などの情報を
テキスト分析によって導き出したいと考えています。
# 試験区分の変更はありましたが、旧「テクニカルエンジニア(システム管理)」であれば、
# 新試験区分の「ITサービスマネージャ」でもある程度の割合で過去問が出題されるでしょうし、
# 類似の試験区分の試験では出題傾向が引き継がれていくだろうと…。
# もしこの予想が外れていると意味のない分析になってしまいますね。