このPDFはイメージデータのみで、テキスト情報は含まれていないようです。
システム管理やシステム監査など、比較的マイナーな(受験者数の少ない)試験カテゴリに関して、
良質なテキスト情報を取得したいのですが、どのような方法が考えられるでしょうか。
ここで言う「良質なテキスト情報」とは、実際に出題された問題文や解答の選択肢の文言と比較して
差分の無い状態のテキストを指します。
個人のホームページで過去問を公開されている方もいますが、一部に誤字脱字があったり、
(意図的に?)表現が少し変えてあったりして、完全なものは見付けられませんでした。
質問の回答とは全然関係のないコメントで申し訳ないのですが、
>>ここで言う「良質なテキスト情報」とは、実際に出題された問題文や解答の選択肢の文言と比較して
>>差分の無い状態のテキストを指します。
とありますが、情報処理技術者試験って2月19日締切のもので、最後ですよね?その後はITパスポート試験に統合されると思うのですが、、、
そう考えると、あまり「良質なテキスト情報」にこだわる必要はないのではないかと、、
何か別の意図があって質問されているのでしたら申し訳ありません。
本家提供のPDFがイメージ情報のみならば、テキスト情報が外部で手に入る可能性は低いと思われますが、
後は、テキストデータを含まないPDFからでも、OCRによって文字認識できるPDFソフト
(例えば、http://www.sourcenext.com/titles/use/92000/?i=new)などで、自分で手に入れるしかなにのではないかと、、、
どうしても無料で済ませたいのでしたら、まずIPAからダウンロードしたPDFをフリーソフトなど使い、JPEGで書き出すか、
プリントアウトしたものをスキャナーで読み込み、http://ai2you.com/ocr/product/koko13/koko13.aspエプソンの読んでココ!の無料体験版をダウンロードしてきて、OCRで読み取れば、テキストデータを作ることができると思います。