実際は紙とパソコンとどちらがいいと思いますか??
また、パソコンデータにした方がいいとしたら
取り込む手法は、どんな方法がいいでしょうか??
http://d.hatena.ne.jp/keyword/%a5%d1%a5%bd%a5%b3%a5%f3
アドレスはダミーです。
ただ取り込むだけでは検索性が全くないので,取り込み時にOCRをかけ,文字データをざっくり同時に取り込んでおくことをお勧めします。
取り込んだPDFと文字データさえ紐付けしておけば,後でキーワード検索で引っ掛けられますので。
PDFをメール添付し,メール本文にOCRで抽出したテキストをコピペし,自分宛に送っておくのも手ですね。
データ化すれば検索、更新などの作業が容易になりますし
保管スペースも大して必要ないですしね。
取り込む方法は
http://panasonic.co.jp/pss/pstc/products/ocr/
こういったソフトを用いてスキャンすればよいのではないでしょうか?
実際は紙がいいですけど、扱いにくいときもあるので
すべてパソコンに取り込みます。
------------
OCRで95%ぐらいの精度で取れる程度なら電子化、無理ならやめる方向性も
考える。
取り込むデータはPDFで文字データも埋め込んだ形が良いと思います。
検索とかに耐えれるように。
ワードドキュメントとかでもよいですが・・。
スキャンのきくものなら、データ化してもよいでしょうが、速報性がひつようなもの、日記とか手帳とかはそのままの方がよいでしょう。データ化は文字情報中心の方が向きます。
検索しやすい性質のものかどうかで決めれば。
どんな情報で、保存しておく理由や、体制、手間隙をどれだけ掛けられるかなどの状況で答えが変わりますし、マイクロフィルムという回答もあると考えます。
一般的に電子より紙の方が保管可能な期間は長いとされます。少なくとも紙には1000年以上も前に書かれた古文書が現存するという証明がされていますから。
例えば5年後には捨てるけど、それまでの期間紙で取っておくだけのスペースがないといった場合やそれこそしょっちゅう一部を見たいから検索性が求められるといった場合には積極的に電子化しますが。
検索性は要求しないけど、省スペースというならマイクロフィルムとなります。
CD-Rに焼いても埃や傷、直射日光でデータが消えてしまいますので定期的にバックアップができるのならどうぞといったところでしょう。
電子化する際のデータ形式はPDFという意見が多いようですが、PDFの欠点はたくさんあって、ネット上などで公開するといった状況でもない限りはやらない方がいいでしょう。最大の欠点は方言やバージョンの多いことでこのソフトでは見ることができるけどというのが多すぎます。
OCRも量によってはやめた方がいいでしょう。よく、認識率が97%以上と宣伝されていますが、文庫本の1行が何字あるか数えて下さい。つまり、97%だとほぼ4行毎に3字誤認識が発生するということです。
私なら、マルチページTIFFのG4圧縮にインデックスを5個程度つける以外の方式は一般論としては薦めません。
後、ソフトウェアですが、1番がImageOFFICE、2番手で読んde!!ココとe-Typist、読取革命は5番手以下ですね。ただし、読み込んだモノクロ画像をノイズ消去した上に手間隙掛けて消しゴムで消すといった場合に読取革命を使っていますが。
参考までに、
私は「Scan Snap S510」を購入し、透明テキスト付きの「PDF」形式で電子化しています。
FUJITSU ScanSnap(スキャンスナップ) S510 FI-S510
Amazonの評価の
本当はブックスキャナではない。, 2007/11/10 By ニッチ趣味人 (関東北部)
の人と同じ使い方をしていますが、makocanさんの質問の内容でもコレを使う事をおすすめします。
■おすめの理由は
・A4サイズまでの大きさを両面(もちろん片面も可)連続で読み込める。
・透明テキスト(OCRで画像から文字を取り出す)入りのPDFを作成出来る。
・PDFファイルを編集出来るソフト「Adobe Acrobat8 Standard」付き(これ単品で買うと2万ぐらいします)
■透明テキスト付きPDFについての補足
OCR技術で文字を拾って透明のテキストとして張ってくれるので、文字検索が出来ますし、見えてくるものは画像なのでOCRで読み取りミスした文字が見える心配もありません。
OCRの文字取り出しは完璧ではありませんが、ただの画像よりは文字検索出来るという最大のメリットがあると思います。
ちなみに、自分でやった内容については以下の自分のページでメモしてあります。
●ScanSnap S510で本を透明テキスト入りPDFに電子化 - DoldoWorkz
http://www.wikihouse.com/doldoworkz/index.php?ScanSnap%20S510%A4...
ご参考になれば幸いです。
Baku7770さんと私とで意見が分かれて混乱させてしまってるのではないでしょうか(汗)
ちょっと私の意見にお付き合いください。
※単なる私の考えなので、Baku7770さんの意見を否定している訳ではありません(←念のため)
■電子化をしない方向の話です。
保管目的としては、確かにマイクロフィルムも良い方法です。
マイクロフィルムは図面等の保管で使われているのを見たことがあります、物理的な物なので長期保存に向いています。
(私が見たのは、A2~A0の大きさの図面が手のひらに乗るほどのサイズになっていた物でした)
ただ、単なる文書で10年以上保管する事ってほとんど無いと思いますので、そこがマイクロフィルムを選ぶか選ばないかの境界線ではないでしょうか?
確かにCD-Rは埃・キズ・直射日光に弱く、粗悪なメーカのだと2~5年ぐらいしか持たないとも言われています。
そういう心配があるのでしたら、HDDレコーダ等で広く使われている「カートリッジ型のDVD-RAM」がおすすめです。
データの信頼度はCD-RやDVD-Rに比較にならないほど高く、チリやホコリに関してもカートリッジ型であればかなり防げます。
(DVD-RAMは、どちらかというとMOやPD等の光磁気ディスクの構造に近いです)
私も電子化したファイルはコレに入れています。
DVD-RAMが扱えるドライブは、今だとこのへんが良さげでしょうか?
●BUFFALO DVSM-CX516U2/V
http://buffalo.jp/products/catalog/storage/dvsm-cx516u2_v/
DVD-RAMを使うか使わないかはコストとの面が境界線でしょうか。
■次に電子化する方向の話です。
検索性等の使い勝手を考えると、やはり自分はPDFの方が良い気がします。
※ちょっとBaku7770さんの文章を引用させて頂きます。
>最大の欠点は方言やバージョンの多いことでこのソフトでは見ることができるけどというのが多すぎます。
PDFはAdobe社で無料で配布されている「AdobeReader」で全てのバージョンが見えるので、このソフトで見るのが普通です。
●Adobe - Adobe Readerのダウンロード
http://www.adobe.com/jp/products/acrobat/readstep2.html
他のソフトは全てライセンス外なので、当然見れない物もあると思った方が良いでしょう(逆に「AdobeReader」以外でPDFの中身を見ようとすると上記のような問題が起きると言うのが欠点でしょうか)
>OCRも ~(略)~ よく、認識率が97%以上と宣伝されていますが、文庫本の1行が何字あるか数えて下さい。
>つまり、97%だとほぼ4行毎に3字誤認識が発生するということです。
これについては、確かにその通りです…ですが、逆に「透明テキスト付きPDF」形式にする分には認識率が「100%である必要が無い」のです。
OCRで文字を抽出して貼り付けられたテキスト文字列は「透明」なので、もし間違った文字になっていたとしても目視で見える事はなく、見えるのはあくまでもスキャンした内容です。
では透明なテキストは何に使われるか?文字検索する場合にだけ使われます。
逆にTIFFの様な画像形式だとタグ付けされた文字列以外は、文字検索が全く出来ません(TIFF画像を読み込んだ際に随時OCRでテキストを抽出するソフトがあれば別ですが、見るたびにその処理を行うのは重そうです)
こういった理由で、認識率が完全ではなくてもあらかじめOCRで透明テキストを埋め込んだ方が、後々の検索性が上がるのです。
ちなみに、PDFは標準でマルチページ(複数のページが一つのファイルに入る)になっています。
デメリットとしては、AdobeReader自体が「重い」ソフトだという事です、サクサク見れないのがちょっと欠点だと思います。
本編とは全く関係ない余談ですが、このような面白いWebサービスもあります…これはPDFをアップすると、Flash形式でぱらぱらと見れるようになるという物です。
●Issuu-サンプル?
http://issuu.com/tuscany/docs/tuscany-april07/1
>私なら、マルチページTIFFのG4圧縮にインデックスを5個程度つける以外の方式は一般論としては薦めません。
この方法もまたアリだと思います。
TIFFのG4圧縮形式(※1)は、、ファックスする際に使われている高い圧縮率を誇る形式です。
データ容量が格段に小さい、ビューアで見る際に軽く、でサクサク見れるというのが特徴です。
こちらを使う境界線としては、(タグ付け以外の)文字検索をしない、1枚当たりの容量が少ない方が良い…という事ならばこちらがおすすめです。
(※1:G4圧縮形式は白黒のみの対応です。 カラーの場合はTIFFのPACKBITE圧縮、もしくはLZW圧縮形式というのがありますのでカラーの際はこちらで)
ただ、TIFF形式でのマルチページ(複数のページが一つのファイルに入る)は画像ビューアがほとんど対応していない状況なので、対応ビューアはあらかじめ探しておいて下さい(フリーソフトであると思います、私は使った事が無いので分からないです)
あと、何をもって一般とするかが難しい所です(※2)…世の中ではPDF・TIFFの両方が多く使われています。
(※2参考までに、官公庁などで使われている「電子納品」という「文書を電子化するルール」ではPDF・TIFFの両方使われています)
以上が私の意見です、どうしても迷ったのであれば「透明テキスト付きPDF」と「TIFF」の両方で保管しておくというのも手です。
コメント(1件)
●価格.com - PFU ScanSnap S510 FI-S510 価格比較
http://kakaku.com/item/00401510175/
なので、それの下位の機種(実売価格が2万5千~3万円ぐらい)の物もお勧めしておきます。
●ScanSnap S300 製品仕様 _ 富士通
http://scansnap.fujitsu.com/jp/product/s300/
●価格.com - PFU ScanSnap S300 FI-S300 価格比較
http://kakaku.com/item/00400210184/
S510と比べて以下の点が異なっています。
・AdobeAcrobatが入っていない
・Word・Excel変換機能が無い
・読み取り速度が遅い
・連続で読み取れる枚数が少ない