人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

書籍・書類をデジタル化したいです。経験がおありの方、ご助言を願います。

デジタル化したい物

a)辞書・事典(最大B5判/100?2,000頁)日・英・独・仏・羅・古希・ヘブライ語、他
b)ビジネス書(A4/50?300)
c)画集(B3/30?80)
d)楽譜(B3/1?100)
e)CD・DVD・Blu-rayのブックレット(B5程/4?15)
f)レシート(極小?B4/1?2)

留意点

A)個人的使用と税務等用途が混在
B)いずれも、2値・グレースケール・カラー、又はこれらの組み合わせ
B)c・d・eは廃棄不可。その他は廃棄可
C)最終的書式(2種。サイズ制限は無視OK):
C-1)オリジナル画像。永続的に保存。表示速度優先
C-2)OCRでテキスト検索可にした、テキスト系または電子書籍などの書式、ただしスタイラスペンやキーボードによる書き込みができる事。検索速度優先

質問:次の手順が想定されますが、皆様であればどのようになさいますか? 又は、陥りがちな失敗はどんな物ですか?

1)バラす(OKな物のみ)
2)スキャン(iii-1。特に、スキャナの種類)
3)C1・C2を作成

まずはポイントを絞るため、広義のご助言を願う次第です。

●質問者: akkeyyyy
●カテゴリ:コンピュータ 書籍・音楽・映画
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● なぽりん
●150ポイント ベストアンサー

人に頼む「自炊代行」は著作権上いろいろとケチがつく可能性が高いです(1冊500円程度の安いものがあります)。
わたしは昭和はじめごろの本で著者が亡くなって51年経ったもので試しましたが、お金をふりこんで住所に送るだけと手軽でよかったですが、予告された日に送られる筈の納品メールが紛失。自動でメールゴミ箱に入ったわけでもないのに届かなくて、非っっ常に困りました。著作権上、元原稿は絶対に捨てる契約ですし、スキャン後のデータも複製にならないよう代行者が適切な手段で消している筈なのですが、早めに対処することでどうにか手元にデータをとり戻すことができました。
スキャナは自炊最適な高性能スキャナが(ステマになりそうですから名前を挙げませんが)有名です。ページ送りが正確で速いものです。それと裁断機も有名になりました。
でもそのスキャナや裁断機を自宅に買うと重くでかく邪魔で高いのです。
だからオフィス街にかならずあるとおもわれる自炊ブースの貸し出しをうけて自分でやるのがよいです。
ただし画集など大きいものはフラットベッドスキャナでなければうまくできるかわかりません。
自炊ブース貸し出し@名古屋をぐぐってみた - 残しておきたい雑談がある
これは名古屋の例です。
キンコーズが一番有名なチェーン店ですが、個人経営でもいろいろな特色があります。
OCRはスキャナに付属でついてきますが、スキャンがかなり高解像度でないと人の目で読めても機械は読めません。画集もあるので当然高解像度を選ばれるのだとはおもいますが気をつけてください。
それに、ゆくゆく紙に印刷したくなった時も高解像度でなければ液晶画面よりボロくてがっかりすることになります。カラーで350dpi、白黒で600dpiあればどこに出しても恥ずかしくない印刷品質のファイルです。
高解像度のものを自宅でメクリの速くサイズの小さい低解像度に変換することはフリーソフトやフォトショップでできます。
フォトショップ特有の「アクション」で、エクセルマクロのような自動プログラムをつくる方法がネットにあり、これをつかえば何ページでも自動で数分で変換してくれます。
フォトショップは月極価格で4000円/月のを自宅パソコンにレンタルしてそのあと解約すればよいです。
総じて機器はかしてくれてもOCRやフォトショップまで貸すのはソフトの利用規約違反のことが多いですが、貸してくれると謳ってないだけでやってくれる貸しオフィスがあるかも知れませんからきいてみては。


akkeyyyyさんのコメント
> 自炊ブース とても良いKeywordをありがとう存じます。 ただ、デジタル化したいものがかなり多いので、従量課金的なサービスはちょっと難しいかもしれません。 昔大都市に住んでいた頃、在籍する大学の近くに、文字通り「完全自炊」してくれる印刷屋さんがオフレコ的にあり、皆使っていましたが、私が在籍中に、そのサービスをやめてしまいました。やはり、著作権がらみで何かあったという噂でした。 > 高解像度のものを自宅でメクリの速くサイズの小さい低解像度に変換することはフリーソフトやフォトショップでできます。 はあ、なるほど、「アクション」でコードを書いて、高解像度のデータとは別に、モニタ上で読むための低解像度のものも自動的に作っておくという事ですね。ググってみます。 > 総じて機器はかしてくれてもOCRやフォトショップまで貸すのはソフトの利用規約違反のことが多いですが、貸してくれると謳ってないだけでやってくれる貸しオフィスがあるかも知れませんからきいてみては。 へぇ?、とても貴重な情報を、有難うございます。 フォトショップについては、まずはGIMPなどで代用できないか調べてみます。 問題は OCR の選択ですね。言語別×含有色別×記事面タイプ別、で考えなければならなさそうですね。まあ、自宅に沢山の PC がありますので、 1)それらの PC で別々の OCR ソフトを走らせっぱなしにして、 2)全ての OCR ソフトでの処理が終わった書籍・書面別に、ランダムにページを選び、それらとオリジナル画像とを比較して、どの OCR ソフトの物が最も正確に認識できているか判断して、その書籍・書面の中で上位の OCR によるものを残し、 3)後は、読みながら、変だな、と思ったページについては、付してあるリンクを開いてオリジナル画像を確認し、余裕があればテキスト版を修正する、 といったあたりでしょうか。 > カラーで350dpi、白黒で600dpiあればどこに出しても恥ずかしくない印刷品質のファイルです。 この数値は大変参考になります。ありがとうございます。カラーの方がdpi値が低いというのが意外ですが。 大変有難うございます!

なぽりんさんのコメント
辞書OCRは、二カ国語と記号(発音記号や複数形を示すイタリックのpl.など)が細かく混じってくるので、正直、人力読み取りを採用する(最近もそんな質問がありました)か最新の電子辞書を買うかしたほうが絶対安いとおもいますよ(質問主さんの手間暇・疲労がゼロ円にカウントできるならいいのですが)。苦労しても得られるものはこの質問に答えて300ptもらえる程度の経験値にしかなりませんよw 堂々とは貸してくれないといいましたがそうでもなかった。全国ネットのキンコーズの貸しPCにはフォトショ入っています。http://www.kinkos.co.jp/office/selfpc.html GIMPだとプラグイン だそうです。 http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1333472988

akkeyyyyさんのコメント
> 苦労しても得られるものはこの質問に答えて300ptもらえる程度の経験値にしかなりませんよw イジワルですねぇ。いやぁ本当、いつも有難うございます。本当に感謝致しております。 あのー確認なのですが、 > 人力読み取りを採用する にある「人力読み取り」の意味ですが、普通に「画像を読め」、ということではないですよね? 少なくとも「(元データを参照しながらの)手入力」ぐらいの意味ではありますよね? 辞事典類は索引、How To 本は索引に加えて目次、それと、それらに書かれているページが正しく認識されてくれれば大体使えると思います。 そして今気づいたのですが、結構問題なのは、各ページに書かれているページ数を、本文とは別次元の「ページ数の値」として認識してくれるかどうかですね。まあ、第1ページと最終ページの画像を直接手で指定して、第1ページから順にバーっと、ファイル名なり埋め込みデータなりを打てば良いのかもしれませんが……。 何しろ全く経験がありませんので、どこに地雷があるか判りません。もしハードウェア水準の地雷を踏んでしまった場合、大損害です。 とりあえず、教えて頂いた dpi 値 & A4 程度のモノクロでひたすら読み取りの速いフラットベッドか何かを中古で買って、試してみますかね。 それと別の問題で、おっしゃるとおり発音記号と、あとはギリシャ文字やヘブライ文字の読み取りを前提とした OCR ソフトを探すことですね。これは結構難しいかもしれません。

なぽりんさんのコメント
http://q.hatena.ne.jp/1436465740 にて人力読み取り代行を募集されていました。 パソコン販売店のソフトコーナーで1980円などの安価な日本語OCRを売っていますし、 グーグルドライブやevernoteなどで無料OCRの付属するクラウドストレージサービスがありますが、それらの開発者は英語です。 英語は26*2=52文字しか認識しなくてよいのに、日本語はひらがなかたかなだけで90文字程度、常用漢字だけで3000字ほどありますよね。しかもウロコのついた明朝体が多い。

なぽりんさんのコメント
ページ数情報は通常は、本文からすると邪魔なので捨てることになります(どの本の何ページ目にそれが合ったかは検索できなくしないと、ページ数やフッタにはいってくる署名が検索対象になってとても面倒)。ですから辞書は画像のままで保存したほうがまだよいとおもいます。 ちゃんとしたOCRソフトではそのようなレイアウト部分を除くための設定作業がありますが、うっかりそれを忘れるともう… セーターから毛糸玉に戻すような作業なのですよ。

なぽりんさんのコメント
自炊用スキャナは、フラットベッドとは作業性が大違いです。 カミタバにした本をばさっといれれば両面自動スキャンしおわるのに500pでも3分もかからない秒速のスキャナが出たため、ようやく自炊行為がひろまったのです。つまり画期的なスキャナです。 http://matome.naver.jp/odai/2131165373223819401 でもまずはそのフラットベッドの不便さからどうぞ味わってみてください。経験としてはおもしろいです。

akkeyyyyさんのコメント
この自炊用スキャナ(裁断後に差し込むタイプ)なのですが、ページを飛ばしてしまう確率はどの位なのでしょうか? モノによっては何千ページもありますので、そもそも「全部スキャンできているか」を確認するのが大変ですよね。しかも、こういった何千ページもあるような辞事典は、紙の厚さがもの凄く薄い(だから、ページを飛ばされそう)。ペラッペラです。その辺、大丈夫でしょうか?

なぽりんさんのコメント
辞書の紙(インディアンペーパー)は無理でしょうが他はかなりよい結果が出るらしいです。本文ページ数とスキャン後生成されるファイルのページ数が食い違っていればチェックすることになりますが、ページ数とファイル名を照合すればどこからズレたかすぐわかるのでは。

なぽりんさんのコメント
pdf内に表示されるページとpdf自体でのページがあるところまでは2しかずれていないのにあるところから4ずれているというような形で発見できるでしょう。

なぽりんさんのコメント
http://d.hatena.ne.jp/Hyperion64/20111201/1322731530 数はすくないですが辞書の自炊報告ありました。 また自炊代行に辞書は断られて困ったという質問が多かったです。

2 ● LLマン
●150ポイント

技術書を中心に千冊以上、電子書籍化してきました。
自炊の手間は大きいが、効果も大きいと感じています。

電子化をはじめた動機は、とくにプログラミング系の技術書だと、
分厚い本を開きながらサンプルコードを写すのが苦痛だからです。

スキャナや裁断機(ディスクカッター)がジャマかといえば、
裁断した本のスペースのほうが大きいので問題になりません。

なお、フラットヘッド型のスキャナは紙の交換が手間なので、
下記のような自動給紙型のスキャナでスキャンしています。

富士通 FUJITSU ScanSnap iX500 (A4/両面/Wi-Fi対応) FI-IX500A

富士通 FUJITSU ScanSnap iX500 (A4/両面/Wi-Fi対応) FI-IX500A

富士通 FUJITSU ScanSnap S1300i (A4/両面/バスパワー駆動) FI-S1300B

富士通 FUJITSU ScanSnap S1300i (A4/両面/バスパワー駆動) FI-S1300B



陥りがちな失敗


失敗というか自炊につきものの欠点になりますが、
スキャナの重送などで、数%のデータはよく失われます。

といって再現率100パーセントを求めると、時間がかかって大変です。
自炊で完璧主義だと、本の数をこなせません。

自炊業者だとノウハウがあってもっと上手くできるのでしょうが
(著作権の司法上での争いはここではおくとして)、
私は自炊オンリーで来たのでそちらの事情は分かりません。

私の場合は、数%のデータが失われるのは、
自炊税と考えて割り切っています。
PCで検索できるなど、それを上回る利便性があります。


また、ページの方向や順番などが間違っていたりしたとき、
PDFの修正は率直に言って面倒くさいです。

本のPDFはページ数が多くて重いし、PDFのツールは貧弱だしで、
修正作業が後回しになって、実質的に死蔵している本もあります。


それから、紙のほうが意外と便利な部分があります。

とくに画像化したPDFは重いので、
紙のほうが早く目的のページを引けたりします。


しかし、電子化すると場所を取らない、
という大きなメリットがあるから、これらはトレードオフです。

また、単体では遅くてもWebの検索と並行できるメリットがあります。

本の場合ならPCと本棚を行ったり来たりしますが、
ブラウザで検索するのも、電子本のフォルダで検索するのも、
同じキーワードをコピペできるので、シームレスで便利です。
OCRで全文検索できるようにするとますます便利でしょう。

総合的に考えてけっきょく、私は電子化する方向を選んでいます。


さて、自炊する順番として一番最初は、
もう読まないもの、捨ててもよいもの、または安くて買い直しが可能なものから、
裁断してスキャンすることをおすすめします。

bのビジネス書は、一般的に白黒で大きな文字がメインで
スキャンの難易度が低く、かつ再入手が容易なので、
そこから着手なさるのがおすすめです。

もしくは、eのブックレットも、限定版など貴重なものでなければ、
ページ数が少ないため容易でおすすめです。


aの辞書は重くて厚いので、電子化のメリットが大きいジャンルですが、
ページ数が多くて字が細かいので、難易度はやや上がります。

たとえばもし1000ページの辞書PDFで、全ページ修正が必要、
原本はすでに廃棄、などとなったら、労力的に手に負えないでしょう。


cの画集は、文字でなく画像である点と、大きいサイズである点が難しいです。
とくに後者は大きいスキャナでないと、B3サイズをスキャンできません。

一枚のページを切ってバラせば可能ですが、別々のページになります。
画像ソフトなどでつなぎ合わせることもできますが、手間がかかります。

自動給紙型ですとA4までが一般的で、それ以上のサイズは、
下記のようなオーバーヘッド型のスキャナになります。

富士通 FUJITSU ScanSnap SV600 (A3/片面/オーバーヘッド読取方式) FI-SV600A

富士通 FUJITSU ScanSnap SV600 (A3/片面/オーバーヘッド読取方式) FI-SV600A





ただ、オーバーヘッドでも(上記は)A3までです。
業者ならできるところもあるかもしれませんが、たぶん高いです。

もし画集の冊数が少ないようなら、
手間はかかるしクオリティは落ちるでしょうが、
デジカメで写すのが一番簡単かもしれません。

ちなみに私は、A4ワイド版とか少し大きいサイズの場合なら、
割り切って端を切り落としてスキャンしてしまいますが、
それ以上のサイズの大型本の自炊は諦める、
というか最初から自炊しやすい本を買うようにしてます。

それから、あるていど大きなモニタを持ってないと、
とくに縦が詰まって、本の迫力が失われるかもしれません。


また、dの楽譜は文字で内容を検索できないし薄いので、
電子書籍化するメリットは薄いかもしれません。
B3なのも前述のように扱いずらいです。

ただ、もし専用の楽譜取り込みソフトで電子楽譜にできるなら、
DTMソフトでの閲覧などができて、利便性が一気に高くなります。


fのレシートは廃棄可とありますが、一応保存しておいたほうが良いと思います。

このように基本的に規制緩和の方向に向かっているはずですが、
とくに高額の領収書は保管しておいたほうが慎重な気がします。


akkeyyyyさんのコメント
まず、ScanSnap V600 は購入しました。アドバイス有難うございます。 後は、A4ノビ?レシートまで様々な大きさがあるレシート類を、どのようにスキャンすべきかですね。ScanSnap V600 だけで何でもいければそれが一番良いのですが、使い勝手としては、そうもゆかないかもしれません。まずは上記を試してみて、必要なら、シートフィーダ型でできるだけオールマイティなものを探してみることにします。 シートフィード型は、ただ差し込めば自動的にスキャンしてくれる物がよく、基本的にA4またはA4ノビ?A6程度まではそのままスキャンしてくれるもので、小さすぎるものは、クリアファイル的なものに挟んでやってくれるものが良いかなぁ……。 色々なご助言をありがとうございました! 体験談、とても参考になりました。とても役立つと思います。

質問者から

なぽりん (id:NAPORIN) 様、
LLマン (id:dev2) 様、
miharaseihyou (id:miharaseihyou) 様、

さっそくですが、ScanSnap SV600 の展示品を購入しました。今、手元にあります。

とりあえず、散らかった部屋を片付けなければ使ってみることができないので(汗)、部屋を片付けます……。

ちなみに購入条件は:
・税・送料等、諸費用コミコミで、5 万円也。
・展示品。
・メーカー保証期間 1 年 10 ヶ月。
・外箱と緩衝材以外、付属品は全部あり。
です。結構良い条件で購入できたと言えるのではないでしょうか。

これだけですめばよいですが、そうもいかないかもしれませんので、皆様、できましたら、引き続きご助言頂ければ幸いです(我ながら図々しい)。


関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ