条件: ゴシックあるいは明朝
http://cweb.canon.jp/e-support/faq/answer/dr/3528-1.html
自炊用OCRですか?
http://d.hatena.ne.jp/TipsMemo+computer-technology/20150201/p2
結局、元データにより合うソフトを選ぶことがベストです。
http://www.vector.co.jp/vpack/filearea/win/hardware/scan/ocr/
には手書き数字のみに特化したOCRなどがあります。
逆に原稿をつくるときにフォントを選べるのなら通常OCRは不要です。
通常のフォント(POPなどではなく)で白地に黒で印刷した300dpi以上の
未圧縮(jpgでなくpngなど)原稿があれば
現代の大体の日本語OCRはおそらく
99%以上認識できる能力がありますが、
そのような文書はたったA4の20ページで2ギガを越えるなど大容量になります。
自炊なら20ページからつくった2ギガからテキストを読んだらすぐ消して、
またすぐスキャンすればいいんですけどね。
で、解像度がすこしでも下がると、まずセリフフォントや明朝体の美しさ・可読性を示す部分が
OCRソフトに対しては悪さを始めます。
端的にいうと文字区切りが曖昧になります。uをaと読むようになったりします。
OCR?Bをご存じならゴシックがよいというのも説明するまでもなく
理解されるのではないかとおもいましたが。
おそらくMS?ゴシック(Pでない等幅)かメイリオの、(昔のワードのデフォルトでつくったような)字間のあいている原稿はもっとも読みやすいでしょう。
ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。
しかし現代の日本語フォントは可読性のみならずデザインのためにさまざまに加工されています。
統一するなら・出来るならデファクトスタンダードのメイリオがいいとなるでしょうね。
▽3
●
godabin ●112ポイント ベストアンサー |
質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。
OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka?等幅あたりのフォントが認識率が最も高くなると思います。
等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。
>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい
ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。