US-ASCIIに含まれる文字でOCRに適しているフォントと言えば、当然ながらOCR-Bであって、考えるまでもないことですが、日本語のフォントについてはどうでしょうか。
つきましては、もし、OCRされるのに適したフォントとしてすでに知られている物があるとすれば、そのフォントを教えて下さい。
あるいは、もし、そのようなスタンダードとされるフォントが無い(又は、失礼ながら、ご存じない)とすれば、そのフォントの「条件」について教えて下さい。ただしその場合、「多分◯◯だろう」という全くの憶測に拠るご回答はご遠慮ください(ただし、OCRシステムの専門家の方がいらっしゃるとすれば、「OCRの原理上は◯◯であることが重要だ」のようなご回答は、歓迎いたします)。多少なりともで結構ですので、ある程度、実証または実験の結果としてのデータがあるご回答をお願い申し上げます。
よろしくご教示のほどお願い申し上げます。
質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。
OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka-等幅あたりのフォントが認識率が最も高くなると思います。
等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。
>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい
ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。
「ゴシックあるいは明朝」というご回答内容はどうかと思いますが……
ただ、リンク先の情報は役立ちます。OCR ソフトのどういったスペックに注意すべきなのか判ります。
自炊用OCRですか?
http://d.hatena.ne.jp/TipsMemo+computer-technology/20150201/p2
結局、元データにより合うソフトを選ぶことがベストです。
http://www.vector.co.jp/vpack/filearea/win/hardware/scan/ocr/
には手書き数字のみに特化したOCRなどがあります。
逆に原稿をつくるときにフォントを選べるのなら通常OCRは不要です。
通常のフォント(POPなどではなく)で白地に黒で印刷した300dpi以上の
未圧縮(jpgでなくpngなど)原稿があれば
現代の大体の日本語OCRはおそらく
99%以上認識できる能力がありますが、
そのような文書はたったA4の20ページで2ギガを越えるなど大容量になります。
自炊なら20ページからつくった2ギガからテキストを読んだらすぐ消して、
またすぐスキャンすればいいんですけどね。
で、解像度がすこしでも下がると、まずセリフフォントや明朝体の美しさ・可読性を示す部分が
OCRソフトに対しては悪さを始めます。
端的にいうと文字区切りが曖昧になります。uをaと読むようになったりします。
OCR-Bをご存じならゴシックがよいというのも説明するまでもなく
理解されるのではないかとおもいましたが。
おそらくMS-ゴシック(Pでない等幅)かメイリオの、(昔のワードのデフォルトでつくったような)字間のあいている原稿はもっとも読みやすいでしょう。
ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。
しかし現代の日本語フォントは可読性のみならずデザインのためにさまざまに加工されています。
統一するなら・出来るならデファクトスタンダードのメイリオがいいとなるでしょうね。
ごめんなさい、
> ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。
この文章の意味が判らないのですが、よろしければわかりやすくお教え願えませんか? (各単語の辞書的な意味はわかりますが)
言われてみると、明朝体はたしかにそうなるでしょうね。
メイリオをご推奨ですか。かつ、等副であればなおよし、と。
ありがとう存じます。また OCR 関係の質問をすることもあろうかと思いますので、その際はまたご教示お願い申し上げます。
あ、ちなみに、自炊用の予定は、今のところありません。
質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。
OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka-等幅あたりのフォントが認識率が最も高くなると思います。
等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。
>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい
ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。
確か前者のリンク先は、はだいぶ昔からあるシリーズですよね。その最新版か? ありがとうございます。
後者のリンク、どひゃーってかんじです。こういうのを探しておりました。原理的に理解できます。私はこういうのが良いです。
ありがとうございます!
また OCR 関係の質問をすると思いますので、その時は、また宜しくご教示お願い申し上げます。
確か前者のリンク先は、はだいぶ昔からあるシリーズですよね。その最新版か? ありがとうございます。
2015/06/22 20:16:04後者のリンク、どひゃーってかんじです。こういうのを探しておりました。原理的に理解できます。私はこういうのが良いです。
ありがとうございます!
また OCR 関係の質問をすると思いますので、その時は、また宜しくご教示お願い申し上げます。
2015/06/22 20:17:00