US-ASCIIに含まれる文字でOCRに適しているフォントと言えば、当然ながらOCR-Bであって、考えるまでもないことですが、日本語のフォントについてはどうでしょうか。
つきましては、もし、OCRされるのに適したフォントとしてすでに知られている物があるとすれば、そのフォントを教えて下さい。
あるいは、もし、そのようなスタンダードとされるフォントが無い(又は、失礼ながら、ご存じない)とすれば、そのフォントの「条件」について教えて下さい。ただしその場合、「多分◯◯だろう」という全くの憶測に拠るご回答はご遠慮ください(ただし、OCRシステムの専門家の方がいらっしゃるとすれば、「OCRの原理上は◯◯であることが重要だ」のようなご回答は、歓迎いたします)。多少なりともで結構ですので、ある程度、実証または実験の結果としてのデータがあるご回答をお願い申し上げます。
よろしくご教示のほどお願い申し上げます。
質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。
OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka-等幅あたりのフォントが認識率が最も高くなると思います。
等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。
>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい
ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。
条件: ゴシックあるいは明朝
http://cweb.canon.jp/e-support/faq/answer/dr/3528-1.html
地紙の色やら解像度です。
そもそも解像度があれば今のOCRなら読めるし、
どんなフォントでも切れ・かすれのないよう
うまく人手でコントラスト加工すれば解像度低くても認識率あがります。
でもまあ、コントラストが最初から高そうなのは
「ゴシック」系でしょうね。均一だし。
メイリオもゴシック系です。
ゴシック推奨でいらっしゃいますか。
私は明朝が良いのかと思っていたのですが。情報量が多いですし。例えば(丁字路の丁とTシャツのTなどのような場合に。文脈を読むAIが入っていれば、変わらないでしょうが。
文脈を読むAIは、Google製が一番良さそうだと思いますが、Google製であるとないとに関わらず、優秀なソフトはご存じですか?