日本語OCRされた場合に、最も認識率の高いフォントの名前、またはその条件について教えて下さい。

Question

ak2ey4

152

143もっと見る

204pt

コンピュータ科学・統計資料

日本語OCRされた場合に、最も認識率の高いフォントの名前、またはその条件について教えて下さい。

US-ASCIIに含まれる文字でOCRに適しているフォントと言えば、当然ながらOCR-Bであって、考えるまでもないことですが、日本語のフォントについてはどうでしょうか。

つきましては、もし、OCRされるのに適したフォントとしてすでに知られている物があるとすれば、そのフォントを教えて下さい。

あるいは、もし、そのようなスタンダードとされるフォントが無い（又は、失礼ながら、ご存じない）とすれば、そのフォントの「条件」について教えて下さい。ただしその場合、「多分◯◯だろう」という全くの憶測に拠るご回答はご遠慮ください（ただし、OCRシステムの専門家の方がいらっしゃるとすれば、「OCRの原理上は◯◯であることが重要だ」のようなご回答は、歓迎いたします）。多少なりともで結構ですので、ある程度、実証または実験の結果としてのデータがあるご回答をお願い申し上げます。

よろしくご教示のほどお願い申し上げます。

回答の条件

1人1回まで

登録：2015/06/15 04:39:54
終了：2015/06/22 20:18:06

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

shunshun9382015/06/20 02:05:26

18pt

条件: ゴシックあるいは明朝

http://cweb.canon.jp/e-support/faq/answer/dr/3528-1.html

「ゴシックあるいは明朝」というご回答内容はどうかと思いますが……

ただ、リンク先の情報は役立ちます。OCR ソフトのどういったスペックに注意すべきなのか判ります。

2015/06/22 20:04:33

No.2

なぽりん49069102015/06/22 00:51:59

74pt

自炊用ＯＣＲですか？
http://d.hatena.ne.jp/TipsMemo+computer-technology/20150201/p2
　
結局、元データにより合うソフトを選ぶことがベストです。
http://www.vector.co.jp/vpack/filearea/win/hardware/scan/ocr/
には手書き数字のみに特化したＯＣＲなどがあります。
逆に原稿をつくるときにフォントを選べるのなら通常ＯＣＲは不要です。
　
通常のフォント（ＰＯＰなどではなく）で白地に黒で印刷した３００ｄｐｉ以上の
未圧縮（ｊｐｇでなくｐｎｇなど）原稿があれば
現代の大体の日本語ＯＣＲはおそらく
９９％以上認識できる能力がありますが、
そのような文書はたったＡ４の２０ページで２ギガを越えるなど大容量になります。　
自炊なら２０ページからつくった２ギガからテキストを読んだらすぐ消して、
またすぐスキャンすればいいんですけどね。
　
で、解像度がすこしでも下がると、まずセリフフォントや明朝体の美しさ・可読性を示す部分が
ＯＣＲソフトに対しては悪さを始めます。
端的にいうと文字区切りが曖昧になります。ｕをａと読むようになったりします。
　
ＯＣＲ－Ｂをご存じならゴシックがよいというのも説明するまでもなく
理解されるのではないかとおもいましたが。
おそらくＭＳ－ゴシック（Ｐでない等幅）かメイリオの、（昔のワードのデフォルトでつくったような）字間のあいている原稿はもっとも読みやすいでしょう。
ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。
　
しかし現代の日本語フォントは可読性のみならずデザインのためにさまざまに加工されています。
統一するなら・出来るならデファクトスタンダードのメイリオがいいとなるでしょうね。

ごめんなさい、

> ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。

この文章の意味が判らないのですが、よろしければわかりやすくお教え願えませんか? (各単語の辞書的な意味はわかりますが)

言われてみると、明朝体はたしかにそうなるでしょうね。

メイリオをご推奨ですか。かつ、等副であればなおよし、と。

ありがとう存じます。また OCR 関係の質問をすることもあろうかと思いますので、その際はまたご教示お願い申し上げます。

2015/06/22 20:11:21

あ、ちなみに、自炊用の予定は、今のところありません。

2015/06/22 20:15:54

なぽりん 2015/06/15 11:16:20

フォントよりデータ採取状況によります。
地紙の色やら解像度です。
そもそも解像度があれば今のＯＣＲなら読めるし、
どんなフォントでも切れ・かすれのないよう
うまく人手でコントラスト加工すれば解像度低くても認識率あがります。
でもまあ、コントラストが最初から高そうなのは
「ゴシック」系でしょうね。均一だし。
メイリオもゴシック系です。
ak2ey4 2015/06/21 21:35:56

なぽりん様 (id:NAPORIN 様)、ありがとうございます。

ゴシック推奨でいらっしゃいますか。

私は明朝が良いのかと思っていたのですが。情報量が多いですし。例えば(丁字路の丁とTシャツのTなどのような場合に。文脈を読むAIが入っていれば、変わらないでしょうが。

文脈を読むAIは、Google製が一番良さそうだと思いますが、Google製であるとないとに関わらず、優秀なソフトはご存じですか?

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

godabin · Accepted Answer · 2015-06-22T15:43:48+09:00

質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。

比較2015’ 現行の日本語OCRソフト3機種の性能とおすすめ

OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから　Windowsでは等幅ゴシック,MacではOsaka－等幅あたりのフォントが認識率が最も高くなると思います。

等幅フォントを選択しているのは字間スペースが固定なため　OCRソフトでの文字抽出率低下が減るという理由です。

文字認識システムShrift

>P26. 実装のコンセプトここで切ってしまいそう文字抽出実際問題難しい

ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。

godabin · Accepted Answer · 2015-06-22T15:43:48+09:00

質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。

比較2015’ 現行の日本語OCRソフト3機種の性能とおすすめ

OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから　Windowsでは等幅ゴシック,MacではOsaka－等幅あたりのフォントが認識率が最も高くなると思います。

等幅フォントを選択しているのは字間スペースが固定なため　OCRソフトでの文字抽出率低下が減るという理由です。

文字認識システムShrift

>P26. 実装のコンセプトここで切ってしまいそう文字抽出実際問題難しい

ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。

日本語OCRされた場合に、最も認識率の高いフォントの名前、またはその条件について教えて下さい。

ベストアンサー

godabin88192015/06/22 15:43:48

その他の回答（2件）

shunshun9382015/06/20 02:05:26

なぽりん49069102015/06/22 00:51:59

godabin88192015/06/22 15:43:48ここでベストアンサー

コメント（2件)

この質問への反応（ブックマークコメント）