日本語OCRされた場合に、最も認識率の高いフォントの名前、またはその条件について教えて下さい。


US-ASCIIに含まれる文字でOCRに適しているフォントと言えば、当然ながらOCR-Bであって、考えるまでもないことですが、日本語のフォントについてはどうでしょうか。

つきましては、もし、OCRされるのに適したフォントとしてすでに知られている物があるとすれば、そのフォントを教えて下さい。

あるいは、もし、そのようなスタンダードとされるフォントが無い(又は、失礼ながら、ご存じない)とすれば、そのフォントの「条件」について教えて下さい。ただしその場合、「多分◯◯だろう」という全くの憶測に拠るご回答はご遠慮ください(ただし、OCRシステムの専門家の方がいらっしゃるとすれば、「OCRの原理上は◯◯であることが重要だ」のようなご回答は、歓迎いたします)。多少なりともで結構ですので、ある程度、実証または実験の結果としてのデータがあるご回答をお願い申し上げます。

よろしくご教示のほどお願い申し上げます。

回答の条件
  • 1人1回まで
  • 登録:
  • 終了:2015/06/22 20:18:06
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:godabin No.3

回答回数88ベストアンサー獲得回数19

ポイント112pt

質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。

比較2015’ 現行の日本語OCRソフト3機種の性能とおすすめ

OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka-等幅あたりのフォントが認識率が最も高くなると思います。

等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。

文字認識システムShrift

>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい

ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。

id:akkeyyyy

確か前者のリンク先は、はだいぶ昔からあるシリーズですよね。その最新版か? ありがとうございます。

後者のリンク、どひゃーってかんじです。こういうのを探しておりました。原理的に理解できます。私はこういうのが良いです。

ありがとうございます!

2015/06/22 20:16:04
id:akkeyyyy

また OCR 関係の質問をすると思いますので、その時は、また宜しくご教示お願い申し上げます。

2015/06/22 20:17:00

その他の回答2件)

id:schwnnn No.1

回答回数93ベストアンサー獲得回数8

ポイント18pt

条件: ゴシックあるいは明朝

http://cweb.canon.jp/e-support/faq/answer/dr/3528-1.html

id:akkeyyyy

「ゴシックあるいは明朝」というご回答内容はどうかと思いますが……

ただ、リンク先の情報は役立ちます。OCR ソフトのどういったスペックに注意すべきなのか判ります。

2015/06/22 20:04:33
id:NAPORIN No.2

回答回数4906ベストアンサー獲得回数910

ポイント74pt

自炊用OCRですか?
http://d.hatena.ne.jp/TipsMemo+computer-technology/20150201/p2
 
結局、元データにより合うソフトを選ぶことがベストです。
http://www.vector.co.jp/vpack/filearea/win/hardware/scan/ocr/
には手書き数字のみに特化したOCRなどがあります。
逆に原稿をつくるときにフォントを選べるのなら通常OCRは不要です。
 
通常のフォント(POPなどではなく)で白地に黒で印刷した300dpi以上の
未圧縮(jpgでなくpngなど)原稿があれば
現代の大体の日本語OCRはおそらく
99%以上認識できる能力がありますが、
そのような文書はたったA4の20ページで2ギガを越えるなど大容量になります。 
自炊なら20ページからつくった2ギガからテキストを読んだらすぐ消して、
またすぐスキャンすればいいんですけどね。
 
で、解像度がすこしでも下がると、まずセリフフォントや明朝体の美しさ・可読性を示す部分が
OCRソフトに対しては悪さを始めます。
端的にいうと文字区切りが曖昧になります。uをaと読むようになったりします。
 
OCR-Bをご存じならゴシックがよいというのも説明するまでもなく
理解されるのではないかとおもいましたが。
おそらくMS-ゴシック(Pでない等幅)かメイリオの、(昔のワードのデフォルトでつくったような)字間のあいている原稿はもっとも読みやすいでしょう。
ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。
 
しかし現代の日本語フォントは可読性のみならずデザインのためにさまざまに加工されています。
統一するなら・出来るならデファクトスタンダードのメイリオがいいとなるでしょうね。

id:akkeyyyy

ごめんなさい、

> ソフトを調教できないのでそれでも「デコイ衣装」の中に依があらわれることは避けられないかもしれません。

この文章の意味が判らないのですが、よろしければわかりやすくお教え願えませんか? (各単語の辞書的な意味はわかりますが)

言われてみると、明朝体はたしかにそうなるでしょうね。

メイリオをご推奨ですか。かつ、等副であればなおよし、と。

ありがとう存じます。また OCR 関係の質問をすることもあろうかと思いますので、その際はまたご教示お願い申し上げます。

2015/06/22 20:11:21
id:akkeyyyy

あ、ちなみに、自炊用の予定は、今のところありません。

2015/06/22 20:15:54
id:godabin No.3

回答回数88ベストアンサー獲得回数19ここでベストアンサー

ポイント112pt

質問者さんのお使いになるOCRソフト、スキャナーとの相性があると思われます。

比較2015’ 現行の日本語OCRソフト3機種の性能とおすすめ

OCR専用ソフトではWindowsやMac上の標準フォントに対してはテストを繰り返し行っているでしょうから Windowsでは等幅ゴシック,MacではOsaka-等幅あたりのフォントが認識率が最も高くなると思います。

等幅フォントを選択しているのは字間スペースが固定なため OCRソフトでの文字抽出率低下が減るという理由です。

文字認識システムShrift

>P26. 実装のコンセプト ここで切って しまいそう 文字抽出 実際問題難しい

ただしフォントサイズが小さくなり印刷ポイントサイズが小さくなってくると、
画数の多い漢字などは印刷が省略形になるとか、小さな印刷フォントをスキャンすると十分な解像度で取り込みできるかの保証がない、などの条件が加わりますので十分大きなフォント限定でという制限内でのお話になりますね。

id:akkeyyyy

確か前者のリンク先は、はだいぶ昔からあるシリーズですよね。その最新版か? ありがとうございます。

後者のリンク、どひゃーってかんじです。こういうのを探しておりました。原理的に理解できます。私はこういうのが良いです。

ありがとうございます!

2015/06/22 20:16:04
id:akkeyyyy

また OCR 関係の質問をすると思いますので、その時は、また宜しくご教示お願い申し上げます。

2015/06/22 20:17:00
  • id:NAPORIN
    フォントよりデータ採取状況によります。
    地紙の色やら解像度です。
    そもそも解像度があれば今のOCRなら読めるし、
    どんなフォントでも切れ・かすれのないよう
    うまく人手でコントラスト加工すれば解像度低くても認識率あがります。
    でもまあ、コントラストが最初から高そうなのは
    「ゴシック」系でしょうね。均一だし。
    メイリオもゴシック系です。
  • id:akkeyyyy
    なぽりん様 (id:NAPORIN 様)、ありがとうございます。

    ゴシック推奨でいらっしゃいますか。

    私は明朝が良いのかと思っていたのですが。情報量が多いですし。例えば(丁字路の丁とTシャツのTなどのような場合に。文脈を読むAIが入っていれば、変わらないでしょうが。

    文脈を読むAIは、Google製が一番良さそうだと思いますが、Google製であるとないとに関わらず、優秀なソフトはご存じですか?

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません