1ページのマンガの白黒画像が与えられたとき、
そのコマ割りを自動的に判別するプログラムを作れたらと考えています。
たとえば右上の図のような感じです。
マンガは、同じ大きさの四角が4つ並ぶ単純な4コママンガではなく、
この質問に示した図のように、コマごとの大きさが異なる、枠線がナナメになっている等、
ある程度、複雑なコマも含まれると思ってください。
そのとき、
[1] どんな方法でコマ割りが実現可能か(必ずしも成功率100%でなくてOKです。支援できればいいので)
[2] すでにそのような研究があるか(ゼロからコマ割りができるマンガ・ワープロの研究は未踏にあるようです)
[3] あなたの考えるところ、有望そうなテクニック(できれば簡単な理由つきで)
のいずれかを、教えていただければと思います。
また、[1]~[3]に関連する、[4] 良さそうな参考文献 もご紹介いただければうれしいです。
なお過去の回答がポイントゲッター的であると判断した場合、回答をオープンしないことがあります。
よろしくお願いいたします。
【0】以下のような課題設定をしたい。
(a) コマは原則としてコマの端を示す線分(以下、端線)で区切られる。ページの端も端線である。
(b) 端線の外は空白(コマ以外)の場合(例:コマ2の上)と、直接他のコマの場合(例:コマ2の下がコマ3)がある。
(c) 時に端線は分断される(例:コマ4、5)が、これは処理上では無視して可である。
(d) 端線の多くは水平ないし垂直であるが、そうとは限らない。
【3】コマ割とは、端線を過不足なく抽出することとして、次の処理方針をとる。
(1) 端線、すなわち線分の検出はハフ(Hough)変換[*]を用いるが、これは計算量が多いので、あらかじめ(2)(3)で(d)の水平・垂直線分を検出する。
(2) 黒画素の連続長さ(run)を水平、垂直に求め、長いものを端線とする。
(3) 検証で、端線とみなされる線の法線方向にrunをもとめ、白のみ(コマ2の上)、runがあるが、上下が不一致ゆえ区切りの端線とみなされる(コマ2と3の間)などを行う。
(4) 上記検出の端線を除いてハフ変換を行い、これを(3)と同様の手法で検証する。
下のリンクの「輪郭処理(cvFindContours)を使ったラベリング処理」の辺りのサンプル
絵的に、参考になりそうな気がするんですが、どうですか?
http://imagingsolution.blog107.fc2.com/blog-date-201003.html
見当違いだったらごめんなさい。
OpenCVは、C言語のライブラリですね。本いろいろ出てます。
http://secure1.gakkai-web.net/gakkai/ieice/gakusei/14pr/pdf/143.pdf
ハーフトーンを表すスクリーントーンがどうなるかがよく分からないのです。スキャンする画素が細かければ、はっきり白と黒に分かれるかもしれないが、一度コピーされていたりすると、スクリーントーンがつぶれてしまっているかも知れない。
私が業務でこの画像を扱うとしたら、そういう画像の実際の状況を見極めてからにすると思います。
もし為にならなければポイント0で良いです。
基本的には、上記にあるようなアプローチ(ノイズ除去、ハフ変換による直線検出、その他)である程度の精度を上げることは出来ると思いますが、一方で、最近の漫画には、コマが明確でないものや、ページにまたがるコマなど様々な問題があります。具体的には、私は、「北斗の拳」を裁断、スキャンし、サンプルとして利用していましたが、結局、この漫画をコマ割りするのは凄く難しいなぁということで、そのプロジェクトはそのままお蔵入りになりました。
もともと難しい問題のようで、ちょっとホッとしました。じゃあ自分が必ずしも成功しなくてもいいと思えますので・・・。
こちらは、ものすごく基本的なパターン認識の本を買ってきました。すこしずつ勉強を進めていきたいと思います。
大脳新皮質を模擬する研究はされています。besomというものを一杉さんが研究しています。同様にジェフホーキンスがヌメンタプロジェクトをやっています。
これが出来れば完璧ですね!
また、もし本気で自動プログラムを作るなら、ある程度実際の漫画でコマ割りを学習してコマ割りの確率モデルを獲得させて確率判定させる機械学習的なものになるはずです。
パターン認識と機械学習
prml
とかおすすめです。
難しいかもしれませんが
30日間無料の評価版があります。
http://www.ni.com/vision/ja/vbai.htm
対話式に機能を選択し、画像を見ながら実行可能です。
機能としてはおおよそ一般的な工業系の画像処理は揃っています。
(エッジ検出関数にはハフ変換が使われています)
カメラはUSB以外であればアナログ、Cameralink等(要フレームグラバ)接続が可能です。
フレームグラバ無しの構成であれば、IEEE1394、GigEが可能。
もちろん画像ファイルからの読み込みも可能。
初心者向け技術資料として、上記ツールの機能に沿った形ではありますが、画像処理の基本的な機能についてわかりやすく説明されています。
NI Vision コンセプトマニュアル
http://www.ni.com/pdf/manuals/372916g_0112.pdf
あの、
私、しばしば、どこがコマの切れ目かわからなくなるんですが(笑)
一応断っておきますが、私は人間です(少なくとも自分ではそう信じてます)。
発想を変えて、人がやっても苦にならない=コストを下げられると考えて。
新刊が誰よりも早く見れる特権。
コマを指でなぞってもらうことで次のページが読める。
といったトレードができないだろうか。なんて思いました。
ブラックジャックぐらい昔の漫画でもコマの壁ぶち破ってますし、システムでやるとなると業界でのルール作りが必要そう。
線の種類変えるとか。
作家が紙を意識して作ったものですから、同じレイアウトじゃないといけないはず。
それを崩すということは、作家にそれを認識してもらう必要が出てくるかも。
たまに、部分見開きといった具合で、次どこ?ってことがありますもんね。
iPhone用に自炊したことがあるんでわからないわけではありませんが。