Faxで送られてくる書類から文字列を抜き出したいということで、

光学文字認識(Optical character recognition:OCR)ができるオープンソースを探していたところ、

光学文字認識 - Wikipedia


GoogleドライブGoogleドキュメントでできるよという情報を見つけ、

早速試してみることにした。


saito_frame


早速このように適当な位置に名前を書いた画像ファイルを用意する。

このファイルを


ocr_in_google_drive


Googleドライブ内でOCR用で作成したフォルダに先程のファイルを入れてみる。


ocr_in_google_drive_1


画像のアイコンにカーソルを当て、右クリックでGoogleドキュメントを選択してみると、


ocr_in_google_drive_2


待機中の画像が表示されるのでしばし待つと


ocr_in_google_drive_3


画像の下に解析結果の文字列が表示されていた。

文字データがすべて取得できてた。




OCRを調べている時、最初はオープンソースを探していて、

NHocrという日本語用のOCRのライブラリを見つけ試してみたが、ここまでの精度はなかった。

NHocr: 日本語文字認識プログラム プロジェクト日本語トップページ - OSDN


しかしNHocrはGoogle Codeで管理されているところを見ると、

GoogleドキュメントはNHocrを組み込んでいるのだろうな。


そう思うと、Googleが出しているOCR用のAPIを利用した方が良いのだろうな。