Faxで送られてくる書類から文字列を抜き出したいということで、
光学文字認識(Optical character recognition:OCR)ができるオープンソースを探していたところ、
GoogleドライブのGoogleドキュメントでできるよという情報を見つけ、
早速試してみることにした。
早速このように適当な位置に名前を書いた画像ファイルを用意する。
このファイルを
Googleドライブ内でOCR用で作成したフォルダに先程のファイルを入れてみる。
画像のアイコンにカーソルを当て、右クリックでGoogleドキュメントを選択してみると、
待機中の画像が表示されるのでしばし待つと
画像の下に解析結果の文字列が表示されていた。
文字データがすべて取得できてた。
OCRを調べている時、最初はオープンソースを探していて、
NHocrという日本語用のOCRのライブラリを見つけ試してみたが、ここまでの精度はなかった。
NHocr: 日本語文字認識プログラム プロジェクト日本語トップページ - OSDN
しかしNHocrはGoogle Codeで管理されているところを見ると、
GoogleドキュメントはNHocrを組み込んでいるのだろうな。
そう思うと、Googleが出しているOCR用のAPIを利用した方が良いのだろうな。