FC2ブログ
QLOOKアクセス解析

DTPを快適に!

なにかと短時間作業を強いられることの多いDTPの仕事。この苦しみから少しでも解放されたい思いで、只今勉強中!javascript、applescriptの習得を中心にその他のチップス、素材のことなんかを書いていきます。

2009年06月の記事

AcrobatでOCR 3.67%

今だにFAXで原稿がくるところがありまして、、、レイアウトの指示ぐらいならいいんですが、商品リストがずらっときます。
正確にいうと、間に一社挟んでいまして、FAXで入稿されたものがスキャンされて私の所へ届きます。

元の原稿はEXCELのデータかと思うんですが、プリントしたものに色々書き込まれてやってきます。一社挟んでるのと、原稿が複数の部署から集められているようなので、なかなか元データを要求しづらいところがありまして、、

で、OCRです。
私の所にはスキャンされた原稿が来るので、なおさらOCRです。
OCRとはOptical Character Recognitionの略で光学文字認識。つまり、文字の書いた書類などをスキャンして、それをテキストデータとして認識させる技術です

なんですが、うちにあるスキャナの付録のOCRのソフトはかなり古いもので使い物にならなかった記憶が。
あとBrotherの複合機MyMio MFC-425CNをFAXとして使ってるんですが、これにもOCRが付いていたので、使ってみるとトンチンカンな文字の羅列が読み取られた、、多分使い方に問題があったのかと思うのですが。

今の時代はこんなところにも、オープンソースなるものがあったりしない?ですかね、、
ということで探してみました。

「NHocr」とかいうGoogleがらみのネットに画像をアップして、、っていうのがありました。ネットに画像をアップって言うだけでもういいやって感じですね。
「機密・秘密の画像は絶対に送信しないでください。」ってかいてありました。

ということで続いてお金を払うことを視野に入れて検討。
osXで使えるものを検索すると
「読んde!!ココ」と「e.Typist」がひっかかりました。
それぞれのホームページを探してみると・・・?・・・?・・・winはあるんですけど。。
mac版はもうなくなってしまったんですかね・・なんにも書いてません。

macにはないんでか、、、macってなんなんでしょう?

少しやけになってググってみました。
Acrobatでできる?

えーそうなんですか?
Acrobat6ぐらいからOCRの機能が付いていたようです。それってかなり前からってこと
私のはAcrobat8Professinalです。
(ここにたどり着くまで2時間ほど経過してます)

それでは実験です。
材料にはAdobeさんの「会社概要」なるPDFを拝借しました。
これを一度プリントします。2ページありましたが1ページ目だけ
(EPSON PM-G4500で普通紙のグレースケールでプリントしました。)
プリントしたものをAcrobat8proで「文書」「スキャナからPDFを作成...」を選択。
スキャナには先程のBrother MFC-425CNをつかって600dpiで(プリントがそこそこなので、600もいらないとは思うのですが。)

スキャンが終わってOCR処理されました。PDF上に文字データがのっかってるようなのですが、いまいちどういうことになってるかわかりませんが、その辺は後で調べるとして、とりあえず、あるらしい文字を全選択してコピーしました。
それをテキストエディタにペーストするとそれなりにスキャンされているようです。
が、ところどころ、何?ってのがあります。

どのぐらいミスがあるのか数えてみました。
間違いだけを拾い集めて文字数を数えます。
全文字数2591文字に対して、ミス95文字、約3.67%
という結果でした。
多いんでしょうか少ないんでしょうか。
多いような気もしますが、このぐらいあった方がミスチェックに緊張感が出ていいのかもしれませんね。あまり少なすぎると過信してしますので。

ちなみにこの文書は、欧文がMariad Pro、和文が小塚 Proでした。
ここに明朝が入るとまた違うんでしょうね。明朝は横棒が細かったりするんでミスも多くなるんでしょうか?

ざっとミスを拾い集めた感じ、欧文はほぼ正解って感じでした。
意外にもミスのほとんどが、ひらがな、かたかな、句読点でした。
単純なだけに他の文字と混同するようです。
「ハ」が「1\」だったり「ル」が「jレ」、「こ」が「ζ」なんてのがありました。

まぁそれなりに使えそうな感じですね。
AcrobatにOCRがついてたなんて、、、
変なもの買わなくて良かった。

でも人間ってすごいですよね。
コンピュータがやった仕事(OCR)をなんだコレ?って笑えるんですから。
スポンサーサイト