トップページ >> DTP豆知識
OCRは使えない、使っても変な文章が出来上がってしまうので、結局自分で打った方が早いと思っていたのですが…
先日、テキスト支給と渡されたPDFデーター。
全ての文字がアウトラインされていたため、テキストとして使えず、どうしようかなと路頭に迷っていたところ、アクロバットにテキスト認識機能があるのを思い出して半信半疑ながら使ってみた結果です。
■Let's OCR!
Acrobat DCを使います。
ホーム・ツール・文書と並んでいるメニューから「ツール」→「スキャン補正」
「テキスト認識」→「このファイル内」
「テキスト認識」ボタンを押す。
画面上を全選択してコピーします、
そのままテキストエディタなどにペーストすることでテキストが取り出せました。
※中途半端に文字情報が残っているデータはうまくいかないようでした。そういう場合は一度Photoshopでラスタライズして(600dpiぐらい)Photoshop PDFや画像形式にしてアクロバットで開きます。
■どのくらい賢いの?
元のテキストと比較してみました。
— 結 果 — 2,676文字中 間違いは32文字でした。正解率98% |
認識結果で特に目立った間違いのパターンです。
正解 | 誤り |
ィ(小) | イ |
力(ちから) | カ(カタカナ) |
<(かっこ) | く(ひらがな) |
国 | 固 |
・(中黒) | •(カタカナ) |
以前あったようなOCRソフトよりは、精度が格段に上がったと思いますし、正解率から考えるとかなり使える機能だと思いました。
ですが、考えられないような間違いをしてる事もありますので、ご使用の際は十分注意してください。
◎おまけ
正
誤
H本語力って…(笑)