PDFの文字検索可能な図面作成について話をさせて
頂きました続きとなります。
どうにかして文字検索可能なPDFにしたいのですが
どうにもなりません。
たどりついたのがスキャナーなどの「OCR」なる
機能である。
これは文字として認識のない画像データをスキャナ等で
読み取り、形状から文字として認識させる機能らしい。
(詳しい所は良く解りませんが)
ただ、かすれた文字や潰れた文字は認識できず、変換は
難しいようだ。 後、漢字も変換出来ない文字もあるとか・・・。
確かに、アルファベット、数字、ひらがな、カタカナは単純な
形状なので変換はしやすいのだろう。
で、早速OCRなるツールを探してみると、ウェブ上でも
変換してもらえるサイトが見つかったので試してみることにする。
CADから作成したPDF図面を入力して「変換」
出力されたPDF図面を確認してみると絵柄にさほど違いは
感じられません。
問題の文字検索を確かめてみると検索できます。
んっ? でも検索できる箇所と出来ない箇所がある。
①同じ文字でも出来た所と出来ない所がある。
②複数文字が認識していない。
③文字向き(縦文字等)により認識されない
使えるかと思ったのですが糠喜びでした。