VineLinuxパフォーマンスアッププロジェクト:0104
■pdfファイルからテキストファイルを作成する方法■
「htmlファイルは文字列をコピーペーストできるけど、pdfファイルからも文字列を抜き取りたいなあ」って思ったことありませんか?
Linuxではpdfファイルからテキストファイルを作成することができるという便利な機能があるんです・・・。
この機能を利用するためにはXpdfというパッケージが必要です。VineLinuxがフルインストールされていればありますが、インストールされていなければapt-getコマンドなどでインストールを済ませておいてください。
テキストファイルを作成するにあたり、文字コードを指定する必要があります。これを設定するにはrootユーザで/etc/xpdfrcを開き、以下の部分を使用したい文字コードに変更してください。
# Choose a text encoding for copy-and-paste and for pdftotext output.
# The Latin1, ASCII7, and UTF-8 encodings are built into Xpdf. Other
# encodings are available in the language support packages.
#textEncoding UTF-8
↓
textEncoding EUC-JP
("#"をはずし、使用したい文字コードに変更する。)
これで上書き保存すれば設定は終了です。では変換してみましょう。変換するにはpdftotextコマンドを使用します。変換したいpdfファイルが置いてあるディレクトリに移動し、
pdftotext 変換元pdfファイル名 変換先テキストファイル名
をすればOKです。
pdftotextコマンドはこの他にも様々なオプションを使用することができます。下のページにもっと詳しく書かれているので参考にしてみてくださいね。
●@IT: PDFファイルからテキストを抽出するには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/745textfpdf.html