Popplerをインストール

PDFをスクレイピングするライブラリです。

ダウンロード

popplerとpoppler-dataの両方が必要です。
(poppler-dataパッケージを入れないと日本語が扱えないらしい)
http://poppler.freedesktop.org/

導入

いつもどおり、解凍・コンパイル・インストールするだけです。

sakura% mkdir -p local/src
sakura% tar -xvzf poppler-0.8.2.tar.gz
sakura% cd poppler-0.8.2
sakura% ./configure -prefix=$HOME/local
sakura% make
sakura% make install
sakura% cd ../
sakura% tar -xvzf poppler-data-0.2.0.tar.gz
sakura% cd poppler-data-0.2.0
sakura% make install datadir=$HOME/local/share

使い方

sakura% ~/local/bin/pdftohtml -noframes -enc UTF-8 example.pdf

オプション

-enc 出力HTMLの文字コードの指定
-noframes フレームを使わず、1つのHTMLにまとめる
-c 画像でテーブルなどを表示する