Popplerをインストール
PDFをスクレイピングするライブラリです。
ダウンロード
popplerとpoppler-dataの両方が必要です。
(poppler-dataパッケージを入れないと日本語が扱えないらしい)
http://poppler.freedesktop.org/
導入
いつもどおり、解凍・コンパイル・インストールするだけです。
sakura% mkdir -p local/src sakura% tar -xvzf poppler-0.8.2.tar.gz sakura% cd poppler-0.8.2 sakura% ./configure -prefix=$HOME/local sakura% make sakura% make install sakura% cd ../ sakura% tar -xvzf poppler-data-0.2.0.tar.gz sakura% cd poppler-data-0.2.0 sakura% make install datadir=$HOME/local/share
使い方
sakura% ~/local/bin/pdftohtml -noframes -enc UTF-8 example.pdf
オプション
-enc | 出力HTMLの文字コードの指定 |
-noframes | フレームを使わず、1つのHTMLにまとめる |
-c | 画像でテーブルなどを表示する |