python環境で、pdfの内容をテキストファイルに出力する(日本語対応OK) Python

python環境で、pdfの内容をテキストファイルに出力する(日本語対応OK)

pdfminer.sixを使うよ

■pdfminer.sixをインストール
# pip install pdfminer.six
pdf2txt.py が /usr/local/bin/ にダウンロードされる
pdfファイル内容をすべて textに変換し出力する

■実行
# python /usr/local/bin/pdf2txt.py ./hoge1.pdf > hoge2.txt

ページ指定し、pdfファイルの一部のみ出力する場合は、-p[ページ番頭]を指定する
# python /usr/local/bin/pdf2txt.py -p1 ./hoge1.pdf > hoge3.txt