生産技術者サラリーマンの日々

社畜サラリーマンが生産技術やお金の悩みを徒然と書くブログです。私の備忘録が共有できるとうれしいです

【Python】PDFの情報をエクセルで抽出する

1.やりたいこと

 PDFのデータをエクセルに移して、データ化したい。PDFの文章を選択してコピー、そのあとエクセルに張り付けするとこんな風に一列になってしまいます。
pdf
excel

1か所ならまだしも、複数ある場合はさすがに手動で修正するのはつらい。ってなことで、なんかよい方法がないかと探していたらPythonにそのような機能があるということで実際にトライ。

参考

bunkyudo.co.jp

2.実装

import tabula

file = "MIL-STD-1560C.pdf"
tabula.convert_into(file, "tabula.csv", stream=True ,output_format="csv", pages='77-78')

pages = 'all'
とするとすべてのページを一括で全てCSVに変換できました。
出力

https://blog.hatena.ne.jp/inusan0424/inusan0424.hatenablog.com/config/design/detail