【Python】PDFの情報をエクセルで抽出する
1.やりたいこと
PDFのデータをエクセルに移して、データ化したい。PDFの文章を選択してコピー、そのあとエクセルに張り付けするとこんな風に一列になってしまいます。
1か所ならまだしも、複数ある場合はさすがに手動で修正するのはつらい。ってなことで、なんかよい方法がないかと探していたらPythonにそのような機能があるということで実際にトライ。
参考
2.実装
import tabula file = "MIL-STD-1560C.pdf" tabula.convert_into(file, "tabula.csv", stream=True ,output_format="csv", pages='77-78')
pages = 'all'
とするとすべてのページを一括で全てCSVに変換できました。