js_reverse/pdf处理
2023-08-10 19:08:47 +08:00
..
img pdf 处理 2023-07-24 17:46:55 +08:00
program 提取pdf文件中图片和文字 2023-08-05 10:41:28 +08:00
base.py pdf处理 2023-07-26 01:16:23 +08:00
main.py 补环境 2023-08-10 19:08:47 +08:00
README.md 提取pdf文件中图片和文字 2023-07-29 15:01:50 +08:00

提取pdf文件中图片和文字

pdfimages提取图片

pdfimages 是 Poppler 工具包的一部分,可以用于从 PDF 文件中提取图像。要使用 pdfimages您需要安装 Poppler 工具包。

1.在 Ubuntu 或 Debian 上安装 Poppler 工具包:

sudo apt-get update
sudo apt-get install poppler-utils

2.提取所有图像并保存为 PNG 格式:

pdfimages -png ./file_test/1.pdf ./target_img/output_image

pdfplumber提取文字

with pdfplumber.open(pdf_path) as pdf:
    page = pdf.pages[0]
    # 提取页面文本
    text = page.extract_text()