Вверх ↑
Ответов: 537
Рейтинг: 14
#1: 2024-01-05 00:36:31 ЛС | профиль | цитата
Gunta писал(а):
Если кто-то знает другой более лёгкий способ, прошу поделится.

Сделал на python

import camelot
import os

def main():
pdf_path = os.path.join("input", "2.pdf")
pdf = camelot.read_pdf(pdf_path, flavor="lattice", pages="all")
for table in pdf:
csv_file = os.path.join("output", f"{table.page}.csv")
table.to_csv(csv_file, sep='\t', index=False, encoding='utf-16-le')
print(f"Saved {csv_file}")

if __name__ == "__main__":
main()
Нужно установить библиотеки

camelot-py==0.11.0
cffi==1.16.0
chardet==5.2.0
charset-normalizer==3.3.2
click==8.1.7
cryptography==41.0.7
distro==1.9.0
et-xmlfile==1.1.0
ghostscript==0.7
JPype1==1.5.0
numpy==1.26.3
opencv-python==4.9.0.80
openpyxl==3.1.2
packaging==23.2
pandas==2.1.4
pdfminer.six==20231228
pycparser==2.21
pypdf==3.17.4
python-dateutil==2.8.2
python3-ghostscript==0.5.0
pytz==2023.3.post1
six==1.16.0
tzdata==2023.4

Вырезает таблицы без всяких заморочек и быстро. Для теств нужно создать папку input и поместить туда файл 2.pdf переименовать, создать папку output. Скомпилировать, файл main.exe перенести рядом с созданными папками
карма: 4

0