HiAsm

Вверх ↑

Форумы "Игра в слова"Дело было вечером, делать было нечего… ← Ctrl123 4 5 6 7 8 9 10 11Ctrl →

Ответов: 539

Рейтинг: 14

#1: 2024-01-05 00:36:31 ЛС | профиль | цитата

Gunta писал(а):

Если кто-то знает другой более лёгкий способ, прошу поделится.

Сделал на python


import camelot
import os 

def main():
    pdf_path = os.path.join("input", "2.pdf")
    pdf = camelot.read_pdf(pdf_path, flavor="lattice", pages="all")
    for table in pdf:
        csv_file = os.path.join("output", f"{table.page}.csv")
        table.to_csv(csv_file, sep='\t', index=False, encoding='utf-16-le')
        print(f"Saved {csv_file}")

if __name__ == "__main__":
    main()

Нужно установить библиотеки

camelot-py==0.11.0
cffi==1.16.0
chardet==5.2.0
charset-normalizer==3.3.2
click==8.1.7
cryptography==41.0.7
distro==1.9.0
et-xmlfile==1.1.0
ghostscript==0.7
JPype1==1.5.0
numpy==1.26.3
opencv-python==4.9.0.80
openpyxl==3.1.2
packaging==23.2
pandas==2.1.4
pdfminer.six==20231228
pycparser==2.21
pypdf==3.17.4
python-dateutil==2.8.2
python3-ghostscript==0.5.0
pytz==2023.3.post1
six==1.16.0
tzdata==2023.4

Вырезает таблицы без всяких заморочек и быстро. Для теств нужно создать папку input и поместить туда файл 2.pdf переименовать, создать папку output. Скомпилировать, файл main.exe перенести рядом с созданными папками

карма: 4

Форумы "Игра в слова"Дело было вечером, делать было нечего… ← Ctrl123 4 5 6 7 8 9 10 11Ctrl →