Вверх ↑
Ответов: 773
Рейтинг: 168
#1: 2024-08-19 20:37:27 ЛС | профиль | цитата
strannik_nebes писал(а):
Вопрос связан с распаковкой и упаковкой(после) данных блока "stream"-"endstream" файла pdf. Данные потока начинаются с "xњ".Согласно спецификации на формат с фильтром FlateDecode, данные сжаты в zlib/DEFLATE. Стандартный zlib или GZIP от Netspirit не распознают данные (Error 0, не подходит, судя по методу сжатия)...

Стандартный ZLIB прекрасно справляется с распаковкой сримов между stream и endstream в PDF фаилах.

Add(MainForm,14080331,161,266)
{
Width=880
Height=296
Point(onClose)
Point(onQueryEndSession)
link(onCreate,14896185:doConvert,[])
}
Add(BlockFind,9435204,252,280)
{
IncludeBlock=1
StartBlock="3C3C2F46696C7465722F466C6174654465636F64652F4C656E677468203131353E3E0A73747265616D0A"
EndBlock="0A656E6473747265616D0A"
link(onSearch,9676665:doStrCat,[])
}
Add(StreamConvertor,15103391,350,280)
{
Mode=1
link(onResult,97704:doDeCompress,[])
}
Add(StreamConvertor,14896185,210,280)
{
Point(Data)
link(onResult,9435204:doSearch,[])
link(Data,6715283:Stream,[])
}
Add(Memo,10167157,511,273)
{
Left=550
Top=160
Align=5
ScrollBars=3
}
Add(MemoryStream,6715283,210,224)
{
Stream
}
Add(ZLIB,97704,406,273)
{
link(onStream,8784320:doConvert,[])
}
Add(StreamConvertor,8784320,462,273)
{
Mode=6
link(onResult,10167157:doAdd,[])
}
Add(StrCat,9676665,301,280)
{
Str1="C70A0000"
link(onStrCat,15103391:doConvert,[])
}


strannik_nebes писал(а):
Вопрос решен с pdf.

Хотелось бы посмотреть на твоё решение.

Вот неплохая статья о том, как извлекать текст из pdf -
https://habr.com/ru/articles/69568/

P.S. По моему, PDF самый неудобный формат для парсинга. И это очень мягко… Обычно матом.
карма: 15

1
Голосовали:strannik_nebes