Primo Chalice Ответов: 2

Как извлечь текст из газеты с отступом?


- Привет!

Я уже написал код на C# для извлечения текста из PDF-файла (газеты и журналы), и он работает. Но я хочу, чтобы текст был извлечен вместе с абзацами и отступами.

Как мне это сделать?

Я использую itext dll для извлечения.

Пожалуйста помочь.

С уважением
Аман

Что я уже пробовал:

Я уже успешно извлек текст, но это обычный текст без отступов.

Gerry Schmitz

Может быть, он использует "табуляции", и вы их пропустили.

Или ты "подстригаешься", когда не должен этого делать.

2 Ответов

Рейтинг:
2

Maciej Los

Взгляните на это: Извлечение текста из PDF-файла с помощью iText и квалификация документа для обработки OCR · GitHub[^]

Подробнее о чтении содержимого таблицы из pdf вы найдете на сайте Гугл[^].


Рейтинг:
1

OriginalGriff

Текст не имеет "отступа", это блок текста, который ограничен размером области, в которой он содержится. Контейнер управляет "потоком" текста (а также обеспечивает выравнивание (левое, правое, центральное, выравнивание...), и это создает отступ.

Думайте об этом как о многострочном текстовом поле, прикрепленном к вашей форме. Когда вы увеличиваете и уменьшаете размер формы, размер текстового поля автоматически изменяется, и текст внутри него обтекает, чтобы гарантировать, что слова не "сломаны" в правой части, "пропущены" полностью или что вы остались с огромными пробелами!

Чтобы "захватить отступ", вам нужно обработать всю страницу, а также дублировать фреймы и тому подобное, которые управляют размером и формой интересующего вас текстового контейнера. Обратите внимание, что во многих случаях это будет зависеть от устройства, на котором вы просматриваете страницу: ландшафтный монитор шире, чем портретный, и поэтому текст течет по странице дольше!

Вы также должны знать, что извлечение текста и изображений из газет и журналов может быть нарушением авторских прав / лицензионных соглашений и может поставить вас в ужасное правовое положение в зависимости от того, что вы с ними делаете ...