Member 11183856 Ответов: 3

Как конвертировать PDF-данные в документ word с помощью ocr


привет,

Как конвертировать PDF-данные в документ word с помощью ocr.

1. размер шрифта и семейство шрифтов не должны меняться
2. стили не должны меняться(жирный, курсив, подчеркивание, зачеркивание и т. д....)
3. Если в PDF есть изображение, то изображение должно быть в word.

мне нужны образцы .net для справки.

Что я уже пробовал:

hi,

How to convert PDF data to word document using ocr.

1. The font size and font family should not change
2. The styles should not change(bold, italic, underline, strike. etc....)
3. If the PDF have image the image should be in word.

i need .net samples for reference.

MadMyche

Множество полезных результатов поиска google для "Parse PDF C#" или "Automate PDF Export to Word". Ничто не идеально, это до вас, чтобы выяснить, каковы ваши потребности и пройти через тысячи результатов, чтобы выяснить, что работает лучше всего.

http://www.adobe.com/devnet/acrobat.html
https://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C

Вот вам вопрос: что вы собираетесь делать, если используемый шрифт не находится на локальном компьютере?

Richard Deeming

То - То, что я пробовал" коробка-это место, где вы показываете нам, что вы пробовали. Это НЕ там для вас, чтобы разместить второй экземпляр "Описать проблемы" текст!

3 Ответов

Рейтинг:
2

Richard MacCutchan

Цитата:
мне нужны образцы .net для справки.
Затем вы должны использовать Google для их поиска.


Member 11183856

я попробовал, но ничего не получил для своего эталонного решения.

Richard MacCutchan

Тогда, возможно, вам придется написать его самому.

Maciej Los

5ed!

Рейтинг:
1

LEADTOOLS Support

Классы .NET framework сами по себе не содержат возможности распознавать PDF-файлы и конвертировать их в Word, поэтому для этого вам понадобится SDK или библиотека. Один из вариантов описан в разделе эту статью CodeProject мы опубликовали некоторое время назад.
С тех пор как эта статья была опубликована, LEADTOOLS SDK был значительно улучшен различными способами, но .Чистый код по-прежнему прост в написании и понимании и выглядит следующим образом:

IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Свинец, ложь);
RasterCodecs rasterCodecs = новые Растеркодеки();
растеркодеки.Варианты.Нагрузки.AllPages = true;
окренгин.Запуск(rasterCodecs, null, null, null);
строка fileName = @"inputFile.pdf";
IOcrDocument ocrDocument = ocrEngine.Класс documentmanager.CreateDocument();
CodecsImageInfo fileinfo = растеркодеки.GetInformation(имя файла, true);
for (int pagenumber = 1; pagenumber <= fileinfo.TotalPages; pagenumber++)
{
ocrDocument.Страницы.Метод addpage(rasterCodecs.Load(fileName, 0, CodecsLoadByteOrder.Bgr, pagenumber, pagenumber), null);
}
ocrDocument.Страницы.Распознать(null);
ocrDocument.Сохранить(имя файла + ".docx", DocumentFormat.Docx, null);

Если вы хотите попробовать его, вы можете скачать бесплатную оценку основной установки LEADTOOLS с сайта эта страница.