arindamrudra Ответов: 4

Чтобы найти поврежденные файлы .pdf


Всем Привет,

У меня есть около 116222 файлов .pdf. Среди них мне нужно найти поврежденные файлы. Может ли кто-нибудь сказать мне, есть ли какое-либо программное обеспечение (бесплатное или платное), чтобы получить эти файлы, которые повреждены, или наоборот. Я много гуглил, но так ничего и не нашел. Весь результат показывает фиксирующее программное обеспечение.

Любое предложение будет очень полезно для меня.

Richard MacCutchan

Скорее всего, единственный способ сделать это-открыть каждый файл с помощью программы чтения PDF или написать собственное приложение для их анализа.

arindamrudra

Но количество файлов очень велико, вот в чем проблема.

Richard MacCutchan

Если эти файлы уже существуют на вашем диске, то вы ничего не можете сделать, не прочитав каждый отдельный файл, чтобы проверить его. Как еще можно было определить, что он испорчен?

arindamrudra

Да, все файлы есть на моем диске. Не могли бы вы взглянуть на решение OriginalGriff (очень хороший совет) и 2-е и 3-е звенья от walterhevedeich, которые также имеют высокое качество. Поэтому я стараюсь следовать этим путям.

Richard MacCutchan

Ну одна вещь, которую вы можете заметить из всех этих ссылок и предложений, заключается в том, что вам придется читать каждый файл; нет никакого возможного способа избежать этого.

arindamrudra

Да, это верно. Но если я реализую проверку "SHA hash value", то это будет очень легко. Я создам сервис, который будет вызывать файлы последовательно и будет проверяться .NET. Это займет меньше всего времени, чтобы проверить (я так думаю). Но есть график доставки, вот почему я ищу какой-то простой способ.

4 Ответов

Рейтинг:
28

OriginalGriff

Проблема заключается в том, чтобы решить, является ли файл "поврежденным".

Если у вас нет хэш - значения SHA для каждого файла или чего-то подобного, то единственный способ определить, поврежден ли файл, - это попытаться прочитать его как PDF-файл, а если нет, то он либо поврежден, либо использует более позднюю версию спецификации PDF, которую использует ваше программное обеспечение для чтения.

Если вы можете прочитать их, то они, вероятно, не испорчены - вам понадобится человек, чтобы прочитать их и убедиться, что они выглядят так, как я подозреваю, - поэтому вы можете игнорировать их.

Я бы обработал их через считыватель, а затем настроил для них хэш SHA, чтобы в следующий раз любые изменения можно было немедленно обнаружить.


arindamrudra

Спасибо, очень хороший совет. Я собираюсь искать "SHA hash value для каждого файла".

Рейтинг:
2

arindamrudra

Я прошел через вашу первую ссылку перед вашим постом. Но третье звено кажется очень хорошим. Вторая ссылка может выйти из строя из-за количества файлов. Система может зависнуть.

Рейтинг:
17

Mirage2012

Привет,
Для тех, кто все еще ищет решение проблемы arindamrudra, следует взглянуть на эту бесплатную, с открытым исходным кодом и небольшую программу под названием "рекурсивный поиск поврежденных PDF-файлов" (ссылка для скачивания: http://sourceforge.net/projects/corruptedpdfinder/[^]) который будет делать именно это: находить рекурсивно поврежденные или защищенные паролем PDF-файлы в папке выбора пользователя.

Удачи.
Чилва.


arindamrudra

Очень мило...

William van Velde

Отлично, это тот инструмент, который мне нужен.

Рейтинг:
1

Kornfeld Eliyahu Peter

Вы узнали, сколько лет этому посту? И уже ответил!!!