Member 14783397 Ответов: 1

Прочитайте более одного pdf-файла (iTextsharp)


Я сделал консоль с iTextSharp для чтения файла .pdf и сохранения его в формате .csv, поэтому у меня есть жестко закодированный файл .pdf, но я хотел бы прочитать более 100 файлов .pdf и сохранить его в формате .csv

Файлы будут называться так:

DT12345678, DT98765432, FR123567, FR988654 ...

static void Main(string[] args)
{
    string fileName = "test.pdf";
        StringBuilder text = new StringBuilder();
    StreamWriter write = new StreamWriter("test.csv");
        if (File.Exists(fileName))
        {
            PdfReader pdfReader = new PdfReader(fileName);

            for (int page = 1; page <= pdfReader.NumberOfPages; page++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                text.Append(currentText);
                pdfReader.Close();
            }
        }
         text.ToString();
    write.Write(text.ToString());
    write.Close();
    Console.WriteLine(text.ToString());

}


Что я уже пробовал:

Я не мог ничего попробовать, потому что у меня нет точки отсчета.

Sandeep Mewara

Непонятно, где ты застрял? Кажется, вы написали код для чтения и сохранения для 1 pdf-файла. Теперь вы хотите продлить для нескольких, так в чем же проблема?

Member 14783397

вопрос в том, как это сделать..

1 Ответов

Рейтинг:
0

OriginalGriff

У вас есть код для чтения pdf-файла.
Поэтому извлеките его в отдельный метод, который принимает один параметр - путь к файлу - и возвращает все содержимое. Проверьте его и убедитесь, что он работает.

Затем вы можете вызвать этот метод столько раз, сколько вам нужно в цикле, чтобы получить все содержимое файлов.

Затем вам, вероятно, потребуется обработать этот контент в фактические данные, прежде чем выводить его в виде CSV, но это будет зависеть от содержимого данных, и мы понятия не имеем, что содержат ваши PDF-файлы или что вам нужно в каждом столбце CSV. Маловероятно, что PDF-контент уже будет в формате CSV, но это возможно!