Как получить правильный текст из pdf при извлечении в C#?
Я пишу программу для извлечения текста из PDF-файла. Извлечение работает нормально, и я должен преобразовать несколько символов в соответствующие шестнадцатеричные коды, прежде чем сохранять файл в формате XML.
Проблема в том, что из всех символов, когда я сохраняю "■" в XML-файл, он преобразуется в "¦".
Затем я вручную заменяю его, прежде чем сохранить в нужный файл.
Пожалуйста помочь.
Что я уже пробовал:
Мне просто нужна основная идея о том, как я могу избавиться от этого.
0x01AA
Проверьте свою xml-кодировку. Немного почитать здесь: Кодировка XML[^]