Primo Chalice Ответов: 1

Как получить правильный текст из pdf при извлечении в C#?


Я пишу программу для извлечения текста из PDF-файла. Извлечение работает нормально, и я должен преобразовать несколько символов в соответствующие шестнадцатеричные коды, прежде чем сохранять файл в формате XML.

Проблема в том, что из всех символов, когда я сохраняю "■" в XML-файл, он преобразуется в "¦".

Затем я вручную заменяю его, прежде чем сохранить в нужный файл.

Пожалуйста помочь.

Что я уже пробовал:

Мне просто нужна основная идея о том, как я могу избавиться от этого.

0x01AA

Проверьте свою xml-кодировку. Немного почитать здесь: Кодировка XML[^]

1 Ответов

Рейтинг:
2

Richard MacCutchan

Отображаемые символы будут варьироваться в зависимости от того, какой набор символов вы используете для их отображения. Ваша программа должна посмотреть на фактическое значение кода символа и настроить его по мере необходимости, чтобы соответствовать соответствующему коду в наборе, который вы используете. Дополнительные сведения об используемых значениях см. В приложении "карта символов" в разделе "Аксессуары Windows".