Noman Suleman Ответов: 0

При извлечении текста из PDF невозможно извлечь текст на урду


я извлекаю текст из PDF он имеет английский и урду текст , английский текст извлечен, как и ожидалось, но ItextSharp библиотека конвертировать урду текст в специальные символы любезно направлять меня

Что я уже пробовал:

PdfReader reader = новый PdfReader(pdfpath);

инт нумерация страниц = читатель.NumberOfPages;


for (int i = 177; i <= pageNum; i++)
{
// эта строка преобразует урду в специальный символ
text = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());




}

Richard MacCutchan

Нет, iTextSharp ничего не преобразует. Вам нужно использовать правильный шрифт и набор символов для отображения символов урду.

Noman Suleman

как я могу изменить шрифт и характер ?

Richard MacCutchan

Предполагая, что PDF-файл отображает текст на урду, вы можете получить подробную информацию из этого файла. В качестве альтернативы вам просто нужно установить правильный шрифт и набор символов в вашем коде отображения.

0 Ответов