При извлечении текста из PDF невозможно извлечь текст на урду
я извлекаю текст из PDF он имеет английский и урду текст , английский текст извлечен, как и ожидалось, но ItextSharp библиотека конвертировать урду текст в специальные символы любезно направлять меня
Что я уже пробовал:
PdfReader reader = новый PdfReader(pdfpath);
инт нумерация страниц = читатель.NumberOfPages;
for (int i = 177; i <= pageNum; i++)
{
// эта строка преобразует урду в специальный символ
text = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());
}
Richard MacCutchan
Нет, iTextSharp ничего не преобразует. Вам нужно использовать правильный шрифт и набор символов для отображения символов урду.
Noman Suleman
как я могу изменить шрифт и характер ?
Richard MacCutchan
Предполагая, что PDF-файл отображает текст на урду, вы можете получить подробную информацию из этого файла. В качестве альтернативы вам просто нужно установить правильный шрифт и набор символов в вашем коде отображения.