abdul subhan mohammed Ответов: 2

Файл.readallline возвращаясь специальные символы в C#


Дорогие Все,

Я пытаюсь прочитать файл Word ".docx", а текстовый файл ".тхт".

Для этого я использую этот код:

Что я уже пробовал:

string[] linesFile = File.ReadAllLines(@"" + file, Encoding.UTF8);//word file


Выход
"PK\u0003\u0004\u0014\0\u0006\0\b\0\0\0!\0ߤ�lZ\u0001\0\0 \u0005\0\0\u0013\0\b\u0002[Content_Types].xml �\u0004\u0002(�\0\u0002\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0���n�0\u0010E���\u000f��Ub袪*\u0002�>�-R�\a\u0018{\u0002V��Ǽ��\u0013\u0002QU\u0001�"


Я просто хочу извлечь только текст из файла с любым расширением (". docx"/". doc " /etc).

может ли кто-нибудь мне помочь?


Заранее спасибо

2 Ответов

Рейтинг:
2

Richard MacCutchan

Вам нужно использовать Microsoft.Офис.Взаимодействие.Пространство имен Word ()[^] чтобы получить текст из файлов. doc/docx.


Рейтинг:
0

Jochen Arndt

Файлы Word-это не текстовые файлы. Старые файлы Word (*.док)- это двоичные файлы, использующие формат MS compound file. Новый файл (* . docx)- это заархивированные архивы, содержащие несколько файлов, большинство из которых являются XML-файлами (например, могут быть также двоичные файлы изображений).

Таким образом, вы можете распаковать файлы DOCX сначала файл, а затем прочитать содержимое каждого файла, содержащегося в архиве (где XML-файлы-это текстовые файлы, которые можно читать с помощью ReadAllLines).