Member 11593571 Ответов: 2

Как ввести пользовательский символ в файл с помощью fstream в C++

может ли кто-нибудь сказать мне, есть ли возможный способ ввести пользовательский символ says ซ в файл, ну, я попробовал его, но после ввода его через мою программу и открытия файла я случайно обнаружил, что он преобразован в ascii (VT).

Что я уже пробовал:

вот фрагмент кода, с которым я открываю файл и вводю свой символ:

fstream write_on;
fstream Read_From;
const char *Write_File_Name = "C:\\users\\Username\\Desktop\\pic1.txt";
wchar_t const buf[] = L"ซ";

write_on.open(Write_File_Name, ios::binary | ios::out);
write_on.write(buf, 1);
write_on.close();

спасибо

С++ Источник

Sergey Alexandrovich Kryukov

Ничто на самом деле не "преобразовано". Какая кодировка вам нужна? (Если это Юникод, пожалуйста, не отвечайте "Юникод". Какой UTF?) С Бом или нет? Если спецификации нет, некоторые программы, такие как текстовый редактор, могут "думать", что это ASCII/ANSI, даже если на самом деле это не так. Вам не нужно использовать спецификацию; вы просто не должны доверять каждой части программного обеспечения.

Кстати, зачем иметь символ в PNG-файле?

—СА

Member 11593571

ну, если вы думаете, что это как-то связано с текстовым редактором, то на этот раз я написал символ и прочитал его через свой код, текстовый редактор не нужен, Но все равно никакой разницы, и спасибо за ваш ответ

Sergey Alexandrovich Kryukov

Ладно, это нечто более определенное. Я могу заверить вас, что если вы запишете данные в файл и прочитаете его симметрично, то получите идентичные данные. К сожалению, вы не показали, как вы его читаете. Очень важно, чтобы вы не теряли никаких данных. Вы теряете его из-за размера 1. Это ошибка. См. Решение 1.

Вы должны понимать, что wchar_t зависит от реализации. В Windows, в частности, он ориентирован на символьное представление с использованием UTF-16L. Это означает, что один символ с кодовой точкой в BMP представлен в виде двух байтов, а другие символы используют пару 16-битных слов, называемых суррогатной парой. Итак, символ имел 2 или 4-байтовое представление; ваш случай, если 2 байта.

—СА

2 Ответов

Рейтинг:
8

Jochen Arndt

Я не думаю, что он преобразован в ASCII. Но вы вводите в файл только один байт (Нижний байт вашего широкого символа). Для записи всех символьных байтов используйте:

write_on.write(buf, sizeof(wchar_t));

[РЕДАКТИРОВАТЬ]
См. сомментс. Универсальным решением должно быть:

write_on.write((char*)buf, wcslen(buf) * sizeof(wchar_t));

В вашем примере строка " ซ " записывается в файл одним символом Юникода (тайский символ SO SO). Предполагая, что ваша платформа использует кодировку UTF-16LE для широких символов (например, Windows), кодовая точка Unicode равна 0x0E0B, а содержимое двоичного файла будет 0x0B, за которым последует 0x0E.

При последующем чтении таких файлов вы должны знать, какая кодировка используется. Или более общий: Вы должны знать, как интерпретировать содержимое файла с каждым файлом, который вы хотите прочитать.

Если вы интерпретируете файл как ASCII (или какой-то 8-битный текст), вы будете читать управляющие символы ASCII 0x0B и 0x0E (VT и так далее). Но если вы интерпретируете его как UTF16-LE, вы получите кодовую точку 0x0E0B.
[/РЕДАКТИРОВАТЬ]

Sergey Alexandrovich Kryukov

Это, безусловно, так, но, строго говоря, не в 100% случаях, так что это почти правильно. Поэтому я проголосовал за ответ почти с 5: -).

Единственная недостающая часть-это упоминание о том, что wchar_t зависит от реализации и правильного объяснения этой "широкой" потери. В общем случае wchar_t не всегда является 16-битным, и массив не всегда будет иметь 1 элемент. Ваше решение верно при некоторых предположениях: например, когда подразумеваемая кодировка UTF-16, а wchar_t-16 бит, поэтому 16 бит, необходимых для представления этого конкретного символа, могут быть помещены в одно слово wchar_t.

Дополнительные пояснения см. в решении 2.

—СА

Jochen Arndt

Спасибо, Сергей. Вы правы, я должен был объяснить это более подробно.

Я использовал оператор sizeof (), чтобы учесть, что размер зависит от платформы. Таким образом, мой ответ верен во всех случаях для одного символа (как используется в вопросе). Для нескольких персонажей это конечно так

write_on. write(buf, wcslen(buf) * sizeof(wchar_t));

Sergey Alexandrovich Kryukov

Правильно. Вам лучше добавить этот фактор wcslen (buf) в ваше решение.
—СА

Member 11593571

в первую очередь без типажей баф на (типа char*), он не компилируется, так что я должен был сделать это так: write_on.писать (к(char*)buf с, wcslen(баф) * оператор sizeof(тип wchar_t)); но до сих пор не внес изменения и по-прежнему получать VT и поэтому вместо того, чтобы мой заказной характер.

Jochen Arndt

У вас есть широкая строка, состоящая из одного широкого символа. Предполагая, что ваша платформа использует UTF-16LE (как Windows), кодовая точка Unicode вашего символа равна 0x0E0B (тайский символ SO SO).

Это записывается в файл (он будет записывать значение, ориентированное на байт: 0x0B, за которым следует 0x0E).

Если вы теперь хотите прочитать файл, вы должны знать, как интерпретировать содержимое файла (как и любой файл, который Вы читаете). Если вы интерпретируете содержимое файла как символы ASCII, то увидите управляющие символы SO и VT. Но если вы интерпретируете содержимое как UTF-16LE, то получите символ 0x0E0B.

Поэтому, когда вы хотите вернуть своего персонажа, вы должны написать код, который выполняет обратную операцию:

- Получить размер файла
- Выделить тип wchar_t буфер (размер / оператор sizeof(тип wchar_t)) широкие символы (обычно добавляют один за завершающий нуль)
- Считывание содержимого файла в буфер (двоичный режим)
- Ваш персонаж(ы) вернется в выделенный буфер

Member 11593571

o. k я только что изменил 1 на sizeof(wchar_t), теперь он вводит на один символ больше, чем содержат сами буферные данные, прежде чем я имею в виду write_on. write(buf, 1); он преобразовывал мой пользовательский символ в (VT), но так, как вы сказали, как sizeof (wchar_t), он добавляет (SO) просто так, и именно так я читаю данные.
Read_From.открыть(Read_File_Name, а iOS::бинарные | ОС iOS::в); Read_From.читать(баф, оператор sizeof(буфер buf)); я также попытался Read_From.читать(буфер buf, 1);

Jochen Arndt

Нет никакого обращения.

Wchar_t представляет собой один символ, но содержит 2 или 4 байта в зависимости от реализации (см. ответ Сергея). Поэтому я выбрал sizeof(wchar_t), потому что это будет зависеть от реализации размера wchar_t в байтах.

Функция write записывает некоторое количество байтов из указанного буфера. Параметр buffer имеет тип char*. Но это не значит, что он пишет печатные символы. Он записывает байты.
Видишь http://www.cplusplus.com/reference/ostream/ostream/write/:
"Эта функция просто копирует блок данных, не проверяя его содержимое: Массив может содержать нулевые символы, которые также копируются без остановки процесса копирования."

Рейтинг:
2

Sergey Alexandrovich Kryukov

В дополнение к решению 1:

Пожалуйста, смотрите мой комментарий к этому вопросу.

Вы должны это понять wchar_t является зависеть от реализации В Windows, в частности, он ориентирован на представление символов с использованием UTF-16L, одной из кодировок Unicode. Формально говоря, это не обязательно должна быть какая-то конкретная кодировка; это могут быть просто какие-то произвольные данные заданного размера этого типа. Все зависит от того, как эти данные интерпретируются.

Это означает, что один символ с кодовой точкой в BMP представлен в виде двух байтов, а другие символы используют пару 16-битных слов, называемых суррогатной парой. Итак, символ имел 2 или 4-байтовое представление; ваш случай, если 2 байта, так что вам не нужен массив wchar_t, но в общем случае он вам понадобится. Затем вам нужно будет записать все элементы этого массива в свой файл и прочитать их соответствующим образом.

Смотреть также:
Широкий характер-Википедия, свободная энциклопедия,
BMP (Unicode) - Википедия, свободная энциклопедия,
"Дорожная карта" для БМП,
https://www.gnu.org/software/libunistring/manual/html_node/The-wchar_005ft-mess.html,
Часто задаваемые вопросы-UTF-8, UTF-16, UTF-32 & BOM[^].

Sergey Alexandrovich Kryukov

2 Ответов

Jochen Arndt

Sergey Alexandrovich Kryukov

Jochen Arndt

Sergey Alexandrovich Kryukov

Member 11593571

Jochen Arndt

Member 11593571

Jochen Arndt

Sergey Alexandrovich Kryukov

Member 11593571

Sergey Alexandrovich Kryukov

Member 11593571

Sergey Alexandrovich Kryukov

Member 11593571

Sergey Alexandrovich Kryukov

Member 11593571

Member 11593571

Sergey Alexandrovich Kryukov

Andreas Gieriet

Sergey Alexandrovich Kryukov

Sergey Alexandrovich Kryukov

Категории

Недавние ответы

Изменение источника данных (базы данных) программно

Проблема при попытке вставить данные: ошибка при преобразовании типа данных nvarchar в числовой.

Может ли кто-нибудь, пожалуйста, сказать мне, как я практичен в жизненном цикле страницы .NET

C# get и set ? любая помощь ценится!

Как получить список ip-адресов пользователей, подключенных к моему Wi-Fi