Базовый многоязычный самолет (БМП)– частьУниверсального набора символовс кодовыми точками в диапазоне U-0000–U-FFFF. Наиболее часто используемые символы UCS лежат в этой плоскости, включая все западные, кириллические, еврейские, тайские, арабские и CJK символы. Однако есть много символов, которые лежат за пределами BMP, и они абсолютно необходимы для правильной поддержки восточноазиатских языков.
КодТочка– уникальное число, представляющее собой «характер» в Универсальном наборе символов. Точки кода лежат в диапазоне 0-0x10FFFF и обычно отображаются как U+XXXX или U+XXXXXX, где X представляет собой шестнадцатеричную цифру.
Коллекция– порядок сортировки текста, обычно алфавитный. Он может различаться между языками и странами, даже для одних и тех же символов.
Кодирование— представление набора символов. Некоторые кодировки способны представлять полный диапазон UCS, как UTF-8, а другие могут представлять только его подмножество; ISO-8859-8 представляет только небольшое подмножество из примерно 250 символов UCS. Кодирование без кода по-прежнему очень популярно, например, кодирование на латинском языке-1 (или ISO-8859-1) охватывает большинство символов для западноевропейских языков и значительно упрощает обработку текста для приложений, предназначенных для обработки только таких языков. Для повышения. Вы должны предоставить восьмибитное (std::string) кодирование в качестве части названия локализации, напримерen_US.UTF-8илиhe_IL.cp1255.UTF-8рекомендуется.
Facet— илиstd::locale::facet– базовый класс, из которого происходит каждый объект, описывающий конкретную локализацию. Аспекты могут быть добавлены в местность для предоставления дополнительной информации о культуре.
Форматирование— представление различных значений по локальным предпочтениям. Например, число 1234.5 (представление C) должно отображаться как 1234.5 в США и 1.234,5 в России. Дата 1 ноября 2005 года будет представлена как 11/01/2005 в Соединенных Штатах и 01.11.2005 в России. Это важная часть локализации. Например: "Вы должны принести 134 230 кг риса на 04/01/2010" означает "134 тонны риса на первое апреля" или "134 кг 230 г риса на 4 января"? Это совсем другое.
Получить текст- библиотека локализации GNU, используемая для форматирования сообщений. Сегодня это стандартная библиотека локализации в мире Open Source. Повышаю. Форматирование локальных сообщений полностью построено на каталогах Gettext.
Locale— набор параметров, определяющих конкретные предпочтения пользователей в разных культурах. Он обычно определяется языком, страной, вариантами и кодированием и предоставляет информацию, такую как: порядок сопоставления, форматирование даты, форматирование сообщений, форматирование чисел и многие другие. В C++ локальная информация представлена классомstd::locale.
СообщениеФорматирование– представление строк пользовательского интерфейса на языке пользователя. Процесс перевода строк пользовательского интерфейса обычно выполняется с использованием словаря, предоставленного переводчиком программы.
СообщениеДомен– вgettextтермины, ключевое слово, представляющее каталог сообщений. Обычно это название приложения. Когдаполучить тексти увеличить. Локальный поиск по определенному каталогу сообщений, они ищут в указанном пути файл, названный в честь домена.
Нормализация— нормализация Unicode — процесс преобразования строк в стандартную форму, подходящую для обработки и сравнения текста. Например, символ «ü» может быть представлен одной кодовой точкой или комбинацией символа «u» и diaeresis «?». Нормализация является важной частью обработки текста Unicode. Нормализация не зависит от локализации, но поскольку она является важной частью обработки Unicode, она включена в Boost. Местная библиотека.
UCS-2— кодировка Unicode с фиксированной шириной, способная представлять только кодовые точки вБазовом многоязычном плане (BMP). Это устаревшая кодировка и не рекомендуется для использования.
Unicode&ndash — отраслевой стандарт, определяющий представление и манипулирование текстом, подходящим для большинства языков и стран. Его не следует путать суниверсальным набором символов, это гораздо более крупный стандарт, который также определяет алгоритмы, такие как двунаправленный порядок отображения, арабская форма и т. Д.
Универсальный набор символов (UCS)— международный стандарт, определяющий набор символов для многих сценариев и ихкодточки.
UTF-8— формат преобразования Unicode с переменной шириной. Каждая точка кода UCS представлена в виде последовательности от 1 до 4 октетов, которую можно легко отличить. Он включает ASCII в качестве подмножества. Он является самым популярным кодированием Unicode для веб-приложений, передачи и хранения данных и фактически стандартным кодированием для большинства операционных систем POSIX.
UTF-16— формат преобразования Unicode с переменной шириной. Каждая точка кода UCS представляет собой последовательность из одного или двух 16-битных слов. Это очень популярная кодировка для таких платформ, как Win32 API, Java, C#, Python и т. Д. Однако его часто путают с кодированием фиксированной шириныUCS-2, которое может представлять только символы в. Базовый многоязычный самолет (БМП). Это кодирование используется дляstd::wstringпод платформой Win32, гдеsizeof(wchar_t)==2.
UTF-32/UCS-4— формат преобразования Unicode с фиксированной шириной, где каждая точка кода представлена в виде одного 32-битного слова. Он имеет преимущество простого представления точки кода, но расточителен с точки зрения использования памяти. Он используется дляstd::wstringкодирования для большинства платформ POSIX, гдеsizeof(wchar_t)==4.
Складка- это процесс преобразования текста в независимое представление дела. Например, в случае складывания слова «Grüßen» является «grüssen» - где буква «ß» представлена в случае независимой формы как «ss».
Титульное дело— преобразование текста, где слова капитализируются. Например, «Hello World» переводится как «Hello World»
Статья Boost.Locale: Glossary раздела может быть полезна для разработчиков на c++ и boost.
Материалы статей собраны из открытых источников, владелец сайта не претендует на авторство. Там где авторство установить не удалось, материал подаётся без имени автора. В случае если Вы считаете, что Ваши права нарушены, пожалуйста, свяжитесь с владельцем сайта.