Unicode and Boost.Regex . Boost , Boost.Regex 5.1.2 , Boost.Regex 5.1.2

Unicode and Boost.Regex

Существует два способа использования Boost. Regex с Unicode строками:

Если тип<wchar_t>вашей платформы может содержать строки Unicode, а время выполнения вашей платформы C/C++ правильно обрабатывает широкие константы символов (при переходе на<std::iswspace><std::iswlower>и т. д.), то вы можете использовать<boost::wregex>для обработки Unicode. Однако есть несколько недостатков этого подхода:

Это не портативно: нет никакой гарантии на ширину<wchar_t>, или даже то, относится ли время выполнения к широким символам как Unicode вообще, большинство компиляторов Windows делают это, но многие системы Unix этого не делают.
Нет поддержки для классов символов Unicode:<[[:Nd:]]>,<[[:Po:]]>и т.д.
Вы можете искать только строки, которые закодированы как последовательности широких символов, на многих платформах невозможно искать UTF-8 или даже UTF-16.

Use a Unicode Aware Regular Expression Type.

Если у вас естьбиблиотека ICU, тогда укрепите. Regex может бытьсконфигурирован, чтобы использовать его, и обеспечить отдельный тип регулярного выражения (boost::u32regex), который поддерживает как свойства Unicode, так и поиск текста, который кодируется в UTF-8, UTF-16 или UTF-32. Смотри:Поддержка струнных классов ICU.

Статья Unicode and Boost.Regex раздела Boost.Regex 5.1.2 Boost.Regex 5.1.2 может быть полезна для разработчиков на c++ и boost.

Unicode and Boost.Regex

Boost , Boost.Regex 5.1.2 , Boost.Regex 5.1.2

Boost C++ Libraries

Unicode and Boost.Regex

Rely on wchar_t

Use a Unicode Aware Regular Expression Type.