User manual . Boost , The Boost C++ Libraries BoostBook Documentation Subset , Chapter 22. Boost.Metaparse

См.парсерразделссылкидля объяснения того, что парсер.

The input of the parsers

Парсеры берут<string>в качестве ввода, который представляет собой строку для шаблонных метапрограмм. Например, строку<"Hello World!">можно определить следующим образом:

string<'H','e','l','l','o',' ','W','o','r','l','d','!'>

Этот синтаксис затрудняет чтение входных парсеров. Metaparse работает с компиляторами, использующими C++98, но вход парсеров должен быть определен так, как описано выше.

На основе<constexpr>, функции, предоставляемой C++11, Metaparse предоставляет макрос,<BOOST_METAPARSE_STRING>для определения струн:

BOOST_METAPARSE_STRING("Hello World!")

Это также определяет<string>, однако это легче читать. Максимальная длина строки, которую можно определить таким образом, ограничена, однако этот предел настраивается. Он определяется макро<BOOST_METAPARSE_LIMIT_STRING_SIZE>.

Source positions

Положение источника описывается с использованием структуры данных компиляции-времени. Для его запроса могут использоваться следующие функции:

Начало ввода<start>, которое требует<<boost/metaparse/start.hpp>>быть включенным.

Error handling

Ошибка описывается с использованием структуры данных компиляции времени. В ней содержится информация о местоположении источника, где была обнаружена ошибка, и некотороеописаниеоб ошибке.<debug_parsing_error>может использоваться для отображения сообщения об ошибке. Metaparse предоставляет макрос<BOOST_METAPARSE_DEFINE_ERROR>для определения простогопарсинга сообщения об ошибке.

Some examples of simple parsers

Парсер, который ничего не анализирует и всегда преуспевает<return_>.
Вечно не срабатывает парсер<fail>.
Парсер, который анализирует один символ и возвращает парсированный символ в результате<one_char>.

Combining parsers

Сложные парсеры могут быть построены путем объединения простых парсеров. Библиотека парсеров содержит ряд парсерных комбинаторов, которые строят новые парсеры из уже существующих.

<accept_when><<Parser,Predicate,RejectErrorMsg>>является парсером.<Parser>Для того, чтобы сделать вывод. Когда<Parser>отклоняет вход, комбинатор возвращает ошибку<Parser>. Когда<Parser>успешно, комбинатор проверяет результат с помощью<Predicate>. Если предикат возвращается истинным, комбинатор принимает ввод, в противном случае он генерирует ошибку с сообщением<RejectErrorMsg>.

Имея<accept_when>,<one_char>можно использовать для создания парсеров, которые принимают только цифровые символы, только белые пространства и т. д. Например,<digit>принимает только цифровые символы:

typedef
  boost::metaparse::accept_when<
    boost::metaparse::one_char,
    boost::metaparse::util::is_digit,
    boost::metaparse::errors::digit_expected
  >
  digit;

Sequence

Результатом успешного разбора является некоторое значение и оставшаяся строка, которая не была разобрана. Оставшаяся строка может быть обработана другим парсером. Библиотека парсера предоставляет комбинатор парсера<sequence>, который принимает ряд парсеров в качестве аргументов и строит из них новый парсер, который:

Парсирует вход с помощью первого парсера
Если парсинг увенчается успехом, он парсирует оставшуюся строку со вторым парсером.
Он продолжает применять парсеры в порядке, пока они преуспевают.
Если все они увенчались успехом, то список результатов возвращается.
Если какой-либо из парсеров терпит неудачу, комбинатор также терпит неудачу и возвращает ошибку, с которой вернулся первый неудачный парсер.

Repetition

Introducing foldl
Introducing foldr
Introducing foldl_start_with_parser
Introducing foldr_start_with_parser
Introducing foldl_reject_incomplete_start_with_parser
Finding the right folding parser combinator

Общепринято разбирать список вещей неизвестной длины. В качестве примера начнём с чего-то простого: текст — это список чисел. Например:

11 13 3 21

Мы хотим, чтобы результат анализа был суммой этих ценностей. Метапарс дает парсер<int_>, который мы можем использовать для разбора одного из этих чисел. Метапарс предоставляет комбинатор<token>для потребления белых пространств после числа. Итак, следующий парсер анализирует одно число и белые пространства после него:

using int_token = token<int_>;

Результатом разбора является упакованное целое число: значение парсированного числа. Например, разбор<BOOST_METAPARSE_STRING><("13 ")>дает<boost::mpl::int_<13>>в результате.

Примером ввода является список чисел. Каждое число может быть разбито на<int_token>:

Эта диаграмма показывает, как повторное приложение<int_token>может анализировать пример ввода. Метапарс предоставляет парсер<repeated>для легкой реализации этого. Результатом разбора является список типов: список отдельных чисел.

Эта диаграмма показывает, как<repeated><<int_token>>работает. Он многократно использует<int_token>парсер и строит<boost::mpl::vector>из результатов, которые он предоставляет.

Но нам нужна их сумма, поэтому нужно подвести итог. Мы можем сделать это, завернув наш парсер<repeated><<int_token>><transform>. Это дает нам возможность указать функцию, преобразующую этот список типов в какое-то другое значение — сумму элементов в нашем случае. Сначала давайте проигнорируем, как суммировать элементы вектора. Допустим, что оно может быть реализовано лямбда-выражением и использовать<boost::mpl::lambda<...>::type>, представляя это лямбда-выражение. Вот пример использования<transform>и этого выражения лямбда:

using sum_parser =
  transform<
    repeated<int_token>,
    boost::mpl::lambda<...>::type
  >;

<transform><<>>парсерный комбинатор обертывает<repeated><<int_token>>, чтобы построить парсер, который нам нужен. Вот диаграмма, показывающая, как это работает:

Как показано на диаграмме,<transform><<><repeated><<int_token>, ...>>парсер парсирует вход с использованием<repeated><<int_token>>, а затем выполняет некоторую обработку по результату парсинга.

Давайте реализуем недостающее выражение лямбда, которое говорит<transform>, как изменить результат, исходящий от<repeated><<int_token>>. Мы можем суммировать цифры в списке типов с помощью Boost.<fold>или<accumulate>. Вот пример того, как это делается:

using sum_op = mpl::lambda<mpl::plus<mpl::_1, mpl::_2>>::type;
using sum_parser =
  transform<
    repeated<int_token>,
    mpl::lambda<
      mpl::fold<mpl::_1, mpl::int_<0>, sum_op>
    >::type
  >;

Вот расширенная версия приведенной выше диаграммы, показывающая, что здесь происходит:

Этот пример анализирует вход, строит список чисел, а затем зацикливается на нем и суммирует значения. Он начинается со второго аргумента<fold>,<int_<0>>и добавляет каждый пункт списка чисел (который является результатом парсера<repeated><<int_token>>) по одному.

Note

Обратите внимание, что<transform>обертывает другой парсер,<repeated><<int_token>>здесь. Он парсирует вход с этим парсером, получает результат этого парсинга и изменяет результат.<transform>сам будет парсером, возвращающим этот обновленный результат.

Introducing foldl

Он работает, однако, это довольно неэффективно: он имеет петлю, анализирующую целые числа один за другим, создавая список типов, а затем он петляет по этому списку типов, чтобы суммировать результат. Использование шаблонных метапрограмм в ваших приложениях может оказать серьезное влияние на использование памяти компилятора и скорость компиляции, поэтому я рекомендую быть осторожным с этими вещами.

Metaparse предлагает более эффективные способы достижения того же результата. Вам не нужны два цикла: вы можете объединить их вместе и добавить каждое число в резюме сразу после его разбора. Метапарс предлагает<foldl>для этого.

<foldl>Вы указываете:

Парсер для разбора отдельных элементов списка (что в нашем примере<int_token>)
начальное значение, используемое для складывания (которое в нашем примере<int_<0>>)
форвардная операция, объединившая полученный нами до сих пор субрезультат, и значение последнего применения парсера (в нашем примере это было<sum_op>).

Наш парсер может быть реализован таким образом:

using better_sum_parser = foldl<int_token, mpl::int_<0>, sum_op>;

Как видите, реализация парсера более компактна. Вот диаграмма, показывающая, что происходит, когда вы используете этот парсер для анализа некоторых входных данных:

Как видите, не только реализация парсера более компактна, но и достигает того же результата, делая меньше. Он анализирует вход, применяя<int_token>многократно, как и предыдущее решение. Но он дает конечный результат без составления списка типов в качестве внутреннего шага. Вот как это работает внутри:

Он суммирует результаты повторного применения<int_token>с использованием<sum_op>. Эта реализация более эффективна. Он принимает пустую строку как действительный вход: сумма его<0>. Это может быть полезно для вас, и в этом случае вы готовы. Если вы не хотите принимать его, вы можете использовать<foldl1>вместо<foldl>. То же самое, но он отвергает пустой вход. (Метапарс предлагает<repeated1>также, если вы выбираете первый подход и хотите отклонить пустую строку)

Introducing foldr

	Note
	Обратите внимание, что если вы читаете это руководство впервые, вы, вероятно, хотите пропустить этот раздел и продолжитьВведение foldl_start_with_parser

Возможно, вы заметили, что Metaparse предлагает<foldr>. Разница между<foldl>и<foldr>— это направление, в котором резюмируются результаты.<l>означаетслеваи<r>означаетсправа. Вот диаграмма, показывающая, как работает<better_sum_parser>, если он реализован с использованием<foldr>:

Как вы можете видеть, это очень похоже на использование<foldl>, но результаты, полученные из отдельных приложений<int_token>, суммируются в порядке справа налево. Поскольку<sum_op>является дополнением, это не влияет на конечный результат, но в других случаях это может повлиять.

	Note
	Обратите внимание, что реализация<`foldl`>более эффективна, чем<`foldr`>. Предпочитают<`foldl`>, когда это возможно.

Как и следовало ожидать, Metaparse также предлагает<foldr1>, который складывается справа и отклоняет пустой вход.

Introducing foldl_start_with_parser

Давайте изменим грамматику нашего маленького языка. Вместо списка чисел, давайте предположим, что числа разделены символом<+>. Наш примерный вклад становится следующим:

BOOST_METAPARSE_STRING("11 + 13 + 3 + 21")

Сопоставить его с<foldl>или<repeated>трудно: перед каждым элементомдолжен быть<+>символ, за исключениемпервого. Ни одна из уже введенных конструкций повторения не предлагает способа обработки первого элемента по-другому.

Если мы на мгновение забудем о первом числе, остальная часть ввода будет<"+ 13 + 3 + 21">. Это можно легко разобрать на<foldl>(или<repeated>):

using plus_token = token<lit_c<'+'>>;
using plus_int = last_of<plus_token, int_token>;
using sum_parser2 = foldl<plus_int, int_<0>, sum_op>;

Он использует<plus_int>, то есть<last_of><<plus_token,int_token>>в качестве парсера, который используется неоднократно для получения чисел. Он делает следующее:

Использует<plus_token>для разбора<+>символа и любого белого пространства, которое может следовать за ним.
<int_token>Для определения числа
Объединяет вышеупомянутые два с<last_of>, чтобы использовать оба парсера в порядке и сохранить только результат использования второго (результат разбора символа<+>отбрасывается — нам все равно).

Таким образом<last_of><<plus_token,int_token>>возвращает значение числа в результате разбора, как это делал наш предыдущий парсер<int_token>. Из-за этого он может быть использован в качестве замены 263 в предыдущем примере, и мы получаем парсер для нашего обновленного языка. По крайней мере, для всех, кроме первого.

Этот<foldl>не может разобрать первый элемент, потому что он ожидает символ<+>перед каждым числом. Вы можете подумать о том, чтобы сделать символ<+>необязательным в приведенном выше подходе. Это позволяет парсеру принимать<"11 + 13 3 21">, а символ<+>теперь является необязательнымповсюду.

То, что вы могли бы сделать, это сравнять первый элемент с<int_token>, остальные элементы с вышеупомянутым<foldl>-решением и добавить результат из двух. Это остается упражнением для читателя.

Metaparse предлагает<foldl_start_with_parser>реализовать это.<foldl_start_with_parser>то же, что<foldl>. Разница в том, что вместо начального значения для объединения элементов списка с ним требуетсяначальный парсер:

using plus_token = token<lit_c<'+'>>;
using plus_int = last_of<plus_token, int_token>;
using sum_parser3 = foldl_start_with_parser<plus_int, int_token, sum_op>;

<foldl_start_with_parser>начинается с применения этого начального парсера и использует результат, который он возвращает в качестве начального значения для складывания. Это то же самое, что<foldl>после этого. На следующей диаграмме показано, как его можно использовать для разбора списка чисел, разделенных символами<+>:

Как показано на диаграмме, он начинает разбор списка чисел с<int_token>, использует его значение в качестве начального значения для складывания (ранее подходы использовали значение<int_<0>>в качестве этого начального значения). Затем он анализирует все элементы списка, используя<plus_int>несколько раз.

Introducing foldr_start_with_parser

	Note
	Обратите внимание, что если вы читаете это руководство впервые, вы, вероятно, хотите пропустить этот раздел и попробовать создать парсеры, используя<`foldl_start_with_parser`>.

<foldl_start_with_parser>имеет своюот правойпары,<foldr_start_with_parser>. Он использует те же элементы, что и<foldl_start_with_parser>, но в другом порядке. Вот парсер для нашего примера языка, реализованного с<foldr_start_with_parser>:

using plus_token = token<lit_c<'+'>>;
using int_plus = first_of<int_token, plus_token>;
using sum_parser4 = foldr_start_with_parser<int_plus, int_token, sum_op>;

Обратите внимание, что он использует<int_plus>вместо<plus_int>. Это связано с тем, что парсер, из которого исходное значение складывания исходит, используется после того, как<int_plus>разобрал вход столько раз, сколько мог. Это может показаться странным в первый раз, но следующая диаграмма должна помочь вам понять, как это работает:

Как вы можете видеть, он начинается с парсера, который применяется многократно на входе, поэтому вместо многократного разбора<plus_token int_token>нам нужно многократно разбирать<int_tokenplus_token>. За последним числом не следует<+>, поэтому<int_plus>не может его разобрать и он останавливает итерацию.<foldr_start_with_parser>затем использует другой парсер<int_token>для разбора ввода. Он преуспевает, и результат, который он возвращает, используется в качестве начального значения для складывания справа.

	Note
	Обратите внимание, что, как следует из вышеприведенного описания, реализация<`foldl_start_with_parser`>более эффективна, чем<`foldr_start_with_parser`>.

Introducing foldl_reject_incomplete_start_with_parser

Используя парсер, построенный с помощью<foldl_start_with_parser>, мы можем анализировать вход, когда вход правильный. Однако это не всегда так. Рассмотрим, например, следующие данные:

BOOST_METAPARSE_STRING("11 + 13 + 3 + 21 +")

Это некорректное выражение. Однако, если мы разберем его с помощью парсера<foldl_start_with_parser>на основе, представленного ранее<sum_parser3>, он принимает вход и результат<48>. Это связано с тем, что<foldl_start_with_parser>анализирует входдо тех пор, пока он может. Он разбирает первые<int_token><11>, а затем начинает разбирать<plus_int>элементы<+13>,<+3>,<+21>. Проанализировав все это, он пытается разобрать оставшийся<" +">вход, используя<plus_int>, который выходит из строя и, следовательно,<foldl_start_with_parser>останавливается после<+21>.

Проблема в том, что парсер анализирует самое длинное подвыражение, начиная с самого начала, что представляет собой действительное выражение. Остальное игнорируется. Парсер может быть обернут<entire_input>, чтобы в конце отклонить выражения с недействительными дополнительными символами, однако это не сделает сообщение об ошибке полезным.<entire_input>может только сказать автору недействительного выражения, что после<+ 21>что-то не так.

Метапарс предоставляет<foldl_reject_incomplete_start_with_parser>, который делает то же самое, что<foldl_start_with_parser>, за исключением того, что, как только дальнейшие повторения не найдены, он проверяет, гдеповторяющийся парсер (в нашем примере<plus_int>) выходит из строя. Когда он может сделать какой-либо прогресс (например, он находит символ<+>), то<foldl_reject_incomplete_start_with_parser>предполагает, что автор выражения намеревался сделать повторение более длинным, но сделал ошибку и распространяет сообщение об ошибке, исходящее из этого последнего нарушенного выражения.

На рисунке показано, как<foldl_reject_incomplete_start_with_parser>разбирает пример недействительного ввода и как он выходит из строя. Это может быть использовано для лучшего сообщения об ошибках от парсеров.

Другие складные парсеры также имеют свою версию<f>(например,<foldr_reject_incomplete>,<foldl_reject_incomplete1>и т. Д.).

Finding the right folding parser combinator

Как вы могли заметить, существует множество различных складных парсерных комбинаторов. Чтобы помочь вам найти правильный, используется следующая конвенция именования:

Note

Заметим, что нет<foldr_reject_incomplete_start_with_parser>. В<p>варианте правильно складывающихся парсеров применяется специальный парсер, результатом которого является начальное значение, после повторных элементов. Следовательно, когда парсерный анализ одного повторяющегося элемента терпит неудачу,<foldr_start_with_parser>будет применять этот специальный конечный парсер вместо проверки того, как парсер повторяющегося элемента потерпел неудачу.

What can be built from a compile-time string?

Парсеры, построенные с использованием Metaparse, представляют собой шаблонные метапрограммы, анализирующие текст (или код) во время компиляции. Вот список вещей, которые могут быть «результатом» анализа:

Атип. Примером для этого является парсерный анализ строки формата<printf>и возврат списка типов (например,<boost::mpl::vector>) ожидаемых аргументов.
Апостоянное значение. Примером тому служит язык калькулятора. См. разделНачалодля более подробной информации.
объект времени выполнения. Можно создать статический объект времени выполнения, который можно использовать во время выполнения. Примером этого является разбор регулярных выражений во время компиляции и построение<boost::xpressive::sregex>объектов. Рассмотрим<regex>пример Метапарса.
Функция C++, которую можно назвать во время выполнения. Можно создать функцию C++, которую можно вызвать во время выполнения. Он хорош для генерации нативного (и оптимизированного) кода из EDSL. См.<compile_to_native_code>пример Метапарса в качестве примера для этого.
Акласс метафункций шаблона. Результатом разбора может быть тип, который является классом метафункций шаблона. Это хорошо для создания EDSL для метапрограммирования шаблонов. См.<meta_hs>пример Метапарса в качестве примера для этого.

Grammars

Metaparse предоставляет способ определения грамматики в синтаксисе, который напоминает EBNF. Шаблон<grammar>может использоваться для определения грамматики. Его можно использовать следующим образом:

grammar<BOOST_METAPARSE_STRING("plus_exp")>
  ::import<BOOST_METAPARSE_STRING("int_token"), token<int_>>::type
  ::rule<BOOST_METAPARSE_STRING("ws ::= (' ' | '\n' | '\r' | '\t')*")>::type
  ::rule<BOOST_METAPARSE_STRING("plus_token ::= '+' ws"), front<_1>>::type
  ::rule<BOOST_METAPARSE_STRING("plus_exp ::= int_token (plus_token int_token)*"), plus_action>::type

Приведенный выше код определяет парсер из определения грамматики. Символом начала грамматики является<plus_exp>. Линии, начинающиеся с<::rule>, определяют правила. Правила необязательно имеют семантическое действие, которое представляет собой класс метафункций, преобразующий результат разбора после применения правила. Существующие парсеры могут быть привязаны к именам и использоваться в правилах путем их импорта. Линии, начинающиеся с<::import>, связывают существующие парсеры с именами.

Результатом определения грамматики является парсер, который может быть предоставлен другим парсерным комбинаторам или использоваться непосредственно. Учитывая, что грамматики могут импортировать существующие парсеры и создавать новые, они также являются парсерными комбинаторами.

Parsing based on `constexpr`

Metaparse основан на шаблонном метапрограммировании, однако C++11 предоставляет<constexpr>, который также можно использовать для разбора во время компиляции. В то время как реализация парсеров на основе<constexpr>проще для разработчика C++, поскольку его синтаксис напоминает обычный синтаксис языка, результат разбора должен быть<constexpr>значением. Парсеры на основе шаблонного метапрограммирования могут строить типы в результате парсинга. Эти типы могут быть упакованными<constexpr>значениями, но могут быть классами метафункций, классами со статическими функциями, которые можно назвать во время выполнения и т.д.

Когда парсер, построенный с помощью Metaparse, нуждается в подпарсере для обработки части входного текста и генерации значения<constexpr>в результате парсинга, можно реализовать подпарсер на основе функций<constexpr>. Метапарс может быть интегрирован с ними и поднять их результаты в C++ шаблон метапрограммирования. Пример, демонстрирующий эту особенность, можно найти среди примеров<constexpr_parser>. Эта возможность позволяет интегрировать Metaparse с библиотеками анализа на основе<constexpr>.

What types of grammars can be used?

Можно писать парсеры дляконтекстных свободных грамматикс помощью Metaparse. Однако это не самая общая категория грамматик, которую можно использовать. Поскольку Метапарс является очень расширяемой структурой, неясно, что следует считать пределом самого Метапарса. Например, Metaparse предоставляет<accept_when>парсерный комбинатор. Он может использоваться для предоставления произвольных предикатов для включения/отключения конкретного правила. Можно зайти так далеко, что предоставить машине Тьюринга (какметафункция) всю грамматику в качестве предиката, так что можно построить парсеры длянеограниченных грамматик, которые можно анализировать с помощью машины Тьюринга. Обратите внимание, что такой парсер не будет считаться парсером, построенным с помощью Metaparse, однако неясно, как далеко может зайти решение и все еще рассматриваться с использованием Metaparse.

Метапарс предполагает, что парсеры являютсядетерминированными, поскольку они имеют только «один» результат. Конечно, можно написать парсеры и комбинаторы, которые возвращают набор (или список или какой-либо другой контейнер) результатов в качестве этого «одного» результата, но это можно рассматривать как создание новой библиотеки парсера. Нет четкой границы для метапарса.

Метапарс поддерживает построениенисходящих парсеровилевая рекурсияне поддерживается, так как это привело бы к бесконечной рекурсии.Поддерживается правая рекурсия, однако в большинстве случаевитеративные парсерные комбинаторыобеспечивают лучшие альтернативы.

Статья User manual раздела The Boost C++ Libraries BoostBook Documentation Subset Chapter 22. Boost.Metaparse может быть полезна для разработчиков на c++ и boost.