Морфосинтаксическая разметка текстов

В настоящий момент морфологическая разметка корпуса производится вручную студентами кафедры математической лингвистики в рамках учебной филологической практики и представляет собой электронные таблицы, в которых для каждого слова указываются соответствующие ему грамматические характеристики.

В таблице для каждой словоформы предусмотрено 6 позиций для внесения грамматической информации. Число заполняемых позиций и значение каждой позиции зависит от части речи. Выделяется 14 частей речи: существительное, местоимение, прилагательное, числительное, глагол, причастие, инфинитив, супин, наречие, предлог, послелог, союз, частица и междометие.

Для существительного, прилагательного и числительного указывается: часть речи, тип склонения, падеж, число, род. Для числительных, записанных буквенной цифирью, приводится только их числовое значение без грамматического разбора.

Для местоимений:

  1. для личных: часть речи, тип склонения, тип местоимения, лицо, падеж, число;
  2. для возвратных: часть речи, тип склонения, тип местоимения, падеж;
  3. для неличных: часть речи, тип склонения, падеж, число, род.

Для причастий указываются часть речи, тип склонения, время, падеж, число, род.

Для глаголов набор признаков зависит от наклонения, времени и синтаксической роли (для сложных времён).

  1. В изъявительном наклонении:
    1. для аориста и имперфекта: часть речи, наклонение, время, лицо, число;
    2. для простого прошедшего: часть речи, наклонение, время, род, число;
    3. для настоящего-будущего: часть речи, наклонение, время, лицо, число, класс;
    4. в сложных временах:
      1. для связки: часть речи, наклонение, время, лицо, число, роль;
      2. для причастия: часть речи, наклонение, время, род, число, роль;
      3. для инфинитива: часть речи, наклонение, время, роль.
  2. В сослагательном наклонении:
    1. для связки: часть речи, наклонение, лицо, число, роль;
    2. для причастия: часть речи, наклонение, род, число, роль.
  3. В повелительном наклонении указываются часть речи, наклонение, лицо, число, класс.

Для неизменяемых частей речи указывается только частеречная принадлежность.

Часть речи может быть уточнена: после глагольных форм означает возвратность, /ср после прилагательных — сравнительную степень и т. п.


Тексты житий написаны на церковнославянском языке и, с одной стороны, сохраняют архаичные формы, уже вышедшие или выходящие из употребления в древнерусском языке того периода, а с другой стороны, отражают живые языковые процессы, такие как смешение типов склонений существительных, формирование категории одушевленности, утрата двойственного числа, перестройка системы прошедших времен глагола, образование деепричастия и т. д.

В формате грамматической разметки предусмотрена возможность отражения переходных явлений: через косую черту мы приводим ожидаемое значение соответствующей категории (тип склонения, падеж и т. п.) и реально встретившееся в тексте. Например:

  • тип склонения о/u для существительного дѹховъ обозначает, что оно относится к типу склонения на *-ŏ, но имеет окончание типа склонения на *-ŭ;
  • падеж вин/род для существительного игꙋмена показывает, что в значении винительного падежа употреблен родительный, — так проявляется категория одушевленности;
  • род ж/м для причастия бл҃годарꙗ означает, что вместо ожидаемого женского рода причастие стоит в мужском роде, что отражает процесс формирования деепричастия.

С частичной морфологической разметкой одного житийного текста можно ознакомиться по ссылке.

Всего к настоящему моменту полностью размечено 3 жития общим объемом более 30 тыс. словоупотреблений, и это число пополняется. Среди других актуальных задач развития корпуса в этом направлении:

  • разработка модуля лемматизации и его задействование при поиске;
  • интеграция морфологических данных в XML- и веб-представления корпуса,
  • переход от ручной разметки к частично автоматизированной.

Несколько работ за последние годы было посвящено синтаксической разметке корпуса (см. [Михайлова 2012], [Алексеева 2014]), однако окончательный формат в настоящее время находится в разработке.