top of page

Основная информация о корпусе

Особенности корпуса

  • корпус реализуется как бимодальный: звучание синхронизировано с орфографической записью.

  • аннотирование в корпусе 

а) морфологическая разметка на основе Mystem

б) разметка отклонений от речевого стандарта, ОРС, error annotation

  • метаразметка наряду с традиционными характеристиками авторов текстов (возраст, пол, образование), включает многоаспектную характеристику билингвального опыта информанта


Метаразметка осуществляется на основе обработки данных социолингвистического и языкового анкетирования информантов.  При анкетировании в проекте использованы Социолингвистическая анкета  и языковая анкета билингва, являющаяся адаптацией  анкеты  Marian V., Blumenfeld H.K., Kaushanskaya M.


В настоящее время в базе данных корпуса представлены электронные аналоги всех собранных социолингвистических и языковых анкет билингвов.

Текстовый материал корпуса – записи устных интервью информантов, носителей русско-тюркского билингвизма (русско-татарских, русско-шорских, русско-хакасских билингвов), жителей Южной Сибири.


Русский язык занимает различные функциональные позиции, в большинстве записей он является вторым, изучаемым (по самооценкам информантов). Корпус включает три подкорпуса, организуемых на основании своеобразия комбинаций языков – шорско-русское, татаро-русское, хакасско-русское двуязычие.


Записи сделаны в экспедициях  в Шории, Хакасиии, Томской и Новосибирской областях.

База звуковых файлов в настоящее время составляют более 350 часов звучания. 

В всех подкорпусах представлена речь билингвов со сформированной языковой способностью, представителей разных возрастных групп, от 18  до 82 лет. Детская речь не записывалась. 

Записи велись в соответствии с нормами Этического комитета Международного центра исследований развития человека ТГУ, все информанты подписывали листы информированного согласия о конфиденциальности информации. В корпусе тексты представлены как анонимные, данные об информантах хранятся закрытом виде в базе данных корпуса.

Корпус: Текст

Аннотирование ОРС

В файле, доступном для скачивания, представлены примеры помет, используемых для ОРС

Корпус: Текст
bottom of page