Основная информация о корпусе
Особенности корпуса
корпус реализуется как бимодальный: звучание синхронизировано с орфографической записью.
аннотирование в корпусе
а) морфологическая разметка на основе Mystem
б) разметка отклонений от речевого стандарта, ОРС, error annotation
метаразметка наряду с традиционными характеристиками авторов текстов (возраст, пол, образование), включает многоаспектную характеристику билингвального опыта информанта
Метаразметка осуществляется на основе обработки данных социолингвистического и языкового анкетирования информантов. При анкетировании в проекте использованы Социолингвистическая анкета и языковая анкета билингва, являющаяся адаптацией анкеты Marian V., Blumenfeld H.K., Kaushanskaya M.
В настоящее время в базе данных корпуса представлены электронные аналоги всех собранных социолингвистических и языковых анкет билингвов.
Текстовый материал корпуса – записи устных интервью информантов, носителей русско-тюркского билингвизма (русско-татарских, русско-шорских, русско-хакасских билингвов), жителей Южной Сибири.
Русский язык занимает различные функциональные позиции, в большинстве записей он является вторым, изучаемым (по самооценкам информантов). Корпус включает три подкорпуса, организуемых на основании своеобразия комбинаций языков – шорско-русское, татаро-русское, хакасско-русское двуязычие.
Записи сделаны в экспедициях в Шории, Хакасиии, Томской и Новосибирской областях.
База звуковых файлов в настоящее время составляют более 350 часов звучания.
В всех подкорпусах представлена речь билингвов со сформированной языковой способностью, представителей разных возрастных групп, от 18 до 82 лет. Детская речь не записывалась.
Записи велись в соответствии с нормами Этического комитета Международного центра исследований развития человека ТГУ, все информанты подписывали листы информированного согласия о конфиденциальности информации. В корпусе тексты представлены как анонимные, данные об информантах хранятся закрытом виде в базе данных корпуса.