Лаборатория исследования и сохранения малых языков
Коллекция текстов с поморфемной аннотацией в формате FLEx или ELAN (или уже готовый корпус на какой-либо программной платформе)
«Корпуса» — платформа, на которой размещаются языковые корпуса. Проект создается в Лаборатории исследования и сохранения малых языков Института языкознания РАН в рамках разработки сайта «Малые языки России».
Основная часть корпусов представлена на программном решении Tsakorpus, но некоторые корпуса интегрированы напрямую в среду платформы, поскольку существуют на самостоятельных программных решениях. Кроме того, на данный момент некоторые корпуса представлены исходными файлами программы SIL FieldWorks или pdf-файлами. Но авторы проекта работают над их интеграцией в среду и снабжением удобным и интуитивно понятным веб-интерфейсом для работы с ними.
На данный момент доступны корпуса для пяти миноритарных языков России и мира.
Корпус ительменского языка состоит из 15 архивных ительменских текстов, записанных В. И. Иохельсоном в 1910–1911 годах и А. П. Володиным в 1962–1973 годах. Морфологическое аннотирование выполнено К. О. Шейфер, С. К. Ганиевой и М. Р. Плугарёвым. Программная часть разработана Максимом Бажуковым.
В корпус кетского языка входят тексты на трех диалектах кетского языка из мультимедийного архива Лаборатории автоматических лексикографических систем НИВЦ МГУ им. М. В. Ломоносова и Лаборатории исследования и сохранения малых языков ИЯз РАН, записанные в 2002–2014 годах в ходе экспедиций по документации кетского языка под руководством О. А. Казакевич, а также архивные тексты, записанные Г. М. Корсаковым в 1937 году. Морфологическое аннотирование выполнено Ю. Е. Галяминой и Е. М. Будянской.
Материал корпуса горномарийского языка собран коллективом экспедиции под руководством Е. В. Кашкина по изучению горномарийского языка на кафедре Теоретической и прикладной лингвистики филологического факультета МГУ имени М. В. Ломоносова. В состав корпуса также входят тексты В. А. Акцорина и Г. А. Саватеевой. Общий объем текущей версии корпуса составляет 63522 словоупотребления.
В корпус эвенкийского языка входят тексты на северных, южных и восточных диалектах эвенкийского языка из мультимедийного архива Лаборатории автоматических лексикографических систем НИВЦ МГУ им. М. В. Ломоносова и Лаборатории исследования и сохранения малых языков ИЯз РАН, записанные в 1998–2021 годах в ходе экспедиций по документации эвенкийского языка под руководством О. А. Казакевич, а также архивные эвенкийские тексты, записанные Г. М. Василевич в 1930–1950 годы и Е. А. Лебедевой в 1950–1960 годы Морфологическое аннотирование выполнено в основном Е. Л. Клячко при участии Н. К. Митрофановой.
Корпус языка куллуи создан научным коллективом, занимающимся документацией индоарийского языка куллуи (штат Химачал-Прадеш, Индия), в составе Ренковской Е. А. (ИЯз РАН), Мазуровой Ю. В. (ИЯз РАН) и Крыловой А. С. (ИВ РАН). Программная часть корпуса разработана Е. В. Коровиной (ИЯз РАН). На данный момент в корпус входят спонтанно порожденные, а также элицитированные тексты на центральном диалекте куллуи, записанные в 2014–2017 годах в ходе экспедиций в округ Куллу (в деревни Наггар, Башинг, Тхава, Сума).
Планируется развитие общей среды для отдельных корпусов и интеграция их в эту среду, а также расширение функционала корпусов, в том числе синхронизация выдачи с аудиоформатом, возможность просмотра текста целиком и другие. Проект «Малые языки России» открыт к сотрудничеству и готов принимать материалы для размещения на своей платформе.