Перейти к основному содержанию
База практик ревитализации Состояние языков России Задокументированность языков России Языковые онлайн-инструменты

Платформа ЛингвоДок

Тип ресурса
🧱 Платформа
Сфера ресурса
Документация
Функционал
Архив
Словарь
Анализ языковых данных
Контакты
Что для этого нужно

Языковые материалы в каком-либо цифровом формате (docx, xlsx, eaf, textgrid, wav, mp3, flac и др.)

Для кого
лингвисты
языковые активисты
педагоги
Главная страница платформы ЛингвоДок
Главная страница платформы ЛингвоДок

Это платформа для хранения и анализа языковых материалов, которая позволяет работать над ними нескольким пользователям одновременно. Кроме того, в ее функционал входит создание учебных материалов из текстовых корпусов. На платформе выложены словари, в том числе озвученные, и корпуса текстов на многих языках России, в особенности уральских и алтайских. ЛингвоДок постоянно развивается и расширяет свой функционал, а языковые базы данных постоянно пополняются новыми материалами.

Платформа разрабатывается коллективом Лаборатории “Лингвистические платформы” ИСП РАН им. В. П. Иванникова под руководством д.ф.н. Ю. В. Норманской.

Ключевыми особенностями платформы ЛингвоДок являются возможности совместной работы с архивами и лингвистического анализа языковых данных [Дыбо, Норманская 2021]. В ЛингвоДок создано 13 программ для анализа языковых данных с фонетической, морфологической и этимологической точек зрения (хотя только 4 из них доступны для всех пользователей системы). Подобный анализ ранее выполнялся вручную лингвистами, а система позволяет сделать это гораздо быстрее.

Система поддерживает и позволяет просматривать и обрабатывать следующие типы данных: текст, изображение, звук (wav, mp3 и flac), разметка (форматы ELAN и Praat). На платформе пользователи могут создавать многослойные словари, прикреплять их к географической карте, снабжать их метаданными, делиться доступом к словарям с другими пользователями. Система позволяет пользователям задавать структуру словаря, включая в словарную статью необходимые в каждом случае типы информации: аудиофайл с произнесением слова, транскрипцию, написание в орфографии языка, диалектные пометы, этимологические сведения и другие. Кроме того, каждый аудиофайл можно соотнести с его анализом средствами программного обеспечения Praat. Инструменты работы со словарями позволяют формировать по загруженным данным инвентарь фонем, получать результаты анализа спектрограмм в различных форматах, измерять степень сходства фонетических систем по разным языковым материалам [Kosheliuk 2021bKosheliuk 2021dNormanskaya et al. 2018Normanskaja et al. 2022]. Словарные статьи в разных словарях при необходимости можно связывать друг с другом, через функцию “когнаты” [Kosheliuk 2021e]. Такие связи между словарями позволяют с помощью автоматических алгоритмов выявлять в онлайн режиме фонетическое сходство языков, употребление тех или иных морфологических параметров в определенном значении. Кроме того, загружая и пополняя словари, можно автоматически проверять и удалять возможные дубликаты словарных статей.

Что касается текстов, система обеспечивает хранение, просмотр и обработку корпусов в формате программного обеспечения ELAN [Kosheliuk 2021cНорманская 2022]. На материале словарей и корпусов можно строить карты фонетических, морфологических или лексических изоглосс в синхронии и диахронии [Kosheliuk 2021a].

В последнее время в рамках сотрудничества с различными республиканскими ВУЗами на платформе ЛингвоДок создаются глоссированные корпуса со снятой омонимией на башкирском, якутском, мордовских и удмуртском языках, которые в будущем лягут в основу обучающих платформ. В планах у создателей сформировать обучающую среду, в которой будет возможно создание большого количества упражнений для любого уровня владения языком (в том числе, что немаловажно, для уровня владения выше среднего) [Норманская 2021]. Упражнения не будут повторяться и будут предлагаться пользователю с учетом его индивидуального прогресса в изучении языка. Учителя также смогут зарегистрироваться в системе, чтобы отслеживать статистику по своим ученикам.

На платформе ЛингвоДок реализована система с различными уровнями доступа к данным [Kosheliuk 2021f]. Размещенные материалы могут быть доступны только определенным зарегистрированным пользователям или любому посетителю ресурса, в том числе с возможностью скачивания данных. При этом создатель словаря или корпуса может давать коллегам различный набор возможностей редактировать данные и проект.

Авторы проекта регулярно проводят курсы повышения квалификации «Возможности платформы ЛингвоДок для описания языков народов России». Участники курсов имеют возможность на основе функционала ЛингвоДока проанализировать свой языковой материал и получить готовые результаты. Кроме того, на сайте ЛингвоДока есть целый раздел с большим количеством обучающих материалов (https://github.com/ispras/lingvodoc-react/wiki). Пользователи также могут получить оперативную техподдержку через мессенджер Telegram.