Роман Янгарбер
- Синтаксический парсер (можно разработать с командой Ревиты)
- Морфологический анализатор (можно разработать с командой Ревиты)
- Изначальная библиотека текстов (файлы в текстовом формате)
- Грамматические правила (в определенной форме, разработанной для автоматических механизмов Ревиты)
- Лексикон (лемма, часть речи и другая информация в формате xml, json или csv)
- Специалист (носитель-консультант, или эксперт по языку высокого уровня)
- Программист (может быть из команды Ревиты)
- Финансирование
Это обучающая платформа, позволяющая работать с текстами (как из библиотеки, так и своими). Она предназначена для тех, кто уже владеет языком на достаточном уровне (чтение текстов со словарем, базовое знание грамматики). На данный момент открыты полные версии для финского и русского языков [Катинская и др. 2020] и бета-версии для каталанского, китайского, французского, немецкого, итальянского, казахского, португальского, испанского, шведского, турецкого, северносаамского, а также для языков России: эрзянского, коми-зырянского, лугового марийского, якутского [Ivanova et al. 2019], татарского и удмуртского. Ревита задумывалась как проект по развитию и поддержке миноритарных языков, в особенности финно-угорских [Katinskaia and Yangarber 2018]. В настоящее время платформа развивается как инструмент для овладения иностранными языками в целом. Однако, наработанные технологии и механизмы впоследствии можно будет применить и к малоресурсным языкам.
Платформа разрабатывается в Лаборатории изучения языков Хельсинкского университета. Руководитель проекта — Роман Янгарбер, доцент кафедры цифровых гуманитарных наук Хельсинкского университета.
Ревита представляет собой уникальную платформу. С одной стороны, она закрывает лакуну в обучающих инструментах, предназначенных для уже владеющих языком на уровне CEFR A1 и выше. С другой стороны, Ревита позволяет работать с подгружаемыми пользователями текстами, а не с ограниченной библиотекой, собранной разработчиками. Таким образом, овладевающий языком может выбирать интересные и актуальные для него материалы. Одной из ключевых особенностей платформы является глубокая персонализация: новые упражнения с текстами генерируются с учетом предыдущих результатов учащегося. Упражнения адаптируются таким образом, чтобы учащийся мог отрабатывать темы, вызывающие сложности лично у него, но при этом уровень трудности не должен быть слишком высоким. Кроме того, учащийся и педагог могут отслеживать прогресс в обучении. В профиле пользователь может отслеживать на какие грамматические темы он выполнил задания и насколько успешно. Платформа позволяет преподавателям объединять зарегистрированных учеников в группы, для доступа к общему набору текстов и отслеживания прогресса [Stoyanova et al. 2021].
Платформа предоставляет следующие возможности работы с текстом [Katinskaia et al. 2018]:
- заполнение пропусков в тексте (поставить слово в нужную форму, записать по произнесению, выбрать из вариантов, в форме кроссворда);
- работа с лексическими карточками (слово — перевод).
Учебный материал создается автоматически с использованием искусственного интеллекта, языковых технологий, прикладной лингвистики и науки о данных в образовании. Для каждого языка прописываются грамматические правила, разбитые по категориям, а также составляется лексикон. Подгружаемые пользователями тексты разбираются с помощью автоматического морфоанализатора [Копотев и др. 2019]. На основе разметки и грамматики генерируются упражнения. Искусственный интеллект подключается на этапе отслеживания прогресса обучения и адаптации предлагаемых ученику упражнений. Кроме того, к платформе подключен внешний сервис Яндекса SpeechKit, преобразующий текст в речь, так что пользователь может прослушать любое слово из текста. Ведется работа над тем, чтобы читались фразы и далее весь текст целиком. Для разных языков эти возможности сейчас представлены в разной степени. Например, для русского можно выбрать перевод на один из 16 языков, есть произнесение не только лексического входа, но и словоформы из текста. А для коми-зырянского есть только перевод на русский язык. Дело в том, что некоторые из сложных функций платформы работают, только если имеется большое количество языковых данных, которые нужны для разработки более надежных языковых моделей. Поиск достаточного количества данных может быть проблематичным для малоресурсных языков, что ограничивает возможности обучающей платформы.
Ревита не представлена сейчас в формате приложения, но платформа адаптирована для мобильных устройств. Например, система может предлагать упражнения с выбором из нескольких вариантов ответа, если ввод текста с клавиатуры невозможен.
Подробную и актуальную информацию о платформе можно найти на странице проекта на сайте Хельсинского университета: Revita: Language learning and AI | University of Helsinki.