РОЛЬ ПРОГРАММЫ ПРОВЕРКИ УДМУРТСКОЙ ОРФОГРАФИИ В ПОПОЛНЕНИИ НАЦИОНАЛЬНОГО КОРПУСА УДМУРТСКОГО ЯЗЫКА

  • Мария Петровна Безенова
    • Удмуртский институт истории, языка и литературы УдмФИЦ УрО РАН
  • Григорий Леонидович Григорьев
    • Лаборатория машинного обучения и обработки «больших» данных производственных киберсистем УдмФИЦ УрО РАН
Ключевые слова: корпусная лингвистика, корпус текстов, удмуртский язык, национальный корпус, возможности и перспективы корпуса, проверка орфографии

Аннотация

Корпусная лингвистика - на данный момент один из самых популярных разделов языкознания. Большинство крупных языков мира сегодня уже имеет свои электронные корпуса объемом в десятки и сотни миллионов словоупотреблений. В последнее время созданию корпусов текстов на языках народов России также уделяется особое внимание, поскольку, с одной стороны, корпусные исследования позволяют взглянуть на устройство языка с совершенно иного ракурса; с другой стороны, корпус - это своеобразная форма сохранения языковых данных. В статье описывается Национальный корпус удмуртского языка (Удмурт йӧскалык кылшыкыс), который разрабатывается с конца 2019 года сотрудниками отдела филологических исследований Удмуртского института истории, языка и литературы УдмФИЦ УрО РАН. Подробно говорится о возможностях создаваемой информационно-справочной системы на данный момент, а также о перспективах использования корпуса текстов при проведении исследований, подготовке словарей и создании различных программ по удмуртскому языку. В статье идет речь также о программе проверки удмуртской орфографии на основе Hunspell, разработанной Григорием Григорьевым, которая играет немаловажную роль в пополнении Национального корпуса удмуртского языка. Перед загрузкой на сайт новых текстов все они подвергаются обязательной проверке на наличие орфографических ошибок, которые могли остаться при их вычитке. Данное расширение для текстовых редакторов, благодаря словарной базе, связанной с файлом аффиксов, в котором заложены по возможности все морфологические варианты лексем основного словаря, выявляет орфографические ошибки, позволяя загружать на сайт Национального корпуса удмуртского языка максимально выверенные тексты.

Литература

1. Алатырев В. И. Вопросы удмуртского языкознания. Т. 1. Ижевск, 1959. 213 с.
2. Архангельский Т. А. Интернет-корпуса финно-угорских языков России // Ежегодник финно-угорских исследований. 2019. Т. 13. Вып. 3. С. 528-537.
3. ГСУЯ - Грамматика современного удмуртского языка: фонетика и морфология / Удм. НИИ ист., экон., яз. и лит.; отв. ред. П. Н. Перевощиков. Ижевск, 1962. 376 с.
4. Ефремов Д. А. Удмурт кылын каронкыллэн управлениез сярысь // Вестн. Удм. ун-та. Сер. История и филология. 2009. Вып. 1. С. 43-54.
5. Ефремов Д. А. О послеложном управлении в удмуртском языке // Вестн. Удм. ун-та. Сер. История и филология. 2013. Вып. 2. С. 8-15.
6. Жевнерович Е. Э. Корпус текстов в научном исследовании // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития: Материалы II Международной научно-практической конференции. Минск, 2018. С. 25-32.
7. Загуляева Б. Ш. Прошедшее длительное и прошедшее многократное время глаголов в удмуртском языке // Вопросы фонетики и грамматики удмуртского языка: Сборник статей / Науч.-исслед. ин-т при Совете Министров Удмурт. АССР; отв. ред. В. М. Вахрушев, В. К. Кельмаков. Устинов, 1986. С. 62-70.
8. Копотев М. Введение в корпусную лингвистику. Прага, 2014. (Электронное учебное пособие).
9. Насибуллин Р. Ш. О некоторых аналитических формах глагола в удмуртском языке // Вопросы грамматики удмуртского языка: Сборник статей / НИИ при Сов. Мин. Удмурт. АССР; отв. ред. В. М. Вахрушев. Ижевск, 1984. С. 38-44.
10. РУС I - Русско-удмуртский словарь: В 2 т. Более 55 000 слов. Т. 1 (А-О) / Л. М. Ившин, С. А. Максимов, О. В. Титова, Л. Е. Кириллова, Л. Л. Карпова, Т. Р. Душенкова, А. В. Егоров, А. А. Шибанов; отв. ред. Л. М. Ившин; УдмФИЦ УрО РАН. Ижевск, 2019. 936 с.
11. РУС II - Русско-удмуртский словарь: В 2 т. Более 55 000 слов. Т. 2 (П-Я) / Л. М. Ившин, С. А. Максимов, О. В. Титова, Л. Е. Кириллова, Л. Л. Карпова, Т. Р. Душенкова, А. В. Егоров, А. А. Шибанов; отв. ред. Л. М. Ившин; УдмФИЦ УрО РАН. Ижевск, 2019. 1016 с.
12. УРС - Удмуртско-русский словарь: Около 50 000 слов / Сост. Т. Р. Душенкова, А. В. Егоров, Л. М. Ившин и др.; отв. ред. Л. Е. Кириллова. Ижевск, 2008. 925 с.
13. Forta B. Sams Teach Yourself Regular Expressions in 10 Minutes. Indianapolis, 2004. 192 p.
14. Hunspell [Эл. ресурс]. URL: https://en.wikipedia.org/wiki/Hunspell (Дата обращения: 10.04.2020).
15. McEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. Cambridge, 2012. 312 p.
16. Munkácsi B. A votják nyelv szótára. Budapest, 1896. VXI + 758 l.
17. Wichmann Y. Wotjakischer Wortschatz / Aufgezeichnet von Yrjӧ Wichmann. Bearbeitet von T. E. Uotila, Mikko Korhonen. Herausgegeben von Mikko Korhonen. Helsinki, 1987. 421 S.
Поступила в редакцию 2020-04-04
Опубликована 2020-10-02
Раздел
Инновации и технологии
Страницы
549-556