ИНТЕРНЕТ-КОРПУСА ФИННО-УГОРСКИХ ЯЗЫКОВ РОССИИ

Тимофей Александрович Архангельский

doi:10.35634/2224-9443-2019-13-3-528-537

Тимофей Александрович Архангельский

DOI: https://doi.org/10.35634/2224-9443-2019-13-3-528-537

Ключевые слова: языковой корпус, корпусная лингвистика, социальные сети, финно-угорские языки, удмуртский, марийский, коми, эрзянский, мокшанский

Аннотация

Электронные языковые корпуса давно стали одним из самых важных инструментов в работе лингвиста и послужили основой для нового методологического направления, известного как корпусная лингвистика. В то время как для крупных европейских финно-угорских языков (венгерского, финского, эстонского) были созданы представительные корпуса, ситуация с финно-угорскими языками России до недавних пор была значительно хуже. В данной статье рассматриваются электронные корпуса, недавно разработанные автором для наиболее крупных финно-угорских языков России: удмуртского, коми-зырянского, лугового марийского, эрзянского и мокшанского. Тексты, доступные в электронном виде в Интернете, были собраны автором и специальным образом обработаны. Для каждого языка было создано два корпуса: корпусов текстов социальных сетей и корпус всех остальных текстов. Оба вида текстов подверглись автоматическому морфологическому анализу; кроме того, тексты из соцсетей прошли дополнительные фильтрацию и анонимизацию. В данной работе будет рассмотрен процесс разработки корпусов и будут описаны их характеристики и возможности применения. Все описанные здесь корпуса снабжены поисковым веб-интерфейсом и являются общедоступными (http://volgakama.web-corpora.net/).

Литература

Векшина М. М. Особенности языка удмуртоязычной блогосферы // Татарское языкознание в контексте Евразийской гуманитарной науки: Материалы Международной научно-практической конференции. Казань, 2016. С. 83–87.

Гаврилова В. Г. Русско-марийское переключение и смешение кодов в интернет-коммуникации // Ежегодник финно-угорских исследований. 2019. Т. 13. № 1. С. 6–13.

Деци А. Эстонские вкрапления в интернет-дискурсе русскоязычных жителей Эстонии // Ежегодник финно-угорских исследований. 2019. Т. 13. № 2. С. 331–342.

Зайдельман Л. Я., Крылова И. В., Орехов Б. В. Технология поиска и сбора в Интернете текстов на малых языках России // Труды Международной научной конференция CPT Институт физико-технической информатики, 2016. С. 179–181.

Зайц Г. Сколько языков нужно эрзе и мокше? // Zur Frage der uralischen Schriftsprachen. Linguistica, Series A, Studia et Dissertationes. Будапешт: Az МТА Nyelvtudományi Intézete, 1995. С. 41–46.

Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М.: Индрик, 2005. С. 111–135.

Мосин М. В. Создавать ли единые литературные языки для уральских народов? // Труды Карельского научного центра РАН. 2014. № 3. С. 76–82.

Орехов Б. В., Решетников К. Ю. К оценке Википедии как лингвистического источника: сравнительное исследование // Современный русский язык в интернете / под ред. Я. Э. Ахапкиной, Е. В. Рахилиной. М.: Языки славянской культуры, 2014. С. 309–321.

Пишлёгер К. Удмуртский язык в социальной сети «ВКонтакте»: Квантитативные и (возможные) квалитативные исследования. Электронная письменность народов Российской Федерации: Опыт, проблемы и перспективы. Сыктывкар: ГОУ ВО КРАСГСиУ, 2017. С. 154–162.

Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. С. 62–88.

Федина М. С. Финно-угорские языки Российской Федерации в электронном информационном пространстве: опыт, проблемы и перспективы // Финно-угорский мир. 2016. Т. 3. № 28. С. 111–121.

Arkhangelskii T. Corpora of social media in minority Uralic languages // Proceedings of the Fifth International Workshop on Computational Linguistics for Uralic Languages. Tartu, Estonia: Association for Computational Linguistics, 2019. С. 125–140.

Arkhangelskii T., Medvedeva M. Developing Morphologically Annotated Corpora for Minority Languages of Russia // Proceedings of Corpus Linguistics Fest 2016. Bloomington, IN. 2016. С. 1–6.

Baldwin T. и др. How Noisy Social Media Text, How Diffrnt Social Media Sources // International Joint Conference on Natural Language Processing. Nagoya, Japan. 2013. С. 356–364.

Biber D. Representativeness in Corpus Design // Literary and Linguistic Computing. 1993. Т. 8, № 4. С. 243–257.

Bick E., Didriksen T. CG-3 – Beyond Classical Constraint Grammar // Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015). Linköping University Electronic Press, 2015. С. 31–39.

Bradley J.mari-language.com: A Rudimentary Corpus Searchable by Syntactic and Morphological Patterns // Proceedings of the First international workshop on computational linguistics for Uralic languages. Septentrio Conference Series. Septentrio Academic Publishing, 2015.

Canvar W. B., Trenkle J. M. N-Gram-Based Text Categorization // Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval. 1994. С. 161–176.

Csendes D., Csirik J., Gyimóthy T. The Szeged Corpus: A POS Tagged and Syntactically Annotated Hungarian Natural Language Corpus // Text, Speech and Dialogue / под ред. Sojka, I. Kopeček, K. Pala. Springer Berlin Heidelberg, 2004. С. 41–47.

Francis W. N., Kučera H. Frequency Analysis of English Usage: Lexicon and Grammar. Boston: Houghton Mifflin, 1982.

Halácsy P. и др. Creating open language resources for Hungarian // LREC 2004 Proceedings. 2004. С. 203–210.

Keresztes L. On the Question of the Mordvinian Literary Language // Zur Frage der uralischen Schriftsprachen. Linguistica, Series A, Studia et Dissertationes / под ред. G. Zaics. Budapest: Az МТА Nyelvtudományi Intézete, 1995. С. 47–55.

Kilgarriff A., Grefenstette G. Introduction to the Special Issue on the Web as Corpus // Computational Linguistics. 2003. Т. 29. № 3. С. 333–347.

Kornai A. Computational linguistics of borderline vital languages in the Uralic family // Proceedings of the Second International Workshop on Computational Linguistics for Uralic Languages. Szeged: 2016.

Leech G. New resources, or just better old ones? The Holy Grail of representativeness // Corpus Linguistics and the Web / под ред. M. Hundt, N. Nesselhauf, C. Biewer. Brill, 2007. С. 133–149.

McEnery T., Hardie A. Corpus linguistics: method, theory and practice. Cambridge: Cambridge University Press, 2011.

Pajzs J. Making Historical Dictionaries with the Computer // Proceedings of EURALEX 2000. 2000. С. 249–259.

Rueter J., Tyers F. Towards an open-source universal-dependency treebank for Erzya // Proceedings of the Fourth International Workshop on Computational Linguistics of Uralic Languages. 2018. С. 106–118.

Scannell K. P. The Crúbadán Project: Corpus building for under-resourced languages // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. 2007. С. 5–15.

Suihkonen P. Documentation of the Computer Corpora of Uralic Languages at the University of Helsinki. Helsinki: Department of General Linguistics, University of Helsinki, 1998.

Váradi T. The linguistic relevance of corpus linguistics // Proceedings of the Corpus Linguistics 2001 Conference. 2001. С. 587–593.

Váradi T. The Hungarian National Corpus // Proceedings of LREC 2002. С. 385–389.