Scientific Library of Tomsk State University

   E-catalog        

Normal view MARC view

Using TXM platform for research on language changes over time: the dynamics of vocabulary and punctuation in Russian literary texts A. M. Lavrentiev, T. Yu. Sherstinova, A. M. Chepovskiy, B. Pincemin

Contributor(s): Lavrentiev, A. M | Sherstinova, T. Yu | Chepovskiy, A. M | Pincemin, BMaterial type: ArticleArticleContent type: Текст Media type: электронный Other title: Использование платформы TXM для исследования изменений языка во времени: динамика словарного состава и пунктуации в русских литературных текстах [Parallel title]Subject(s): стилеметрия | текстометрия | корпусная лингвистика | русская литература | 20 век | словарный состав | пунктуация | диахроническая лингвистика | TXM, комплекс программного обеспеченияGenre/Form: статьи в журналах Online resources: Click here to access online In: Вестник Томского государственного университета. Филология № 70. С. 69-89Abstract: The aim of this article is to test the methodological tools provided by TXM open-source software for research on dynamics of vocabulary and punctuation marks in diachronic corpo-ra. TXM provides both quantitative and qualitative analysis features. It is shown that Russian revolution of 1917 did make significant changes in the core vocabulary of the corpus of Rus-sian Short Stories (1901–1930). The same methodology may be used both for diachronic stu-dies of literature and for various NLP tasks. Цель настоящей статьи – испытать инструменты анализа, которые предоставляет платформа TXM для исследования динамики словарного состава и пунктуации в диа-хронических корпусах текстов. TXM представляет собой комплекс программного обес-печения для количественного и качественного анализа текстов, построенный на принципах прозрачной архитектуры и открытого кода. В статье демонстрируется, как можно использовать платформу для диахронического исследования текстов с учетом внешних факторов, оказывающих влияние на эволюцию языка. Исследование проводилось на Корпусе русских рассказов первой трети XX в. Корпус создавался независимо от TXM с целью отразить максимально широкий спектр произведений русских писателей и слу-жить, таким образом, испытательной площадкой для различных методик математиче-ского анализа текстов. Результаты этого пилотного исследования показывают эффективность использования TXM для исследования динамики развития языка и подтвер-ждают явное влияние диахронического фактора на статистическое распределение тек-стов изучаемого корпуса. Основными методами, использованными в статье, явились анализ соответствий и индекс специфичности, вычислявшиеся на различных разбивках корпуса (по годам, по периодам и индивидуально по текстам) на базе 200 самых частотных лемм (слов и знаков препинания). Использование базовой лексики (включающей служебные слова) и пунктуации позволяет сконцентрироваться на глубинных изменениях языка, абстрагируясь от индивидуальных стилистических факторов. В каче-стве периодов были выделены: мирное время до революции (1901–1913), Первая мировая война (1914–1916), революция и Гражданская война (1917–1922) и постреволюци-онное мирное время (1923–1930). Относительная несбалансированность периодов и размеров отдельных текстов компенсируется методикой статистического анализа. В результате исследования было показано, что наиболее существенные изменения в употреблении базовой лексики и пунктуации происходят сразу после революционного 1917 г. При анализе соответствий периоды располагаются строго в хронологическом порядке по первому измерению факторного плана. В то же время сопоставление перио-дов не выявило четкого противопоставления по признаку мирное / военное время. Анализ специфичности позволил выявить характерные для каждого периода леммы, в том числе местоимения, служебные слова и знаки препинания, которые интуитивно не ассоциируются с изменениями в языке рассматриваемой исторической эпохи. Например, местоимения третьего лица он и она характерны для периода до революции, а частотность точки, тире и двоеточия повышается статистически значимым образом после 1917 г. Представленная методика анализа в дальнейшем может использоваться как для диахронических исследований в литературоведении, так и для решения различных за-дач автоматической обработки текста, направленных на выявление эволюции в лингвистических, стилистических и эмоциональных аспектах под влиянием каких-либо внешних факторов.
Tags from this library: No tags from this library for this title. Log in to add tags.
No physical items for this record

Библиогр.: 45 назв.

The aim of this article is to test the methodological tools provided by TXM open-source software for research on dynamics of vocabulary and punctuation marks in diachronic corpo-ra. TXM provides both quantitative and qualitative analysis features. It is shown that Russian revolution of 1917 did make significant changes in the core vocabulary of the corpus of Rus-sian Short Stories (1901–1930). The same methodology may be used both for diachronic stu-dies of literature and for various NLP tasks. Цель настоящей статьи – испытать инструменты анализа, которые предоставляет платформа TXM для исследования динамики словарного состава и пунктуации в диа-хронических корпусах текстов. TXM представляет собой комплекс программного обес-печения для количественного и качественного анализа текстов, построенный на принципах прозрачной архитектуры и открытого кода. В статье демонстрируется, как можно использовать платформу для диахронического исследования текстов с учетом внешних факторов, оказывающих влияние на эволюцию языка. Исследование проводилось на Корпусе русских рассказов первой трети XX в. Корпус создавался независимо от TXM с целью отразить максимально широкий спектр произведений русских писателей и слу-жить, таким образом, испытательной площадкой для различных методик математиче-ского анализа текстов. Результаты этого пилотного исследования показывают эффективность использования TXM для исследования динамики развития языка и подтвер-ждают явное влияние диахронического фактора на статистическое распределение тек-стов изучаемого корпуса. Основными методами, использованными в статье, явились анализ соответствий и индекс специфичности, вычислявшиеся на различных разбивках корпуса (по годам, по периодам и индивидуально по текстам) на базе 200 самых частотных лемм (слов и знаков препинания). Использование базовой лексики (включающей служебные слова) и пунктуации позволяет сконцентрироваться на глубинных изменениях языка, абстрагируясь от индивидуальных стилистических факторов. В каче-стве периодов были выделены: мирное время до революции (1901–1913), Первая мировая война (1914–1916), революция и Гражданская война (1917–1922) и постреволюци-онное мирное время (1923–1930). Относительная несбалансированность периодов и размеров отдельных текстов компенсируется методикой статистического анализа. В результате исследования было показано, что наиболее существенные изменения в употреблении базовой лексики и пунктуации происходят сразу после революционного 1917 г. При анализе соответствий периоды располагаются строго в хронологическом порядке по первому измерению факторного плана. В то же время сопоставление перио-дов не выявило четкого противопоставления по признаку мирное / военное время. Анализ специфичности позволил выявить характерные для каждого периода леммы, в том числе местоимения, служебные слова и знаки препинания, которые интуитивно не ассоциируются с изменениями в языке рассматриваемой исторической эпохи. Например, местоимения третьего лица он и она характерны для периода до революции, а частотность точки, тире и двоеточия повышается статистически значимым образом после 1917 г. Представленная методика анализа в дальнейшем может использоваться как для диахронических исследований в литературоведении, так и для решения различных за-дач автоматической обработки текста, направленных на выявление эволюции в лингвистических, стилистических и эмоциональных аспектах под влиянием каких-либо внешних факторов.

There are no comments on this title.

to post a comment.
Share