Scientific Library of Tomsk State University

   E-catalog        

Normal view MARC view

Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций) О. В. Нагель, Б. В. Ли

By: Нагель, Ольга ВасильевнаContributor(s): Ли, Борис ВикторовичMaterial type: ArticleArticleContent type: Текст Media type: электронный Other title: The challenges of automated discourse markers mining: a case study of introductory phrases [Parallel title]Subject(s): дискурсивные маркеры | тексты публичных выступлений | автоматическая идентификацияGenre/Form: статьи в сборниках Online resources: Click here to access online In: Язык и культура : сборник статей XXXIII Международной научной конференции 16-17 ноября 2023 г. С. 276-281Abstract: Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров.
Tags from this library: No tags from this library for this title. Log in to add tags.
No physical items for this record

Библиогр.: 11 назв.

Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров.

There are no comments on this title.

to post a comment.
Share