Научная библиотека ТГУ catalog › Details for: Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций)

Normal view MARC view

Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций) О. В. Нагель, Б. В. Ли

By: Нагель, Ольга Васильевна Contributor(s): Ли, Борис Викторович Material type: Article

ArticleContent type: Текст Media type: электронный Other title: The challenges of automated discourse markers mining: a case study of introductory phrases [Parallel title]Subject(s): дискурсивные маркеры | тексты публичных выступлений | автоматическая идентификацияGenre/Form: статьи в сборниках Online resources: Click here to access online In: Язык и культура : сборник статей XXXIII Международной научной конференции 16-17 ноября 2023 г. С. 276-281Abstract: Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров.

Tags from this library: No tags from this library for this title. Log in to add tags.

Holdings ( 0 )
Title notes ( 2 )
Comments ( 0 )

No physical items for this record

Библиогр.: 11 назв.

Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров.

There are no comments on this title.

to post a comment.

Print
Add to your cart (remove)
Suggest for purchase
Save record
BIBTEX Dublin Core ISBD MARCXML RIS
More searches

Search for this title in:
Ebsco Discovery Google Scholar

Scientific Library of Tomsk State University

E-catalog

Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций) О. В. Нагель, Б. В. Ли