Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций) О. В. Нагель, Б. В. Ли
Material type:![Article](/opac-tmpl/lib/famfamfam/AR.png)
Библиогр.: 11 назв.
Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров.
There are no comments on this title.