Материал конференции: "Проектирование будущего. Проблемы цифровой реальности: труд 7-й Международной конференции (15-16 февраля 2024 г., Москва)"
Авторы:Громов В.А., Бородин Н.С., Коган А.С., Данг К.Н., Ерболова А.С., Баян Х.
Поймай бота: крупномасштабная структура естественного языка
Аннотация:
В современном мире специальные программы (боты) пишут комментарии, новости, отзывы, которые могут содержать ложную информацию. Вследствие этого крайне важно знать, написан ли тот или иной текст реальным человеком или ботом. Данная работа направлена на исследование семантических траекторий текстов на естественных языках для анализа вышеупомянутой проблемы. В исследовании используются понятия векторных вложений и их n-грамм, а также методы (1) кластеризации семантического пространства, (2) анализа позиции текстов на плоскости «энтропия-сложность», (3) оценки внутренних размерностей векторных представлений языка, (4) топологического анализа данных.
Ключевые слова:
семантические траектории, обработка естественного языка, боты, кластеризация, плоскость «энтропия-сложность», внутренняя размерность, топологический анализ данных