Кластеризация тематической информации в социальных сетях
Аннотация:
Постоянный рост числа пользователей сети Интернет и совершенствование технических возможностей средств связи позволяют использовать различные инструменты для оперативного оповещения населения о событиях, происходящих в мире. В зависимости от типа источника различаются модели распространения информации. При анализе информации необходимо определение взаимосвязи каналов распространения сигнала, определение первоисточника и т. д. В статье исследуется распространение информационных сообщений в открытых сетях с использованием сообщений религиозной тематики с использованием визуальной аналитики. В работе указаны способы идентификации сообщений необходимой тематики, а также визуализация содержания. Для тематического моделирования используется скрытое распределение Дирихле (LDA). Рассмотрена возможность применения различных алгоритмов уменьшения размерности и кластеризации для интерпретации результатов кластеризации. Разработанные методы могут быть масштабированы для анализа информационных событий в различных тематических областях.
Ключевые слова:
кластерный анализ, скрытое распределение Дирихле, K-средние, DBSCAN, HDBSCAN, уменьшение размерности, t-SNE, анализ главных компонентов, религия, Telegram
Язык публикации: английский, страниц:11 (с. 403-413)
Улизко Михаил Сергеевич, mulizko@kaf65.ru, orcid.org/0000-0003-2608-8330, Российский экономический университет им. Г.В. Плеханова; Национальный исследовательский ядерный университет МИФИ