Материал конференции: "Труды Международной конференции по компьютерной графике и зрению "Графикон" (19-21 сентября 2023 г., Москва)"
Авторы:Макарова Е.А., Лагерев Д.Г.
Использование интерактивной визуализации в задаче извлечения признаков из слабоструктурированных текстовых данных
Аннотация:
В статье рассматриваются визуализации слабоструктурированных текстовых данных (ССТД) с целью решения задач разведочного анализа и построения модели обработки текстовых данных для их дальнейшего использования в моделях анализа данных. Рассмотрены проблемы, с которыми сталкиваются исследователи при добавлении ССТД в модель анализа данных. Рассмотрены существующие подходы к визуализации текстовых данных для решения различных задач обработки естественного языка. Предложена модель интеллектуальной обработки ССТД и подходы к трансформации данных в процессе обработки. Для визуализации процесса трансформации ССТД применяется визуальная модель, использующая диаграммы Санкей. Предложенная визуальная модель позволяет сократить время эксперта на обработку данных, благодаря повышению наглядности процесса извлечения признаков из ССТД и использованию интерактивных визуальных инструментов. Разработанный подход апробирован на данных, полученных из информационной системы службы занятости населения.
Ключевые слова:
Обработка текстовых данных, разведочный анализ, визуализация, диаграмма Санкей