Материал конференции: "Труды Международной конференции по компьютерной графике и зрению "Графикон" (19-21 сентября 2022 г., Рязань)"
Авторы:Макарова Е.А., Лагерев Д.Г.
Использование визуальных моделей для разведочного анализа слабоструктурированных текстовых данных
Аннотация:
Обработка слабоструктурированных текстовых данных с целью дальнейшего использования в моделях ИАД – трудоемкий процесс, который, помимо материальных затрат, может увеличить время, которое требуется на построение модели, и, как следствие, ухудшить оперативность принятия решений. В данной статье представлены визуальные модели слабоструктурированных текстовых данных и методы их обработки на этапе разведочного анализа. Разведочный анализ позволит сократить время на выбор значимых переменных на начальном этапе исследования и, в дальнейшем, избежать обработки излишних или незначительных. Использование визуализации поможет включить в модель ИАД и обработать только те данные, которые повысят её качество. Описан процесс использование визуализации текстовых данных в процессе разведочного анализа и построения двух типов визуальных моделей – интерактивная «количественная» визуализация и визуализация связей между словами и другими переменными в исследуемых данных. Описана апробация разработанных моделей на примере анализа рынка труда. Представлены примеры визуализации содержимого поля «гибкие навыки» из резюме соискателей и вакансий, отображающие как наиболее часто упоминаемые соискателями из различных профессиональных областей навыки, так и влияние упоминания этих навыков на приглашения соискателей на собеседования. Проведенный эксперимент показал, что использование разработанных визуальных моделей позволяет определить, нужно ли включать текстовую переменную в модель ИАД на этапе разведочного анализа.
Ключевые слова:
Обработка естественного языка, визуализация данных, разведочный анализ данных, коэффициент корреляции, анализ рынка труда
Язык публикации: русский, страниц:12 (с. 1090-1101)