Материал конференции: "Труды Международной конференции по компьютерной графики и зрению "Графикон" (23-26 сентября 2019 г., Брянск)"
Авторы:Кривошеев Н.А., Спицын В.Г.
Методы машинного обучения для классификации текстовой информации
Аннотация:
Рассматривается метод классификации текстовой информации на основе аппарата сверточных нейронных сетей. Приведен алгоритм предобработки текста. Предобработка текста состоит из: лемматизации слов, удаления стоп-слов, обработки символов текста и т.д. Производится пословное преобразование текста в плотные вектора. Тестирование проводится на базе текстовых данных «The 20 Newsgroups». Данная выборка содержит коллекцию примерно из 20 000 новостных документов на английском языке, которая разделена (приблизительно) равномерно между 20 различными категориями. Точность лучшей из применявшихся в данной работе сверточной нейронной сети на тестовой выборке составила ~ 74%. Приведена топология лучшей нейронной сети. Точность голосования нейронных сетей алгоритмом Бэггинга составила ~ 81.5%. На основе проведенного обзора аналогичных решений приведено сравнение со следующими алгоритмами классификации текста: методом опорных векторов (SVM, 82.84%), наивным байесовским классификатором (81%), алгоритмом k ближайших соседей (75.93%), мешком слов.
Ключевые слова:
нейронный сети, Бэггинг, классификация текста, база данных «The 20 Newsgroups»