Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Материал конференции: "Труды Международной конференции по компьютерной графики и зрению "Графикон""
Авторы: Кривошеев Н.А., Спицын В.Г.
Методы машинного обучения для классификации текстовой информации
Аннотация:
Рассматривается метод классификации текстовой информации на основе аппарата сверточных нейронных сетей. Приведен алгоритм предобработки текста. Предобработка текста состоит из: лемматизации слов, удаления стоп-слов, обработки символов текста и т.д. Производится пословное преобразование текста в плотные вектора. Тестирование проводится на базе текстовых данных «The 20 Newsgroups». Данная выборка содержит коллекцию примерно из 20 000 новостных документов на английском языке, которая разделена (приблизительно) равномерно между 20 различными категориями. Точность лучшей из применявшихся в данной работе сверточной нейронной сети на тестовой выборке составила ~ 74%. Приведена топология лучшей нейронной сети. Точность голосования нейронных сетей алгоритмом Бэггинга составила ~ 81.5%. На основе проведенного обзора аналогичных решений приведено сравнение со следующими алгоритмами классификации текста: методом опорных векторов (SVM, 82.84%), наивным байесовским классификатором (81%), алгоритмом k ближайших соседей (75.93%), мешком слов.
Ключевые слова:
нейронный сети, Бэггинг, классификация текста, база данных «The 20 Newsgroups»
Язык публикации: русский,  страниц: 4 (с. 266-269)
Полный текст на русском языке: Сведения об авторах:
  • Кривошеев Николай Анатольевич,  ,  Национальный исследовательский Томский политехнический университет
  • Спицын Владимир Григорьевич,  ,  Национальный исследовательский Томский политехнический университет