Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 43, Москва, 2022 г.
Авторы: Воронина М.Ю., Кислицын А.А., Орлов Ю.Н.
Построение двухфакторных паттернов в задаче классификации текстов
Аннотация:
Построены двухфакторные паттерны эмпирических распределений частот биграмм для машинной классификации текстов по авторам и тематике. Атрибуты текста распознаются методом ближайшего соседа применительно к эталонным распределениям. Близость между распределениями понимается в смысле нормы в L1. Пара «автор-тема» неизвестного текста определяется как такая, к эталонному распределению которой тестируемый текст находится ближе всего. Анализируется проблема распознавания автора безотносительно темы текста и темы безотносительно автора. Исследуются также возможности укрупнения и детализации классификационных признаков.
Ключевые слова:
машинная классификация, текст, распределение биграмм, спектральный портрет, кластеризация
Язык публикации: русский,  страниц: 24
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 10 (+5), всего с 21.07.2022 — 30
Сведения об авторах:
  • Воронина Мария Юрьевна,  orcid.org/0000-0002-2542-8914ИПМ им. М.В. Келдыша РАН
  • Кислицын Алексей Алексеевич,  orcid.org/0000-0003-2388-0496ИПМ им. М.В. Келдыша РАН
  • Орлов Юрий Николаевич,  orcid.org/0000-0002-1356-5137ИПМ им. М.В. Келдыша РАН