Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 53, Москва, 2024 г.
Авторы: Чайников Ю.С., Судаков В.А.
Об оценках интегрального риска предиктора липшицевых функций в моделях машинного обучения
Аннотация:
Несбалансированность классов в доступных обучающих выборках при решении задач машинного обучения в большинстве практических случаев затрудняет тренировку предикторов, эффективно обобщающих закономерности обучающего датасета на генеральную совокупность. В работе исследованы теоретические основания эффективности добавления в обучающую выборку синтетических данных. В оценке общего риска выделено два типа ошибок: ошибка репрезентации и ошибка уклонения. Сформулированы практические рекомендации по созданию синтетических выборок, уклоняющихся в своем распределении от репрезентативных по плотности распределения аргумента, с более частыми сэмплами в тех областях, где плотность распределения аргумента имеет относительно малые значения, что ведет к уменьшению размера соответствующих ячеек Вороного и уменьшению вклада ошибки уклонения в общий риск.
Ключевые слова:
синтетические данные, машинное обучение, ячейки Вороного, предиктор, обучающая выборка, общий риск, эмпирический риск, ошибка репрезентации, ошибка уклонения
Язык публикации: русский,  страниц: 12
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 10 (-15), всего с 12.08.2024 — 47
Сведения об авторах:
  • Чайников Юрий Сергеевич,  orcid.org/0009-0000-0720-5189Московский авиационный институт
  • Судаков Владимир Анатольевич,  orcid.org/0000-0002-1658-1941ИПМ им. М.В. Келдыша РАН