В рамках данной статьи рассматриваются современные метрики оценивания генеративных моделей. Особое внимание уделяется метрикам, которые применяются в области обработки естественного языка – BLUE (оценивает качество на основе сравнения полученного результата моделью и человека), NIST (основана на метрике BLUE), METEOR (основана на гармоническом среднем униграмм точности и полноты), ROUGE (. В статье представлена новая метрика, которая основана на субъективных оценках. Используемые в рассмотренной метрике субъективные оценки собираются с помощью попарного сравнения в виде шкал оценивания. Также в рамках статьи предложен алгоритм генерации музыки, построенный на основе автоматных моделей работы с ABC-нотацией, моделей дистрибутивной семантики и генеративных моделей глубоких нейронных сетей – Трансформеров. Новая метрика качества (SS-метрика), представленная в статье, применяется для оценки качества предложенного алгоритма генерации музыки в сравнении с решениями, которые предлагает человек и baselineмодели. Генерация музыки на основе baseline-модели строит продолжение музыкального фрагмента путем случайного выбора тактов из первой половины музыкального фрагмента. В ходе экспериментов удалось выяснить, что SS-метрика позволяет формализовать и обобщить субъективные оценки, это может быть использовано при оценке качества различных объектов.
Ключевые слова:
метрика, генеративные модели, анализ объектов сложной структуры, SS-метрика, генерация музыки, машинное обучение