Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования эрмита.
Аннотация:
В данной работе рассматривается метод распознавания речи/дикторов на основе представления речевой информации в виде потока двухмерных частотно-временных векторов. Классификация векторов осуществляется нейронной сетью, на вход к которой поступают низкочастотные двумерные вейвлет-преобразования участков спектрограмм. Исходными представлениями звука являются сонограммы краткосрочного преобразования Фурье и адаптивного преобразования Эрмита. Проведено сравнение этих представлений в задачах диктор-независимого распознавания речи и контекстно-независимого распознавания диктора.