О влиянии синтаксической структуры предложения на его векторизацию с использованием модели Bert
Аннотация:
Эксперименты показывают, что векторизация Bert отражает синтаксическую структуру предложения. В данной работы мы провели эксперименты по определению косинусной меры сходства между векторами Bert для слов, занимающих в предложении близкие позиции. Эксперименты показали, что векторизация Bert зависит от количества синтаксических составляющих, которые завершаются или начинаются между этими словами — с увеличением числа составляющих косинусное сходство падает. Более значительный эффект достигается для синтаксических составляющих, которые завершились между этими словами. При увеличении расстояния между словами до промежутка в три слова косинусное сходство также падает. Вообще, Bert присваивает словам в тексте близкие векторы, косинусное сходство которых выше 0,6. Для Word2Vec, которая формирует векторы без учета контекста, подобное поведение не характерно.
Ключевые слова:
Модель Bert, векторное представление слов, синтаксический анализ, составляющие