Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 16, Москва, 2024 г.
Авторы: Кислицына М.Ю., Орлов Ю.Н.
Распределение порядковых частот согласных букв как инвариант языковой группы
Аннотация:
Собрана статистика распределения частот согласных букв в основных современных языках индоевропейской семьи. Изучались распределения упорядоченных по убыванию частот, построенные на основе анализа литературных текстов длиной порядка 1 млн знаков. Показано, что можно ввести инвариант языковых групп – германской, романской, славянской и балтийской – как расстояние между элементами группы в норме L1. Пороговое расстояние, при котором языки объединяются в группы как полносвязные подграфы, равен 0,14. Показано также, что структуры графа ближних и дальних соседей соответствует модели зависимых случайных величин.
Ключевые слова:
машинная классификация, предобработка текстов, распределение упорядоченных частот, граф ближайших соседей
Язык публикации: русский,  страниц: 18
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 4 (-1), всего с 07.03.2024 — 80
Сведения об авторах:
  • Кислицына Мария Юрьевна,  orcid.org/0000-0002-2542-8914ИПМ им. М.В. Келдыша РАН
  • Орлов Юрий Николаевич,  orcid.org/0000-0002-1356-5137ИПМ им. М.В. Келдыша РАН