Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 32, Москва, 2017 г.
Авторы: Орлов Ю. Н., Шилин С.А.
Статистическое распознавание языка текста по частоте буквосочетаний
Аннотация:
Исследуются статистические свойства текстов, написанных на языках индоевропейской семьи, с целью разработки индикаторов распознавания языка или языковой группы. В качестве индикаторов рассматриваются: показатель Херста для некоторой специальной статистики, показывающей однородность звучания текста; частоты наиболее употребляемых буквосочетаний в текстах на разных европейских языках; эталонные распределения n-грамм. Точность бинарного распознавания была достигнута на уровне 0,99.
Ключевые слова:
частоты буквосочетаний, распознавание языка текста
Язык публикации: русский,  страниц: 21
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 11 (-10), всего с 01.09.2019 — 720
Сведения об авторах:
  • Орлов Юрий Николаевич,  orcid.org/0000-0002-1356-5137ИПМ им. М.В. Келдыша РАН
  • Шилин Сергей Анатольевич,  ,  МФТИ