Материал конференции: "Научный сервис в сети Интернет: труды XXI Всероссийской научной конференции (23-28 сентября 2019 г., г. Новороссийск)"
Авторы:Апанович З.В.
Сопоставление авторов и публикаций в разноязычных библиографических базах знаний
Аннотация:
Задача кросс-языкового сопоставления авторов и публикаций является частным случаем задачи присваивания уникального идентификатора одной и той же сущности реального мира в разноязычных источниках данных. В данной работе представлены результаты экспериментов с несколькими версиями системы сопоставления авторов и публикаций в англоязычном источнике на основе русскоязычного источника данных. В этих версиях системы тестировались различные эвристики, поэтому в данной работе рассматриваются те из них, которые давали наилучшие результаты. Важным элементом системы является интерактивная визуализация, представляющая информацию о распределении публикаций по авторам, показывающая распределение каждой группы публикаций по соавторам и годам публикации, а также предоставляющая возможность редактирования результатов анализа. Система визуализации дополнена методами упорядочения матриц смежностей. Эксперименты с реализованной системой показали, что основным источником повышения качества алгоритма устранения неоднозначностей является расширение множества подтвержденных публикаций. Подходы, используемые в данной системе, применимы для решения задачи связывания именованных сущностей в различных разноязычных источниках данных.
Ключевые слова:
разноязычные базы знаний, кросс-языковое сопоставление авторов и публикаций, связывание сущностей, интерактивная визуализация, кластеризация