Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 20, Москва, 2019 г.
Авторы: Китаев Е.Л., Скорнякова Р.Ю.
Скрейпинг «на лету» внешних веб ресурсов, управляемый разметкой HTML страницы
Аннотация:
В работе изложен подход к отображению на веб страницах данных из кросс доменных ресурсов с использованием REST API и описан созданный на основе этого подхода инструмент, позволяющий извлекать и показывать на веб странице метаданные размещенных в интернете html документов, pdf файлов и документов Word, а также микроданные и данные в формате JSON LD. Инструмент включает в себя REST API на веб сервере IIS и скрипты на языке JavaScript. Приведены примеры использования этого инструмента для создания списка организаций, веб страницы с ценами на один и тот же товар в разных интернет магазинах, списка научных статей. Созданный REST API допускает кросс доменный доступ (CORS) и может быть использован при запросах из веб страниц любых доменов.
Ключевые слова:
веб-скрейпинг, микроразметка, семантическая разметка, микроданные, JSON LD, REST API, CORS
Язык публикации: русский, страниц: 31
Направление исследований:
Программирование, параллельные вычисления, мультимедиа
Полный текст на русском языке: Сведения об авторах:
  • Китаев Евгений Львович,  orcid.org/0000-0002-0938-2610,  ИПМ им. М.В. Келдыша РАН
  • Скорнякова Римма Юрьевна,  ,  ИПМ им. М.В. Келдыша РАН