Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 20, Москва, 2019 г.
Авторы: Китаев Е. Л., Скорнякова Р. Ю.
Скрейпинг «на лету» внешних веб ресурсов, управляемый разметкой HTML страницы
Аннотация:
В работе изложен подход к отображению на веб страницах данных из кросс доменных ресурсов с использованием REST API и описан созданный на основе этого подхода инструмент, позволяющий извлекать и показывать на веб странице метаданные размещенных в интернете html документов, pdf файлов и документов Word, а также микроданные и данные в формате JSON LD. Инструмент включает в себя REST API на веб сервере IIS и скрипты на языке JavaScript. Приведены примеры использования этого инструмента для создания списка организаций, веб страницы с ценами на один и тот же товар в разных интернет магазинах, списка научных статей. Созданный REST API допускает кросс доменный доступ (CORS) и может быть использован при запросах из веб страниц любых доменов.
Ключевые слова:
веб-скрейпинг, микроразметка, семантическая разметка, микроданные, JSON LD, REST API, CORS
Язык публикации: русский,  страниц: 31
Направление исследований:
Программирование, параллельные вычисления, мультимедиа
Полный текст на русском языке:
Экспорт ссылки на публикацию в формате:   RIS    BibTeX
Статистика просмотров (обновляется раз в сутки):
за последние 30 дней — 7 (-3), всего с 01.09.2019 — 1911
Сведения об авторах:
  • Китаев Евгений Львович,  orcid.org/0000-0002-0938-2610ИПМ им. М.В. Келдыша РАН
  • Скорнякова Римма Юрьевна,  orcid.org/0000-0001-7372-3574ИПМ им. М.В. Келдыша РАН