Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Материал конференции: "Научный сервис в сети Интернет: труды XXI Всероссийской научной конференции (23-28 сентября 2019 г., г. Новороссийск)"
Авторы: Китаев Е.Л., Скорнякова Р.Ю.
StructScraper – инструмент для динамического включения в контент веб-страницы семантических данных внешних веб-ресурсов
Аннотация:
Извлечение данных из Сети (веб-скрейпинг) является популярной и в то же время весьма сложной задачей из-за слабой структурированности документов, размещенных в Сети. Наличие на сайте семантической разметки (микроразметки) упрощает извлечение данных, однако доступные инструменты, применяемые с этой целью, требуют программирования для включения извлеченных данных в контент веб-страницы и к тому же обладают рядом недостатков, делающих их неудобными, если стоит задача включения данных из нескольких источников. Описываемый в данной работе инструмент StructScraper позволяет при загрузке веб-страницы добавлять в ее контент данные разных источников, извлеченные из популярных типов микроразметок: «микроданных» и JSON-LD, а также метаданные, содержащиеся в тегах html-документов и свойствах документов Word и PDF. Его использование не требует программирования – необходимо знание только HTML и CSS. Инструмент может быть полезен при создании страниц с контактными данными организаций, с ценами на один и тот же товар в разных интернет-магазинах, для добавления метаинформации к гиперссылкам и т.п.
Ключевые слова:
семантическая разметка, микроданные, JSON-LD, веб-скрейпинг
Язык публикации: русский,  страниц: 8 (с. 424-431)
Полный текст на русском языке: Сведения об авторах:
  • Китаев Евгений Львович,  orcid.org/0000-0002-0938-2610,  ИПМ им. М.В. Келдыша РАН
  • Скорнякова Римма Юрьевна,  orcid.org/0000-0001-7372-3574,  ИПМ им. М.В. Келдыша РАН