StructScraper – инструмент для динамического включения в контент веб-страницы семантических данных внешних веб-ресурсов
Аннотация:
Извлечение данных из Сети (веб-скрейпинг) является популярной и в то же время весьма сложной задачей из-за слабой структурированности документов, размещенных в Сети. Наличие на сайте семантической разметки (микроразметки) упрощает извлечение данных, однако доступные инструменты, применяемые с этой целью, требуют программирования для включения извлеченных данных в контент веб-страницы и к тому же обладают рядом недостатков, делающих их неудобными, если стоит задача включения данных из нескольких источников. Описываемый в данной работе инструмент StructScraper позволяет при загрузке веб-страницы добавлять в ее контент данные разных источников, извлеченные из популярных типов микроразметок: «микроданных» и JSON-LD, а также метаданные, содержащиеся в тегах html-документов и свойствах документов Word и PDF. Его использование не требует программирования – необходимо знание только HTML и CSS. Инструмент может быть полезен при создании страниц с контактными данными организаций, с ценами на один и тот же товар в разных интернет-магазинах, для добавления метаинформации к гиперссылкам и т.п.