Разработка конвертера препринтов ИПМ из формата .docx в форматы HTML и JATS XML
Аннотация:
Наряду с традиционной формой электронного представления полных текстов научных статей – форматом PDF – в последние годы получил широкое распространение формат HTML, обладающий для онлайн-публикаций рядом преимуществ за счет имеющихся в нем средств для лучшей структуризации материала, вставки мультимедийного контента и реализации разного рода интерактивных и динамических возможностей. Наиболее распространенным подходом к формированию HTML-версии статьи является предварительное создание ее XML-версии в соответствии с разработанным в США стандартом JATS XML, который помимо основы для создания HTML- и PDF-версий, является также стандартом для обмена содержимым статей и его хранения. Однако конвертация в этот формат набранных в наиболее распространенных форматах .docx и LaTeX научных статей со сложным содержимым, включающим большое количество формул, таблиц и рисунков, является непростой задачей и имеющиеся программные средства либо не справляются с ней в полном объеме, либо обходятся довольно дорого. В работе предложен подход к созданию конвертера научных статей из формата .docx в форматы HTML и JATS XML с использованием инструмента с открытым исходным кодом Mammoth и описан созданный на основании этого подхода прототип конвертера препринтов ИПМ в HTML с последующим преобразованием в JATS XML.