paragraphs don't come in with tags
We have a Word doc we're ingesting in Kotahi that's not behaving as it should be – there's a list of maybe 100 citations at the end of the doc (all are regular paragraphs), and the first 15 come in correctly, then the last 85 all as a single paragraph. I ran the document through http://pdf2html.cloud68.co to see what XSweet was doing and noticed this:
The doc on the left looks correct, but if you look at the source on the right, the citations that begin "Buxton" and "Chen" don't have any tag around them at all. The browser's displaying them as paragraphs because they're between other block-level elements. When it comes into Kotahi/Wax, we don't expect that there won't be a block-level tag and the results are inconsistent.
One thing I notice while looking at the list of citations: almost every citation contains a hyperlink. Six don't; four of those don't get paragraph tags. Aside from the hyperlinks, the citations appear to have no formatting.
Here's how Word's XML is marking up three paragraphs: the first and the last come in normally, the middle one doesn't get a paragraph tag:
<w:p w:rsidR="00A07C5C" w:rsidRPr="00361E5B" w:rsidRDefault="00A07C5C" w:rsidP="0077453B">
<w:pPr>
<w:pStyle w:val="BodyText"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
<w:spacing w:after="14" w:line="360" w:lineRule="auto"/>
<w:ind w:left="454" w:hanging="454"/>
<w:jc w:val="both"/>
<w:rPr>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
</w:pPr>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>Bush, K., Zhou, S., Cisler, J., Bian, J., Hazaroglu, O., Gillispie, K., Yoshigoe, K., Kilts, C., 2015. A deconvolution-based approach to identifying large-scale effective connectivity. Magnetic Resonance Imaging 33, 1290</w:t>
</w:r>
<w:r w:rsidR="00EE6F93" w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>–</w:t>
</w:r>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>1298. doi:</w:t>
</w:r>
<w:hyperlink r:id="rId33" w:history="1">
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="Hyperlink"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:sz w:val="18"/>
<w:szCs w:val="18"/>
<w:u w:val="none"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>10.1016/j.mri.2015.07.015</w:t>
</w:r>
</w:hyperlink>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>
.
</w:t>
</w:r>
</w:p>
<w:p w:rsidR="00A07C5C" w:rsidRPr="00361E5B" w:rsidRDefault="00A07C5C" w:rsidP="0077453B">
<w:pPr>
<w:pStyle w:val="BodyText"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
<w:spacing w:after="14" w:line="360" w:lineRule="auto"/>
<w:ind w:left="454" w:hanging="454"/>
<w:jc w:val="both"/>
<w:rPr>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
</w:pPr>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>Buxton, R.B., Wong, E.C., Frank, L.R., 1998. Dynamics of blood flow and oxygenation changes during brain activation: the balloon model. Magnetic resonance in medicine 39, 855</w:t>
</w:r>
<w:r w:rsidR="00EE6F93" w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>–</w:t>
</w:r>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>864.</w:t>
</w:r>
</w:p>
<w:p w:rsidR="00A07C5C" w:rsidRPr="00361E5B" w:rsidRDefault="00A07C5C" w:rsidP="0077453B">
<w:pPr>
<w:pStyle w:val="BodyText"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
<w:spacing w:after="14" w:line="360" w:lineRule="auto"/>
<w:ind w:left="454" w:hanging="454"/><w:jc w:val="both"/>
<w:rPr>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
</w:pPr>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/><w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>Caballero-Gaudes, C., Moia, S., Panwar, P., Bandettini, P.A., Gonzalez-Castillo, J., 2019. A deconvolution algorithm for multi-echo functional MRI: Multi-echo sparse paradigm free mapping. NeuroImage 202, 116081. doi:</w:t>
</w:r>
<w:hyperlink r:id="rId34" w:history="1">
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="Hyperlink"/><w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:sz w:val="18"/>
<w:szCs w:val="18"/>
<w:u w:val="none"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>10.1016/j.neuroimage.2019.116081</w:t>
</w:r>
</w:hyperlink>
<w:r w:rsidRPr="00361E5B">
<w:rPr>
<w:rStyle w:val="BodyTextChar1"/>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" w:themeFill="background1"/>
</w:rPr>
<w:t>.</w:t>
</w:r>
</w:p>