Correção do processamento de breaks e parágrafos na conversão HTML→XML #124

robertatakenaka · 2025-11-24T12:36:58Z

PR: Correção do processamento de breaks e parágrafos na conversão HTML→XML

📋 Descrição

Esta PR corrige o processamento inadequado de tags   durante a conversão HTML→XML, implementando lógica mais inteligente para identificar quando breaks representam novos parágrafos versus quebras de linha simples.
Esta correção é necessária para inserir corretamenta as figuras / tabelas representadas no html original como link para arquivos. A conversão html para xml, troca o links por xref + o elemento correspondente com graphic do arquivo.

🎯 Problema

O HTML legado frequentemente usa   onde deveria usar , especialmente:

Double breaks ( ) para separar parágrafos
Elementos  ou  seguidos de breaks que deveriam ser parágrafos
Conteúdo sem estrutura de parágrafos adequada

Porém, nem todo   representa um novo parágrafo - alguns são quebras de linha legítimas dentro do conteúdo.

✨ Solução implementada

🔄 Refatoração do pipeline step_2

Dividido em três etapas especializadas para melhor controle do processamento:

step_2_a: Conversões básicas HTML→XML (preserva estrutura original)
step_2_b: [FOCO PRINCIPAL] Correção inteligente de parágrafos:
- Implementa FixParagraphsAndBreaksPipe com lógica específica
- Adiciona SizeAttributePipe para identificar títulos
step_2_c: Processamento final de links

🆕 Novo pipe: `FixParagraphsAndBreaksPipe`

Implementa detecção inteligente de parágrafos:

Identifica double breaks ( ) como separadores de parágrafo
Converte spans seguidos de double breaks em 
Converte fonts seguidos de breaks em  ou <sec> conforme contexto
Preserva breaks simples dentro do conteúdo quando apropriado

def fix_paragraphs_and_breaks(self, parent):
    if parent.xpath(".//p"):
        return  # Já tem estrutura de parágrafos
    
    self.mark_double_breaks(parent)  # <br><br> → indicador de parágrafo
    self.replace_span_followed_by_break_by_p(parent)
    self.replace_font_followed_by_break_by_p_or_sec(parent)

🔧 Melhorias no `ReplaceBrByPPipe`

Refatorado para processar apenas casos com múltiplos breaks:

Ignora elementos com apenas um   (quebra simples)
Divide conteúdo apenas quando há padrão claro de separação

📊 Casos de uso cobertos

Entrada HTML	Saída XML	Justificativa
`texto<br><br>outro texto`	`<p>texto</p><p>outro texto</p>`	Double break = novo parágrafo
`<span>título</span><br><br>conteúdo`	`<p>título</p><p>conteúdo</p>`	Span + double break = parágrafo
`linha 1<br>linha 2`	`<p>linha 1<break/>linha 2</p>`	Break simples = quebra de linha
`<font size="+2">Seção</font><br><br>`	`<sec><title>Seção</title></sec>`	Font grande + break = seção

🐛 Correções adicionais

Uso correto de strip_tags() ao invés de parent.remove()
Otimizações de performance em verificações desnecessárias
Documentação detalhada de todo o pipeline

🧪 Validação

Testado com documentos que usam   incorretamente no lugar de 
Verificado que breaks simples dentro de parágrafos são preservados
Confirmado que estruturas já corretas (com ) não são alteradas
Double breaks são corretamente identificados como separadores

💡 Impacto

Esta correção resolve problemas históricos de documentos HTML mal estruturados, garantindo que o XML resultante tenha estrutura semântica correta de parágrafos, mantendo a flexibilidade para quebras de linha legítimas.

📝 Arquivos modificados

scielo_classic_website/spsxml/sps_xml_body_pipes.py

…organização - Divide convert_html_to_xml_step_2 em três etapas distintas (2_a, 2_b, 2_c) - step_2_a: conversões básicas HTML para XML (normalização, símbolos, listas, links) - step_2_b: correção de estrutura de parágrafos e formatação - step_2_c: processamento específico de links href - Adiciona documentação detalhada com docstrings numpy format para todas as funções - Implementa novos pipes: - FixParagraphsAndBreaksPipe: corrige ausência de parágrafos e processa double breaks - SizeAttributePipe: converte atributos size em tags title - RemoveEmptyTagPipe: generaliza remoção de tags vazias (p, sec) - Melhora pipes existentes: - ReplaceBrByPPipe: refatora com métodos auxiliares _split_content_by_breaks - AHrefPipe: otimiza verificação de journal_acron - XRefSpecialInternalLinkPipe: adiciona early return para otimização - Corrige uso de parent.remove() por strip_tags em: - RemoveEmptyRefTagPipe - RemoveExcedingBreakTagPipe - Renomeia funções para nomes mais descritivos: - step_0 -> step_0_insert_html_in_cdata - step_1 -> step_1_remove_cdata

Copilot

Pull request overview

This PR refactors the HTML-to-XML conversion pipeline to better handle   tags and paragraph structure in legacy HTML documents. The main change splits the monolithic convert_html_to_xml_step_2 into three specialized steps (2_a, 2_b, 2_c) for better control and introduces intelligent logic to distinguish between double breaks representing paragraph separators versus single breaks representing line breaks.

Key Changes:

Refactored step_2 into three focused substeps: step_2_a (basic HTML→XML conversion), step_2_b (paragraph structure correction), and step_2_c (link processing)
Introduced FixParagraphsAndBreaksPipe to intelligently detect and convert double breaks ( ) into paragraph separators
Added SizeAttributePipe to identify titles based on font size attributes

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

Copilot · 2025-11-24T12:44:21Z