refactor(issue_folder): otimiza leitura de arquivos e melhora tratame… #134

robertatakenaka · 2025-12-22T00:13:39Z

Pull Request: Otimização do processamento de arquivos em issue_folder

Descrição

Este PR refatora o módulo issue_folder.py para melhorar performance e separação de responsabilidades no processamento de arquivos de issues do SciELO.

Mudanças Principais

🚀 Otimização de Performance

Separação de responsabilidades: fixed_glob() agora apenas localiza arquivos, get_files() faz a leitura
- Evita leitura desnecessária de arquivos grandes
- Permite melhor controle de memória

📁 Melhorias no Processamento de Arquivos

Busca recursiva aprimorada: Pattern '**/*.*' para arquivos de tradução
- Encontra traduções em subdiretórios corretamente
- Maior flexibilidade na organização de arquivos

🔧 Tratamento de Erros Mais Robusto

HTMLs vazios: Tratados graciosamente sem lançar exceções
- Arquivo continua sendo processado mesmo sem conteúdo
- Melhora tolerância a falhas

🧹 Limpeza de Código

Logs simplificados:
- Decodificação HTML reporta apenas encoding usado (utf-8 vs iso-8859-1)
- Removidos logs verbosos que não agregavam valor
Código mais limpo:
- Lógica de detecção de traduções em PDFs simplificada
- Remoção de continue redundante após IndexError

Benefícios

✅ Performance: Leitura sob demanda reduz uso de memória
✅ Manutenibilidade: Separação clara de responsabilidades
✅ Confiabilidade: Melhor tratamento de casos extremos
✅ Logs mais úteis: Apenas informações relevantes são logadas

Impacto

Nenhuma mudança na API pública. Código cliente continua funcionando sem alterações.

Exemplo de Melhoria

Antes:

# Lê todos os arquivos imediatamente
for path in glob.glob(pattern):
    with open(path, "rb") as f:
        content = f.read()  # Memória alocada mesmo se não usar

Depois:

# Localiza arquivos primeiro
paths = fixed_glob(patterns)
# Lê apenas quando necessário
for path in paths:
    content = read_when_needed(path)

…nto de erros - Refatora fixed_glob() para retornar conjunto de paths sem ler conteúdo - Move leitura de arquivos para get_files() melhorando separação de responsabilidades - Simplifica logs de decodificação HTML (utf-8 vs iso-8859-1) - Remove logs verbosos desnecessários em files property - Melhora busca recursiva de arquivos de tradução com pattern '**/*.*' - Trata HTMLs vazios sem lançar exceção, apenas não define content - Simplifica lógica de detecção de traduções em bases_pdf_files - Remove continue desnecessário após IndexError em bases_pdf_files

Copilot

Pull request overview

This PR refactors the issue_folder.py module to optimize file processing for SciELO issues. The changes separate file discovery from file reading, update translation file search patterns, and modify error handling and logging approaches.

Key Changes:

Refactored fixed_glob() to only return file paths instead of reading file contents immediately
Changed translation file pattern from *.ht* to **/*.* for recursive subdirectory search
Simplified error handling and reduced logging verbosity

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

Copilot · 2025-12-22T00:15:37Z