Ferramenta de automação para classificar, converter e consolidar arquivos de atos normativos, otimizada para o fluxo de trabalho do TJMG.
Este projeto automatiza o tratamento de grandes volumes de documentos jurídicos (.doc e .docx). Ele foi desenvolvido para resolver um problema específico: separar atos normativos válidos dos revogados, padronizá-los para o formato .docx e consolidar seu conteúdo textual de forma organizada para análises futuras.
A ferramenta classifica os atos com base na formatação do texto (uso de "tachado" para indicar revogação), garantindo que apenas o conteúdo relevante seja processado e arquivado, replicando a estrutura de pastas original para manter a organização por categoria.
- Filtragem Automática: Identifica e descarta arquivos com mais de 90% do texto tachado, considerados revogados.
- Conversão em Lote: Converte arquivos do formato
.docpara.docxde forma automática, utilizando o LibreOffice. - Estrutura de Pastas Espelhada: Organiza os arquivos de saída (
.docxe.txt) em uma estrutura de diretórios idêntica à de entrada. - Limpeza de Conteúdo: Extrai o texto dos documentos, removendo qualquer trecho, palavra ou caractere que esteja formatado como tachado.
- Consolidação Inteligente: Agrupa o conteúdo textual por categoria e o fragmenta em arquivos
.txtcom tamanho máximo de 2MB para facilitar a manipulação. - Logging Detalhado: Gera um arquivo de log completo (
log_processamento.log) registrando todas as ações, avisos e erros para fácil auditoria.
Para que o script funcione corretamente, a seguinte estrutura de pastas deve ser criada na raiz C:\:
C:\ProcessarAtos\
│
├── Entradas\
│ ├── Categoria_A\
│ │ ├── ato_01.doc
│ │ └── ato_02.docx
│ └── Categoria_B\
│ └── ato_03.doc
│
├── Saida_DOCX\ (criado pelo script)
├── Saida_TXT\ (criado pelo script)
└── log_processamento.log (criado pelo script)
Antes de executar, certifique-se de que você tem os seguintes softwares instalados:
- Python 3.7+: Download Python
- LibreOffice: Download LibreOffice
- Importante: O caminho para o executável do LibreOffice (
soffice.exe) deve ser verificado e, se necessário, ajustado na variávelCAMINHO_SOFFICEdentro do script.
- Importante: O caminho para o executável do LibreOffice (
-
Clone o repositório:
git clone https://github.com/seu-usuario/seu-repositorio.git cd seu-repositorio -
Crie um ambiente virtual (recomendado):
python -m venv venv venv\Scripts\activate # No Windows
-
Instale as dependências: O script utiliza as seguintes bibliotecas Python. Instale-as usando
pip:pip install python-docx tqdm
- Prepare os arquivos: Coloque seus arquivos
.doce.docxdentro das respectivas subpastas de categoria emC:\ProcessarAtos\Entradas\. - Ajuste as configurações: Abra o arquivo
processador_revogados.pye verifique se os caminhos nasCONFIGURAÇÕES(comoPASTA_ENTRADAeCAMINHO_SOFFICE) correspondem ao seu ambiente. - Execute o script: Abra o terminal no diretório do projeto e execute o seguinte comando:
python processador_revogados.py
- Verifique os resultados: Após a execução, os arquivos convertidos estarão em
Saida_DOCX, os textos consolidados emSaida_TXTe o log detalhado emlog_processamento.log.
Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.