🤖 Agente de Documentos Amazon Bedrock

Um agente inteligente que utiliza Amazon Bedrock para análise e busca em documentos PDF e Word, estruturado como uma API Flask com interface Streamlit.

🚀 Características

Processamento de Documentos: Suporte para PDF e Word (.docx)
Busca Vetorial: Utiliza FAISS para busca semântica eficiente
Amazon Bedrock: Integração com modelos Claude 3 Sonnet
API REST: Interface Flask para integração fácil
Interface Web: Frontend Streamlit interativo
Editor de Prompts: Modificação em tempo real das instruções do agente
Embeddings: Utiliza Amazon Titan para vetorização
Instruções Personalizáveis: Prompt do agente configurável

📁 Estrutura do Projeto

bedrock-document-agent/
├── documents/              # Coloque seus PDFs e Word aqui
├── prompts/
│   └── agent_instructions.txt  # Instruções do agente
├── config/
│   └── settings.py         # Configurações
├── src/
│   ├── app.py             # API Flask principal
│   ├── document_processor.py  # Processamento de documentos
│   ├── vector_store.py    # Sistema de busca vetorial
│   └── bedrock_agent.py   # Agente Bedrock
├── vector_store/          # Índice vetorial (criado automaticamente)
├── streamlit_app.py       # Interface web Streamlit
├── requirements.txt       # Dependências Python
├── .env.example          # Exemplo de configuração
├── .gitignore            # Arquivos ignorados pelo Git
├── run.py                # Script principal da API
├── run_streamlit.py      # Script para interface web
├── demo.py               # Demonstração completa
└── test_api.py           # Script de teste da API

⚙️ Configuração

1. Instalar Dependências

cd bedrock-document-agent
pip install -r requirements.txt

2. Configurar Credenciais AWS

# Copie o arquivo de exemplo
cp .env.example .env

# Edite com suas credenciais
nano .env

Configure no arquivo .env:

AWS_REGION=us-east-1
AWS_ACCESS_KEY_ID=sua_access_key
AWS_SECRET_ACCESS_KEY=sua_secret_key
BEDROCK_MODEL_ID=anthropic.claude-3-sonnet-20240229-v1:0

3. Verificar Permissões Bedrock

Certifique-se de que sua conta AWS tem acesso aos modelos:

anthropic.claude-3-sonnet-20240229-v1:0
amazon.titan-embed-text-v1

📄 Adicionando Documentos

Coloque seus arquivos PDF e Word na pasta documents/
Execute o processamento via API ou interface web

🚀 Executando o Sistema

Método 1: Demonstração Completa (Recomendado)

python demo.py

Este script irá:

Verificar requisitos
Instalar dependências
Criar documentos de exemplo
Iniciar API e interface web
Executar testes automatizados

Método 2: Interface Web + API

python run_streamlit.py

Inicia automaticamente a API Flask e a interface Streamlit.

Método 3: Apenas API

python run.py

Inicia apenas a API Flask em http://localhost:5000

Método 4: Apenas Interface Web

streamlit run streamlit_app.py

Inicia apenas a interface em http://localhost:8501 (API deve estar rodando)

🎨 Interface Web Streamlit

A interface web oferece:

💬 Chat Interativo

Conversa em tempo real com o agente
Histórico de mensagens
Configuração de parâmetros de busca
Visualização de fontes utilizadas

📝 Editor de Prompts

Modificação em tempo real das instruções do agente
Preview das alterações
Salvamento automático
Templates predefinidos

📄 Gerenciamento de Documentos

Lista de documentos disponíveis
Informações de tamanho e data
Reprocessamento com um clique
Status do processamento

⚙️ Monitoramento do Sistema

Status da API em tempo real
Informações do vector store
Configurações do agente
Logs e métricas

🔌 Endpoints da API

1. Health Check

GET /health

2. Status do Sistema

GET /status

3. Processar Documentos

POST /documents/upload

4. Chat com o Agente

POST /chat
Content-Type: application/json

{
  "message": "Sua pergunta aqui",
  "max_results": 5,
  "similarity_threshold": 0.7
}

🧪 Testando o Sistema

Teste Automatizado

python test_api.py

Teste Manual via Interface

Acesse http://localhost:8501
Vá para a aba "Documentos"
Clique em "Reprocessar Documentos"
Vá para a aba "Chat"
Digite uma pergunta e teste

💬 Exemplo de Uso

Via API

import requests

# Chat com o agente
response = requests.post('http://localhost:5000/chat', json={
    "message": "Quais são os principais tópicos abordados nos documentos?"
})

result = response.json()
print(f"Resposta: {result['response']}")
print(f"Fontes: {result['sources']}")

Via Interface Web

Acesse http://localhost:8501
Vá para a aba "Chat"
Digite sua pergunta
Veja a resposta com fontes citadas

⚙️ Configurações Avançadas

Modelos Bedrock Suportados

Claude 3 Sonnet (padrão)
Claude 3 Haiku
Outros modelos compatíveis

Parâmetros de Busca

CHUNK_SIZE: Tamanho dos chunks (padrão: 1000)
CHUNK_OVERLAP: Sobreposição entre chunks (padrão: 200)
MAX_SEARCH_RESULTS: Máximo de documentos retornados (padrão: 5)
SIMILARITY_THRESHOLD: Limiar de similaridade (padrão: 0.7)

🔧 Personalização

Modificar Instruções do Agente

Via Interface Web: Use o editor na aba "Editor de Prompt"
Via Arquivo: Edite prompts/agent_instructions.txt

Adicionar Novos Tipos de Documento

Modifique src/document_processor.py para suportar outros formatos.

Customizar Interface

Modifique streamlit_app.py para personalizar a interface web.

🐛 Solução de Problemas

Erro de Credenciais AWS

Verifique se as credenciais estão corretas no .env
Confirme se a região está correta
Teste com AWS CLI: aws sts get-caller-identity

Erro de Acesso ao Bedrock

Verifique se os modelos estão habilitados na sua conta
Confirme as permissões IAM para Bedrock

Interface não Carrega

Verifique se a API está rodando em localhost:5000
Confirme se o Streamlit está na porta 8501
Veja os logs para erros específicos

Documentos Não Processados

Verifique se os arquivos estão na pasta documents/
Confirme se são PDFs ou Word válidos
Use a interface para reprocessar

📊 Monitoramento

O sistema fornece logs detalhados sobre:

Processamento de documentos
Buscas realizadas
Chamadas para Bedrock
Erros e exceções
Atividade da interface web

🔒 Segurança

Nunca commite credenciais AWS no código
Use IAM roles quando possível
Mantenha as dependências atualizadas
Configure CORS adequadamente para produção
O .gitignore protege arquivos sensíveis

📈 Performance

Para melhor performance:

Use instâncias EC2 com mais memória para documentos grandes
Configure cache para embeddings frequentes
Otimize o tamanho dos chunks baseado no seu caso de uso
Use SSD para armazenamento do vector store

🎯 Casos de Uso

Suporte ao Cliente: Base de conhecimento inteligente
Análise de Contratos: Busca em documentos legais
Manuais Técnicos: Assistente para documentação
Pesquisa Acadêmica: Análise de papers e artigos
Compliance: Consulta a políticas e procedimentos

🤝 Contribuição

Fork o projeto
Crie uma branch para sua feature
Commit suas mudanças
Push para a branch
Abra um Pull Request

📄 Licença

Este projeto está sob a licença MIT. Veja o arquivo LICENSE para detalhes.

Desenvolvido com ❤️ usando Amazon Bedrock, Flask e Streamlit

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
config		config
documents		documents
prompts		prompts
src		src
.env.example		.env.example
.gitignore		.gitignore
CONFLITOS_RESOLVIDOS.md		CONFLITOS_RESOLVIDOS.md
CORRECAO_PROCESS_DIRECTORY.md		CORRECAO_PROCESS_DIRECTORY.md
CORRECOES_DEMO.md		CORRECOES_DEMO.md
DIAGNOSTICO_PDF_NAO_USADO.md		DIAGNOSTICO_PDF_NAO_USADO.md
DIFERENCA_SCRIPTS.md		DIFERENCA_SCRIPTS.md
MAPA_CREDENCIAIS_AWS.md		MAPA_CREDENCIAIS_AWS.md
MODO_DEMO_EXPLICADO.md		MODO_DEMO_EXPLICADO.md
PROBLEMA_RUN_STREAMLIT.md		PROBLEMA_RUN_STREAMLIT.md
QUAL_REQUIREMENTS_USAR.md		QUAL_REQUIREMENTS_USAR.md
README.md		README.md
SETUP_COMPLETE.md		SETUP_COMPLETE.md
SOLUCAO_BEDROCK_ACCESS.md		SOLUCAO_BEDROCK_ACCESS.md
SOLUCAO_COMPLETA_AWS.md		SOLUCAO_COMPLETA_AWS.md
SOLUCAO_CONFLITOS.md		SOLUCAO_CONFLITOS.md
SOLUCAO_FALHA_FLASK.md		SOLUCAO_FALHA_FLASK.md
api_simples.py		api_simples.py
debug_falha_flask.py		debug_falha_flask.py
demo.py		demo.py
demo_corrigido.py		demo_corrigido.py
demo_original_backup.py		demo_original_backup.py
diagnostico_flask.py		diagnostico_flask.py
install_clean.py		install_clean.py
requirements.txt		requirements.txt
requirements_compatible.txt		requirements_compatible.txt
requirements_fixed.txt		requirements_fixed.txt
requirements_minimal.txt		requirements_minimal.txt
requirements_minimal_2024.txt		requirements_minimal_2024.txt
requirements_sdd.txt		requirements_sdd.txt
requirements_working.txt		requirements_working.txt
run.py		run.py
run_demo_api.py		run_demo_api.py
run_streamlit.py		run_streamlit.py
setup_aws_cli_credentials.py		setup_aws_cli_credentials.py
start_and_test.py		start_and_test.py
start_demo.py		start_demo.py
start_flask_robusto.py		start_flask_robusto.py
streamlit_app.py		streamlit_app.py
test_api.py		test_api.py
test_basic.py		test_basic.py
test_demo_api.py		test_demo_api.py
teste_bedrock_access.py		teste_bedrock_access.py
teste_demo_corrigido.py		teste_demo_corrigido.py

renatoprovi/hackatonaws

Folders and files

Latest commit

History

Repository files navigation