Projeto realizado para a disciplina de Mineração de Dados do curso de Gestão da Informação pela Universidade Federal do Paraná. Teve como objetivo a aplicação e descrição de todas as etapas do KDD (Knowledge Discovery in Databases), bem como os algoritmos utilizados, que foram o PART e o Random Subspace.
A base de dados escolhida chama-se Absenteeism at Work e contém registros de não comparecimento no trabalho de funcionários de uma empresa de entregas do Brasil, assim como as características do funcionário e contexto da ausência. O objetivo da aplicação do KDD nessa base era entender quais são os fatores que influenciam na ausência no trabalho e constatando preditivamente possíveis ausências dadas por esses fatores.
A principal descoberta, considerando a relevância e inevidência, é de que o funcionário que já teve falhas disciplinares tende a não faltar no trabalho. No entanto foi possível observar também a confirmação de influência de outros fatores (mais óbvios) na ausência dos funcionários, como o maior custo de transporte até o trabalho. E por fim, de fator que não aparentou exercer muita influência, indo contra o senso comum, o que também é uma descoberta relevante, é a distância do trabalho, já que quem está mais distante não têm mais ausências.