Skip to content

Latest commit

 

History

History
68 lines (51 loc) · 4.17 KB

README.md

File metadata and controls

68 lines (51 loc) · 4.17 KB

USE OF MACHINE LEARNING TO CLASSIFY COMPANIES CREDIT THROUGH FINANCIAL STATEMENTS.

USO DE MACHINE LEARNING PARA A CLASSIFICAÇÃO DO CRÉDITO DE EMPRESAS POR MEIO DE DEMONSTRATIVOS FINANCEIROS.

This repository contains the data and algorithms used during the completion of the Computer Science Degree final assignment.

Esse repositório contém os dados e algorítmos utilizados durante a realização do Trabalho de Conclusão de Curso de Ciência da Computação.

Abstract:

An important element for the economy is the so-called credit rating, a concept indicative of the conditions for repayment of credits granted. The rating process is carried out by rating agencies using methods that are not fully understood/reproducible as they rely on proprietary expertise. Increasing transparency in the credit rating process would help explain why certain entities are able to take out credit and others are not. In this sense, the present work aims to use public data to predict the credit rating of companies through machine learning models. The models used were: Decision Tree, Random Forest, Gradient Boosting for binary and multiclass credit rating. As a result, greater accessibility was obtained regarding the credit rating and the obtaining of free access models that are self-explanatory. The model with the best performance, both for binary and multiclass classification, was Gradient Boosting, which presented the best F1 score. In short, the present work showed that the use of machine learning for credit rating is a viable and informative proposal for this process, in addition to being reproducible.

Keywords:

Machine Learning. Credit Rating. Supervised Learning. Open source software. Open Data.

Resumo:

Um elemento importante para a economia é a chamada classificação de crédito, um conceito indicativo das condições de quitação de créditos concedidos. O processo de classificação é realizado por agências de classificação que usam métodos que não são completamente compreendidos/reproduzíveis, pois dependem de um expertise proprietário. Aumentar a transparência no processo de classificação de crédito ajudaria a explicar a razão de certas entidades conseguirem tomar crédito e outras não. Nesse sentido, o presente trabalho visa utilizar dados públicos para predição de classificação de crédito de empresas por meio de modelos de aprendizado de máquina. Os modelos utilizados foram: Árvore de Decisão, Floresta Aleatória, Gradient Boosting para classificação de crédito binária e multiclasse. Como resultados, obteve-se uma maior a acessibilidade a respeito da classificação de crédito e a obtenção de modelos de livre acesso que sejam autoexplicativos. O modelo com melhor desempenho, tanto para a classificação binária quanto para a multiclasse, foi o Gradient Boosting, que apresentou o melhor F1 score. Em suma, o presente trabalho mostrou que o uso de aprendizado de máquina para a classificação de crédito é uma proposta viável e informativa para esse processo, além de ser reproduzível.

Palavras-chave:

Aprendizado de Máquina. Classificação de Crédito. Aprendizado Supervisionado. Software de código aberto. Dados Abertos.

Advisor/Orientador: Sergio Luis Sardi Mergen Orientate/Orientando: Gabriel Tobias Fuhr

Resources:

Python Notebook for the Binary Classification: Binary Classification

Python Notebook for the Multiclass Classification: Multiclass Classification

Data parser: Data parser

Original Data: Original Data

Parsed Data: Parsed Data

File representation of the Models utilized in the final version of the assignment: Models Used