Para este teste, utilize a seguinte base de dados: dados.zip
Em processamento e entendimento de linguagem natural, a análise de sentimento é uma das áreas que mais têm recebido atenção da comunidade científica. Os seus desafios encontram-se principalmente na identificação e tratamento adequado de sarcasmo, ambiguidade linguística, negação, etc. Este desafio consiste em classificar os trechos de textos opinativos sobre filmes presentes na base fornecida em 5 níveis de sentimento: negativo, um pouco negativo, neutro, um pouco positivo e positivo.
Sobre a entrega:
-
Deve-se escolher 3 diferentes algoritmos de classificação ou regressão. Deve-se utilizar apenas o arquivo train.tsv para criar as bases de treino, validação e teste, comparando os algoritmos com a base de teste e escolhendo o melhor, justificando a escolha.
-
Os códigos e o relatório devem ser entregues em um ipython notebook didático, o qual deve ser auto-suficiente para ser executado (assumindo que o computador a executar possua todas as ferramentas necessárias instaladas).
-
O relatório deve conter todas as tentativas para resolver o problema, como se estivesse contando a história da estrada percorrida para se chegar no resultado.
O candidato deve fazer um fork do repositório e colocar a solução no mesmo, nos enviando o link do fork para que possamos avaliar a solução. Qualquer dúvida, enviar um email para marcelo@intelivix.com.
Bom trabalho!