A partir del índice de categorías de noticias del periódico digital de El País (https://elpais.com/estaticos/mapa-web/) se descargan mediante técnicas de web scraping un conjunto de noticias de distinto tipo.
Una vez realizada una extracción de casi 3 mil artículos, se aplican diferentes preprocesados y clasificadores para la realización del proyecto. Finalmente, se muestran los resultados de cada método y se determina cuál de ellos tienen mejor rendimiento para este problema seleccionando así un pre-procesado, una extracción de características y un clasificador
*Otra opción para la extracción del conjunto de datos podría haber sido usar el servicio de feeds RSS (https://servicios.elpais.com/rss/).
Cada uno de los documentos necesarios para la realización del proyecto se encuentran en la parte superior del repositorio. En estas encontraremos 5 archivos:
-
README.md con la información necesaria.
-
Una la base de datos, articulos.csv.
-
Webscraping_Miniproyecto_PLN.ipynb, archivo para la extración del conjunto de datos.
-
Miniproyecto_PLN_final.ipynb, donde podremos encontrar la segunda parte del proyecto, donde se aplican los preprocesados, clasificadores y resultados del proyecto.
-
Carpeta "html" que contiene las dos partes del proyecto en formato html.
Este proyecto ha sido realizado por:
- Moisés Barrios Torres
- Cecilia Diana Albelda
- Irina Filimonova Sevcenco
- Elena Marrero Castellano
Este repositorio está bajo la Licencia (GNU General Public License v3.0) - mira el archivo LICENSE.md para detalles.