Input : dossier contenant des fichiers textes (mobydick.txt
et r_crusoe
)
(mise en cache du fichier stopwords_en.txt
pour skip des mots)
Filtrer avec les critères suivants :
- Mise en minuscule de tous les mots
- Filtrer les mots inutiles contenu dans un fichier stopwords_en.txt
- Suppresion des ponctuations et caractères numériques
- Suppresion des mots de moins de 3 caractères
Sortie : fichier contenant des lignes avec clé <docname mot>
et valeur <wordcount>
- Input : fichier de sortie du job 1
- Output : Fichier contenant des lignes avec clé
<docname mot>
et valeur<wordcount wordperdoc>
- Input : fichier de sortie du job 2
- Output : fichier contenant des lignes avec clé
<docname mot>
et valeur<tf_idf>