Learnrs of modules 2 & 3 ready for 2024-2025

phgrosjean · phgrosjean · commit b2fdea60e0fd · 2024-10-06T18:30:56.000+02:00
diff --git a/DESCRIPTION b/DESCRIPTION
@@ -1,5 +1,5 @@
 Package: BioDataScience3
-Version: 2024.1.0
+Version: 2024.3.0
 Title: A Series of Learnr Documents for Biological Data Science 3
 Description: Interactive documents using learnr for studying biological data science (second course).
 Authors@R: c(
diff --git a/NEWS.md b/NEWS.md
@@ -1,3 +1,11 @@
+# BioDataScience3 2024.3.0
+
+-   Learnrs **C03La_roc** and **C03Lb_ml3** revised.
+
+# BioDataScience3 2024.2.0
+
+-   Learnrs **C02La_cv** and **C02Lb_ml2** revised.
+
 # BioDataScience3 2024.1.0
 
 -   Inactivation of all learnrs except those of module 1.
diff --git a/inst/tutorials/C02La_cv/C02La_cv.Rmd b/inst/tutorials/C02La_cv/C02La_cv.Rmd
@@ -130,28 +130,28 @@ rice_test <- testing(rice_split)
 ```
 
 ```{r rice_split_h2-check}
-grade_code("Vous avez réalisé votre set d'apprentissage et votre set de test avec les proportions demandées.", "Avez-vous bien respectée les consignes ? Il ne faut compléter que les champs ___.")
+grade_code("Vous avez réalisé votre set d'apprentissage et votre set de test avec les proportions demandées.", "Avez-vous bien respecté les consignes ? Il ne faut compléter que les champs ___.")
 ```
 
 ## Analyse discriminante linéaire
 
 Entraînez un premier classifieur `rice_lda` avec l'analyse discriminante linéaire (formule condensée) pour prédire `class` à l'aide des sept autres variables **sans utiliser la validation croisée** ensuite. Quel jeu de données devez-vous utiliser ? `rice`, `rice_train` ou `rice_test` ?
 
 ```{r lda_h2, exercise=TRUE}
-rice_lda <- mlLda(data = ___, ___ ~ ___)
+rice_lda <- ml_lda(data = ___, ___ ~ ___)
 summary(rice_lda)
 ```
 
 ```{r lda_h2-hint-1}
-rice_lda <- mlLda(data = rice_train, ___ ~ ___)
+rice_lda <- ml_lda(data = rice_train, ___ ~ ___)
 summary(rice_lda)
 
 ## Attention, le prochain indice est la solution ##
 ```
 
 ```{r lda_h2-solution}
 ## Solution ##
-rice_lda <- mlLda(data = rice_train, class ~ .)
+rice_lda <- ml_lda(data = rice_train, class ~ .)
 summary(rice_lda)
 ```
 
@@ -162,20 +162,20 @@ grade_code("Votre classifieur LDA est entrainé. Il faut encore en mesurer les p
 Entraînez maintenant un second classifieur `rice_lda_cv`, mais cette fois dans le but d'en étudier les performances par validation croisée (toujours en utilisant la formule condensée).
 
 ```{r lda_cv_h2, exercise=TRUE}
-rice_lda_cv <- mlLda(data = ___, ___ ~ ___)
+rice_lda_cv <- ml_lda(data = ___, ___ ~ ___)
 summary(rice_lda_cv)
 ```
 
 ```{r lda_cv_h2-hint-1}
-rice_lda_cv <- mlLda(data = rice, ___ ~ ___)
+rice_lda_cv <- ml_lda(data = rice, ___ ~ ___)
 summary(rice_lda_cv)
 
 ## Attention, le prochain indice est la solution ##
 ```
 
 ```{r lda_cv_h2-solution}
 ## Solution ##
-rice_lda_cv <- mlLda(data = rice, class ~ .)
+rice_lda_cv <- ml_lda(data = rice, class ~ .)
 summary(rice_lda_cv)
 ```
 
@@ -249,7 +249,7 @@ summary(rice_conf_cv)
 ```
 
 ```{r lda_pred_cv_h2-check}
-grade_code("Toute la mécanique de la validation croisée est déployée à l'intérieur de `cvpredict()`. En réalité, les données sont divisées en dix sous-tableaux et dix classifieurs différents sont entraînées et testés successivement. Aucun n'est identique à `rice_lda_cv`, mais ils en sont tous relativement proches. Prenez un peu de temps pour analyser votre matrice de confusion et les métriques qui en découlent. Combien de données sont utilisées ici ?")
+grade_code("Toute la mécanique de la validation croisée est déployée à l'intérieur de `cvpredict()`. En réalité, les données sont divisées en dix sous-tableaux et dix classifieurs différents sont entraînés et testés successivement. Aucun n'est identique à `rice_lda_cv`, mais ils en sont tous relativement proches. Prenez un peu de temps pour analyser votre matrice de confusion et les métriques qui en découlent. Combien de données sont utilisées ici ?")
 ```
 
 Répondez aux questions ci-dessous relatives aux deux classifieurs `rice_lda` et `rice_lda_cv`.
@@ -264,7 +264,7 @@ quiz(
     try_again_button = "Resoumettre une réponse",
     incorrect = "Mauvaise réponse. Recommencez afin de trouver la bonne réponse",
     correct = "C'est le nombre d'observations utilisées en apprentissage qui sont déterminantes ici (plus d'observations mènent potentiellement à un meilleur classifieur)."),
-  question("Combien d'items sont employé pour déterminer les performances du classifieur avec validation croisée ?",
+  question("Combien d'items sont employés pour déterminer les performances du classifieur avec validation croisée ?",
     answer(sprintf("%1.f", nrow(rice)), correct = TRUE),
     answer(sprintf("%1.f", nrow(rice_train))),
     answer(sprintf("%1.f", nrow(rice_test))),
diff --git a/inst/tutorials/C02Lb_ml2/C02Lb_ml2.Rmd b/inst/tutorials/C02Lb_ml2/C02Lb_ml2.Rmd
@@ -62,14 +62,14 @@ Ce tutoriel a pour objectif de vous permettre de découvrir de nouveaux algorith
 
 Toutes ces méthodes font partie de votre boite à outils pour la classification supervisée à côté de l'analyse discriminante linéaire et de la quantification vectorielle, ainsi que d'autres techniques encore que vous découvrirez dans le module 3 du cours. Concrètement, vous utiliserez la méthode la plus judicieuse en fonction du contexte. Il est même conseillé d'en tester plusieurs et de les comparer pour ensuite conserver le classifieur le plus efficace après cette étude comparative.
 
-Pour l'ADL, vous avez utilisé la fonction `mlLda()`. Voici les fonctions du package {mlearning} que vous utiliserez ici :
+Pour l'ADL, vous avez utilisé la fonction `ml_lda()`. Voici les fonctions du package {mlearning} que vous utiliserez ici :
 
-| **Méthode**                    | **Fonction**                          |
-|--------------------------------|---------------------------------------|
-| Analyse discriminante linéaire | `mlLda(data = <df>, formula,...)`     |
-| K plus proches voisins         | `mlKnn(data = <df>, formula,...)`     |
-| Partitionnement récursif       | `mlRpart(data = <df>, formula,...)`   |
-| Foret aléatoire                | `mlRforest(data = <df>, formula,...)` |
+| **Méthode**                    | **Fonction**                           |
+|--------------------------------|----------------------------------------|
+| Analyse discriminante linéaire | `ml_lda(data = <df>, formula,...)`     |
+| K plus proches voisins         | `ml_knn(data = <df>, formula,...)`     |
+| Partitionnement récursif       | `ml_rpart(data = <df>, formula,...)`   |
+| Forêt aléatoire                | `ml_rforest(data = <df>, formula,...)` |
 
 Le package {mlearning} permet d'utiliser une interface similaire et simplifiée pour chaque méthode. Il fait partie du dialecte `SciViews::R` et est chargé en spécifiant que la section relative au "machine learning" doit être également chargée à l'aide de `SciViews::R("ml")`
 
@@ -151,7 +151,7 @@ pumpkins_rf <- ml___(data = ___, ___~___, ___ = ___)
 ```{r ml_h2-hint-1}
 set.seed(3265)
 # K plus proches voisins
-pumpkins_knn <- mlKnn(data = pumpkins_train, class ~ ., k.nn = 15)
+pumpkins_knn <- ml_knn(data = pumpkins_train, class ~ ., k.nn = 15)
 # Partitionnement récursif
 pumpkins_part <- ml___(data = ___, ___~___)
 # Forêt aléatoire
@@ -164,11 +164,11 @@ pumpkins_rf <- ml___(data = ___, ___~___, ___ = ___)
 ## Solution ##
 set.seed(3265)
 # K plus proches voisins
-pumpkins_knn <- mlKnn(data = pumpkins_train, class ~ ., k.nn = 15)
+pumpkins_knn <- ml_knn(data = pumpkins_train, class ~ ., k.nn = 15)
 # Partitionnement récursif
-pumpkins_part <- mlRpart(data = pumpkins_train, class ~ .)
+pumpkins_part <- ml_rpart(data = pumpkins_train, class ~ .)
 # Forêt aléatoire
-pumpkins_rf <- mlRforest(data = pumpkins_train, class ~ ., ntree = 100)
+pumpkins_rf <- ml_rforest(data = pumpkins_train, class ~ ., ntree = 100)
 ```
 
 ```{r ml_h2-check}
diff --git a/inst/tutorials/C03La_roc/C03La_roc.Rmd b/inst/tutorials/C03La_roc/C03La_roc.Rmd
@@ -25,7 +25,7 @@ breast <- sselect(breast, -id)
 # Partitionnement récursif
 ## rpart1
 set.seed(12)
-breast_part <- mlRpart(data = breast, class ~ .)
+breast_part <- ml_rpart(data = breast, class ~ .)
 breast_pred1 <- cvpredict(breast_part, cv.k = 5) 
 part1_conf <- confusion(breast_pred1, breast$class)
 part1_tab <- summary(part1_conf)
@@ -46,7 +46,7 @@ breast %>.%
 breast2 <- bind_rows(br_m2, br_b2)
 # Création du classifieur
 set.seed(256)
-breast_part2 <- mlRpart(data = breast2, class ~ .)
+breast_part2 <- ml_rpart(data = breast2, class ~ .)
 # Évaluation du classifieur
 breast_pred2 <- cvpredict(breast_part2, cv.k = 5) 
 part2_conf <- confusion(breast_pred2, breast2$class)
@@ -134,7 +134,7 @@ cvpredict(___, cv.k = ___) |> confusion(___$___) |> summary()
 ```{r rpart1_h2-hint-1}
 set.seed(12)
 # Création du classifieur
-breast_part <- mlRpart(data = breast, class ~ .)
+breast_part <- ml_rpart(data = breast, class ~ .)
 # Évaluation du classifieur
 cvpredict(___, cv.k = ___) |> confusion(___$___) |> summary()
 
@@ -145,7 +145,7 @@ cvpredict(___, cv.k = ___) |> confusion(___$___) |> summary()
 ## Solution ##
 set.seed(12)
 # Création du classifieur
-breast_part <- mlRpart(data = breast, class ~ .)
+breast_part <- ml_rpart(data = breast, class ~ .)
 # Évaluation du classifieur
 cvpredict(breast_part, cv.k = 5) |> confusion(breast$class) |> summary()
 ```
@@ -163,13 +163,13 @@ question("Quel est le taux de vrais positifs pour les personnes malades ?",
   allow_retry = TRUE, 
   submit_button = "Soumettre une réponse",
   try_again_button = "Resoumettre une réponse",
-  incorrect = "Mauvaise réponse. Recommencez et analysez plus finement les métriques associés à ce classifieur.",
+  incorrect = "Mauvaise réponse. Recommencez et analysez plus finement les métriques associées à ce classifieur.",
   correct = "Notez bien cette valeur pour plus tard.")
 ```
 
 Pour rappel, nous avons les effectifs suivants dans les deux classes :
 
-```{r, echo=TRUE}
+```{r, echo=TRUE, warning=FALSE}
 table(breast$class) |>
   tabularise()
 ```
@@ -245,7 +245,7 @@ summary(part2_conf)
 
 ```{r rpart2_h2-hint-1}
 set.seed(256)
-breast_part2 <- mlRpart(data = breast2, class ~ .)
+breast_part2 <- ml_rpart(data = breast2, class ~ .)
 part2_conf <- confusion(cvpredict(breast_part2, cv.k = ___), ___$___)
 summary(part2_conf) 
 
@@ -255,7 +255,7 @@ summary(part2_conf)
 ```{r rpart2_h2-solution}
 ## Solution ##
 set.seed(256)
-breast_part2 <- mlRpart(data = breast2, class ~ .)
+breast_part2 <- ml_rpart(data = breast2, class ~ .)
 part2_conf <- confusion(cvpredict(breast_part2, cv.k = 5), breast2$class)
 summary(part2_conf) 
 ```
@@ -321,7 +321,7 @@ quiz(
     submit_button = "Soumettre une réponse",
     try_again_button = "Resoumettre une réponse",
     incorrect = "Mauvaise réponse. Recommencez et analysez plus finement les métriques associés aux classifieurs.",
-    correct = "Vous pouvez observer que la modification des proportions a permis d'augmenter grandement le rappel. Cependant, nous observons une perte de précision. Les médecins vont préférer détecter un maximum des tumeurs malignes, quitte à avoir un peu plus de faux positifs dans le lot qu'ils démasqueront via des analyses plus poussées sur les patientes déclarés positifs.")
+    correct = "Vous pouvez observer que la modification des proportions a permis d'augmenter grandement le rappel. Cependant, nous observons une perte de précision. Les médecins vont préférer détecter un maximum des tumeurs malignes, quitte à avoir un peu plus de faux positifs dans le lot qu'ils démasqueront via des analyses plus poussées sur les patientes déclarées positifs.")
 )
 ```
 
@@ -357,9 +357,12 @@ ___<- performance(___, "tpr", "fpr")
 # 3) Tracer le graphique ROC
 plot(___)
 abline(a = 0, b = 1, lty = 2)
+
+## Attention, le prochain indice est la solution ##
 ```
 
 ```{r roc_h2-solution}
+## Solution ##
 library(ROCR)
 # 1) Formater les prédictions pour ROCR
 pred_obj <- prediction(breast_pred[,"malignant"], breast$class == "malignant")
@@ -381,9 +384,12 @@ ___::___(___$___, ___[, "malignant"])
 
 ```{r auc_h2-hint-1}
 ___::auc(___$___, ___[, "malignant"])
+
+## Attention, le prochain indice est la solution ##
 ```
 
 ```{r auc_h2-solution}
+## Solution ##
 pROC::auc(breast$class, breast_pred[, "malignant"])
 ```
 
@@ -393,7 +399,7 @@ grade_code("Vous avez déterminé la valeur de l'aire sous la courbe ROC pour vo
 
 ## Conclusion
 
-Vous venez d'explorer l'effet des proportions par classes sur un classifieur et sur les métriques de perfomance de ce classifieur. Vous avez aussi corrigé vos métriques en renseignant la probabilité *a priori*. Enfin, vous avez tracé une courbe ROC et calculé son aire sous la courbe, AUC. Tous ces outils vous seront bien utiles pour optimiser vos propres classifieurs.
+Vous venez d'explorer l'effet des proportions par classes sur un classifieur et sur les métriques de performance de ce classifieur. Vous avez aussi corrigé vos métriques en renseignant la probabilité *a priori*. Enfin, vous avez tracé une courbe ROC et calculé son aire sous la courbe, AUC. Tous ces outils vous seront bien utiles pour optimiser vos propres classifieurs.
 
 ```{r comm_noscore, echo=FALSE}
 question_text(
diff --git a/inst/tutorials/C03Lb_ml3/C03Lb_ml3.Rmd b/inst/tutorials/C03Lb_ml3/C03Lb_ml3.Rmd
@@ -24,11 +24,11 @@ derma <- na_omit(derma, cols = "age")
 set.seed(960412)
 ## Classifieur
 # Machine à vecteurs supports
-derma_svmr <- mlSvm(data = derma, class ~ .)
+derma_svmr <- ml_svm(data = derma, class ~ .)
 # Machine à vecteurs supports avec un noyau linéaire
-derma_svml <- mlSvm(data = derma, class ~ ., kernel = "linear")
+derma_svml <- ml_svm(data = derma, class ~ ., kernel = "linear")
 # Réseaux de neurones artificiels
-derma_nnet <- mlNnet(data = derma, class ~ ., size = 5)
+derma_nnet <- ml_nnet(data = derma, class ~ ., size = 5)
 ## Métriques
 set.seed(367)
 # Machine à vecteurs supports
@@ -58,14 +58,14 @@ Ce tutoriel a pour objectif de vous faire découvrir deux nouvelles méthodes de
 
 Ces deux méthodes sont disponibles dans le package {mlearning}
 
-| **Méthode**                     | **Fonction**                   |
-|---------------------------------|--------------------------------|
-| Analyse discriminante linéaire  | `mlLda(data, formula,...)`     |
-| K plus proches voisins          | `mlKnn(data, formula,...)`     |
-| Partitionnement récursif        | `mlRpart(data, formula,...)`   |
-| Forêt aléatoire                 | `mlRforest(data, formula,...)` |
-| Machine à vecteurs supports     | `mlSvm(data, formula,...)`     |
-| Réseaux de neurones artificiels | `mlNnet(data, formula,...)`    |
+| **Méthode**                     | **Fonction**                    |
+|---------------------------------|---------------------------------|
+| Analyse discriminante linéaire  | `ml_lda(data, formula,...)`     |
+| K plus proches voisins          | `ml_knn(data, formula,...)`     |
+| Partitionnement récursif        | `ml_rpart(data, formula,...)`   |
+| Forêt aléatoire                 | `ml_rforest(data, formula,...)` |
+| Machine à vecteurs supports     | `ml_svm(data, formula,...)`     |
+| Réseaux de neurones artificiels | `ml_nnet(data, formula,...)`    |
 
 ## Discrimination de maladies de la peau
 
@@ -85,7 +85,7 @@ Il y a huit valeurs manquantes pour la variable `age`. La variable `class` repre
 
 La variable `family_history` peut prendre soit la valeur de 0 (aucune maladie de la peau dans la famille), soit la valeur de 1 (maladie présente dans la famille.) Les autres attributs peuvent prendre quatre valeurs : 0 (absence), 1, 2 et 3 (très important).
 
-Calculez un classifieur n'utilisant que les observations cliniques. Sélectionnez les variables 1 à 11 et 34 à 35. Utilisez la fonction `sselect()`. Éliminez ensuite les individus contenant des valeurs manquantes pour `age` avec `na_omit()`. Votre jeu de données nettoyé s'appelera `derma`.
+Calculez un classifieur n'utilisant que les observations cliniques. Sélectionnez les variables 1 à 11 et 34 à 35. Utilisez la fonction `sselect()`. Éliminez ensuite les individus contenant des valeurs manquantes pour `age` avec `na_omit()`. Votre jeu de données nettoyé s'appellera `derma`.
 
 ```{r derma_h2, exercise=TRUE}
 # Sélection des variables d'intérêts
@@ -99,6 +99,8 @@ ___ <- na_omit(___, cols = ___)
 derma <- sselect(dermatology, c(___:___, ___:___))
 # Élimination des NA
 derma <- na_omit(derma, cols = ___)
+
+## Attention, le prochain indice est la solution ##
 ```
 
 ```{r derma_h2-solution}
@@ -110,7 +112,7 @@ derma <- na_omit(derma, cols = "age")
 ```
 
 ```{r derma_h2-check}
-grade_code("Une fois le remaniement des données réaliser, on va pouvoir s'attaquer à nos classifieurs.")
+grade_code("Une fois le remaniement des données réalisé, on va pouvoir s'attaquer à nos classifieurs.")
 ```
 
 Explorez ce jeu de données comme bon vous semble. Vous avez la possibilité de réaliser tous les analyses et graphiques que vous désirez ci-dessous.
@@ -126,31 +128,34 @@ Créez à présent trois classifieurs utilisant la machine à vecteurs supports
 ```{r, classif_h2, exercise=TRUE}
 set.seed(960412)
 # Machine à vecteurs supports
-derma_svmr <- mlSvm(data = ___, ___ ~ ___)
+derma_svmr <- ml_svm(data = ___, ___ ~ ___)
 # Machine à vecteurs supports avec un noyau linéaire
-derma_svml <- mlSvm(data = ___, ___ ~ ___, ___ = "linear")
+derma_svml <- ml_svm(data = ___, ___ ~ ___, ___ = "linear")
 # Réseaux de neurones artificiels
-derma_nnet <- mlNnet(data = ___, ___ ~ ___, ___ = ___)
+derma_nnet <- ml_nnet(data = ___, ___ ~ ___, ___ = ___)
 ```
 
 ```{r, classif_h2-hint-1}
 set.seed(960412)
 # Machine à vecteurs supports
-derma_svmr <- mlSvm(data = derma, ___ ~ ___)
+derma_svmr <- ml_svm(data = derma, ___ ~ ___)
 # Machine à vecteurs supports avec un noyau linéaire
-derma_svml <- mlSvm(data = ___, ___ ~ ___, kernel = "linear")
+derma_svml <- ml_svm(data = ___, ___ ~ ___, kernel = "linear")
 # Réseaux de neurones artificiels
-derma_nnet <- mlNnet(data = ___, ___ ~ ___, size = 12)
+derma_nnet <- ml_nnet(data = ___, ___ ~ ___, size = 12)
+
+## Attention, le prochain indice est la solution ##
 ```
 
 ```{r, classif_h2-solution}
+## Solution ##
 set.seed(960412)
 # Machine à vecteurs supports
-derma_svmr <- mlSvm(data = derma, class ~ .)
+derma_svmr <- ml_svm(data = derma, class ~ .)
 # Machine à vecteurs supports avec un noyau linéaire
-derma_svml <- mlSvm(data = derma, class ~ ., kernel = "linear")
+derma_svml <- ml_svm(data = derma, class ~ ., kernel = "linear")
 # Réseaux de neurones artificiels
-derma_nnet <- mlNnet(data = derma, class ~ ., size = 12)
+derma_nnet <- ml_nnet(data = derma, class ~ ., size = 12)
 ```
 
 ```{r classif_h2-check}
@@ -177,9 +182,12 @@ cvpredict(derma_svmr, cv.k = 5) |> confusion(___$___) |> summary()
 cvpredict(___, ___) |> confusion(___$___) |> summary()
 # Réseaux de neurones artificiels
 cvpredict(___, ___) |> confusion(___$___) |> summary()
+
+## Attention, le prochain indice est la solution ##
 ```
 
 ```{r predict_h2-solution}
+## Solution ##
 set.seed(367)
 # Machine à vecteurs supports
 cvpredict(derma_svmr, cv.k = 10) |> confusion(derma$class) |> summary()