Définir modèle
Représentation simplifiée de la réalité.
Définir moyenne
Somme des valeurs divisée par le nombre d’observation
Définir médiane
La valeur qui sépare les données en deux groupes de taille égale.
Définir Variance
Mesure de la dispersion des valeurs autours de la moyenne
Définir corrélation
mesure la façon dont 2 variables varient ensemble.
Le coefficient de corrélation de Pearson, noté r, quantifie l’intensité du lien linéaire entre deux variables X et Y. Il varie entre –1 et +1.
Définir le coefficient de détermination R^2:
exprime la proportion de variance expliquée par le modèle linéaire.
R^2: compris entre 0 et 1.
Plus il est proche de 1, plus le modèle explique bien les données.
En gros il représente le pourcentage de variabilité de Y expliquée par X.
Qu’est ce que la SCT ?
Somme des carrés totales: mesure de la variabilité totale de Y autour de la moyenne.
SCT= SCM + SCR
Qu’est ce que la SCR ?
Somme des carrés résiduelle: mesure de la variabilité non expliquée par le modèle.
Plus SCR est petit, meilleur est le modèle
Qu’est ce que la SCM ?
Somme des carrés expliquée:
mesure de la variabilité expliquée par le modèle (résidus).
Plus SCM est grand, plus la variable Y est expliquée par le modèle.
Qu’est ce que la p-valeur ? Donner les 2 cas de déduction par rapport au risque alpha
la chance qu’on a de se tromper en rejettant H0.
Si p<0.05 : il y a une différence significative donc on rejette H0
Si p> 0.05: il n’y a pas de différence signicative donc on ne rejtte pas H0.
Qu’est ce que le risque alpha ?
le risque (de 1ère espèce) de rejetter H0 à tort (alors qu’elle est vraie).
Théorème central limite
La somme de variables aléatoires tend toujours vers une distribution gaussienne (soit de loi normale).
rnorm
fonction R qui génère aléatoirement des valeurs issues d’une loi normale.
c(v1, v2)
fonction concatenate, qui assemble, colle plusieurs vecteurs.
rep()
fonction repeat, elle crée un vecteur où un élément est répété un certain nombre de fois.
factor()
type d’objet pour représenter des variables qualitatives.
Il possède 2 éléments :
les valeurs “malee “female”
les niveaux : liste des modalités possibles.
tibble()
tableau qui contient 2 colonnes.
function
objet qui peut être stocké dans une variable (indique à R qu’on va créer une fonction)
les (): contient les arguments/paramètres
les {}: contient le code à éxécuter qu’on appelle fonction.
mutate
on ajoute ou modifie une colonne
group_by(x)
ungroup()
regroupe les données selon (x)
on retire le regroupement pour les calculs suivants.
x
summarise()
résume le résultats
boucle for
on répète le calcul un certain nombre de fois.
Ce n’est pas une fonction mais une instruction du langage.
distr_r2
fonction qui sert à simuler plusieurs jeux de données et calculer la distribution empirique du R2.
p_cumul
fonction qui calcule la probabilité cumulée d’une valeur observée dans la distribution simulée
elle répond à la question “ quelle fonction des valeurs simulées sous H0 sont <= à R2 observé.