Modele d`apter

Utilisez ANOVA () pour obtenir l`analyse de la table de déviance. Ceci fournit des tests de rapport log-vraisemblable des paramètres les plus importants. Les termes du modèle sont testés séquentiellement, de sorte que les résultats dépendent de l`ordre dans lequel les variables sont entrées dans la formule de modèle. Si vous utilisez les distributions d`erreur quasi-binomiale ou quasi-poisson, utilisez plutôt l`argument test = “F”. Ensuite, lancez des sauts. Les modèles sont comparés en utilisant le CP de Mallow plutôt que l`AIC, mais les deux quantités sont reliées. Nous pouvons calculer l`AIC nous-mêmes plus tard. En ce qui concerne la toute dernière phrase – voulez-vous dire que les statistiques faciles à comprendre telles que le RMSE ne sont pas acceptables ou sont incorrectes par rapport aux modèles linéaires généralisés? Ou tout simplement que la plupart des logiciels préfèrent présenter des estimations de vraisemblance en traitant de tels modèles, mais que de façon réaliste RMSE est toujours une option valable pour ces modèles aussi? Les résidus rapportés sont vraiment assez petits, et les deux modèles semblent bons. Y a-t-il des renseignements supplémentaires qui pourraient nous aider à être un peu plus confiants quant à notre décision d`accepter ou de rejeter le modèle donné? L`objet résultant (que j`ai nommé z) est un objet LM contenant tous les résultats. Vous utilisez des commandes supplémentaires pour extraire ces résultats, y compris les valeurs résiduelles et celles prédites. L`argument na. action = na. Exclude est facultatif—il indique à R de garder une trace des cas ayant des valeurs manquantes, auquel cas les valeurs résiduelles et prédites auront des NA insérées pour ces cas.

Sinon, R laisse tomber les cas manquants. La commande de drague dans le paquet MuMIn effectue une recherche coûteuse de calcul pour le meilleur modèle, classant les résultats par AIC ou AICc. La séquence de recherche obéit aux mêmes restrictions de marginalité que stepAIC () (c.-à-d., les interactions entre les variables ne sont pas ajustées sans leurs principaux effets; voir ci-dessus). Parmi les deux modèles de notre exemple, lequel est le «meilleur» modèle? Comment puis-je choisir entre le modèle plus simple et plus parsimonieux ou celui qui est plus complexe? Un jeu de confiance de 95% pour le «meilleur» modèle peut être obtenu en classant les modèles et en additionnant les poids jusqu`à ce que cette somme soit ≥ 0,95. Une alternative à ceci est le RMS normalisé, qui comparerait les 2 ppm à la variation des données de mesure. Ainsi, même avec une valeur moyenne de 2000 ppm, si la concentration varie autour de ce niveau avec +/-10 ppm, un ajustement avec un RMS de 2 ppm explique la majeure partie de la variation. Cela a approximativement une distribution de Chi-carré avec k − 1 degrés de liberté. Le fait qu`il y ait k − 1 degrés de liberté est une conséquence de la restriction ∑ N i = n {displaystyle sum n_ {i} = n}. Nous savons qu`il y a k nombre de cellules observées, cependant, une fois que tout k − 1 sont connus, le reste est déterminé de façon unique. Fondamentalement, on peut dire, il n`y a que k − 1 compte de cellules librement déterminés, donc k − 1 degrés de liberté. Trois statistiques sont utilisées dans la régression des moindres carrés ordinaires (OLS) pour évaluer l`ajustement du modèle: R-squared, le F-test global et l`erreur quadratique moyenne (RMSE).

Tous les trois sont basés sur deux sommes de carrés: somme des carrés total (SST) et somme des carrés d`erreur (SSE). SST mesure dans quelle mesure les données proviennent de la moyenne, et SSE mesure dans quelle mesure les données proviennent des valeurs prédites du modèle. Différentes combinaisons de ces deux valeurs fournissent des informations différentes sur la façon dont le modèle de régression se compare au modèle moyen.