olivier godechot

Tribulations d'un sasseur découvrant R


R est un logiciel de mathématiques et de statistiques gratuit, open source. Il existe de nombreux manuels d'introduction à R, assez bien faits.... mais souvent un peu déroutants. En effet, la présentation commence toujours par la manipulation des objets mathématiques et met du temps à arriver à la présentation de la dimension statistique. Le point de vue est ici différent.... c'est comment faire en R, pour faire comme dans SAS, bref en partant des habitudes (mauvaises ou bonnes) de SAS : comment transposer notre étape DATA et notre étape PROC sur l'environnement rugueux (pas trop convivial) mais néanmoins sympathique de R ?



Some useful functions for R

I build from time some small functions and make them available.



Faut-il travailler sous R pour être heureux ?

Enfin une question qui ne manque pas d'R, et qui montre par la même occasion l'intérêt des fonctions anatext et wordcount dévoilées dans un précédent billet. Voici quelques lignes de codes qui vous montreront qu'il est relativement facile sinon d'être heureux du moins de reproduire les tableaux de l'article éponyme de Christian Baudelot et Michel Gollac. Pour cela, je vous invite à télécharger les données, et ensuite de soumetre dans R l'ensemble des fonctions que l'on trouve ici . Enfin le programme ci-dessous devrait faire l'affaire.



Des fonctions pour faire de l'analyse textuelle sous R

La fonction anatext permet de faire un dénombrement des mots, des segments de deux ou trois mots d'une variable textuelle d'une base ou d'un fichier texte. La fonction wordcount permet de compter un mot ou une expression dans une variable textuelle.



Petite simulation de la technique des variables instrumentales

Les variables instrumentales sont des techniques économétriques d'usage courant en économie et en voie de diffusion (mais relativement lente) en sociologie. Ces techniques permettent de corriger des biais d'estimation fréquents liés au fait que les variables explicatives sont mesurées avec erreur, qu'elles sont souvent incomplètes et que l'on est confronté à de l'hétérogénéité inobservée ou encore que la variable explicative n'est pas totalement exogène et qu'elle dépend aussi de la variable expliquée. Le programme R suivant permet de simuler les trois cas classiques de biais, d'en montrer l'ampleur et le sens et aussi de montrer comment des variables instrumentales permettent de corriger et ce avec une efficacité que l'on trouvera même surprenante les biais en question. Cela, dit, simuler le problème et sa résolution reste notoirement plus facile que de trouver dans la réalité des bonnes variables instrumentales, des chocs exogènes qui n'affectent indirectement la variable expliquée que via leur effet sur la variable explicative biaisée. 



Comment faire des tests sous R ?

Un petit article d'introduction aux tests sous R publié d'abord ici http://quanti.hypotheses.org/404.



Les animaux domestiques de François Héran sous R

L'article de François Héran dans Données sociales, « les animaux domestiques » offre une palette de graphiques assez variés. Le refaire sous R est un bon exercice. Nous avons réussi à reproduire la plupart des figures, ou tout au moins à faire quelque chose d'approchant. Après avoir téléchargé les données, il suffit d'exécuter sous R le programme que vous avez en pièce jointe en adaptant la première ligne à l'emplacement de votre fichier sur votre ordinateur.

(On doit pouvoir faire encore mieux).



Une fonction pour simplifier les tableaux sous R

Je vous ai présenté il y a quelques temps les techniques pour avoir un tableau avec des pourcentages en ligne (ou en colonne), des marges et les effectifs.

[lire la suite]



Faire un tableau croisé sur R

Si l'on regarde les options par défaut, les statistiques descriptives ne semblent pas être le point fort de R. Cela semble à première vue très minimal et peu pratique. Mais en fouillant bien, on se rend compte que l'on peut faire pas mal de choses et que certaines options peuvent s'avérer très pratiques. Voyons le cas à partir de quelques exemples.

[lire la suite]

Importation et manipulation des données

R peut lire des données SAS au format xport, de même que des données tabulées au format txt, des données au format DBF (format DBASE utilisé pour la diffusion des données sur le site de l'insee), au format excel ou spss.

[Lire la suite ... ]

Tweets (rarely/rarement): @OlivierGodechot

[Webmestre]

[Fil rss]

[V. 0.93]

HOP

A CMS


000

clics / mois.