olivier godechot

Tribulations d'un sasseur découvrant R


R est un logiciel de mathématiques et de statistiques gratuit, open source. Il existe de nombreux manuels d'introduction à R, assez bien faits.... mais souvent un peu déroutants. En effet, la présentation commence toujours par la manipulation des objets mathématiques et met du temps à arriver à la présentation de la dimension statistique. Le point de vue est ici différent.... c'est comment faire en R, pour faire comme dans SAS, bref en partant des habitudes (mauvaises ou bonnes) de SAS : comment transposer notre étape DATA et notre étape PROC sur l'environnement rugueux (pas trop convivial) mais néanmoins sympathique de R ?



Faut-il travailler sous R pour être heureux ?

Enfin une question qui ne manque pas d'R, et qui montre par la même occasion l'intérêt des fonctions anatext et wordcount dévoilées dans un précédent billet. Voici quelques lignes de codes qui vous montreront qu'il est relativement facile sinon d'être heureux du moins de reproduire les tableaux de l'article éponyme de Christian Baudelot et Michel Gollac. Pour cela, je vous invite à télécharger les données, et ensuite de soumetre dans R l'ensemble des fonctions que l'on trouve ici . Enfin le programme ci-dessous devrait faire l'affaire.



Des fonctions pour faire de l'analyse textuelle sous R

La fonction anatext permet de faire un dénombrement des mots, des segments de deux ou trois mots d'une variable textuelle d'une base ou d'un fichier texte. La fonction wordcount permet de compter un mot ou une expression dans une variable textuelle.



Petite simulation de la technique des variables instrumentales

Les variables instrumentales sont des techniques économétriques d'usage courant en économie et en voie de diffusion (mais relativement lente) en sociologie. Ces techniques permettent de corriger des biais d'estimation fréquents liés au fait que les variables explicatives sont mesurées avec erreur, qu'elles sont souvent incomplètes et que l'on est confronté à de l'hétérogénéité inobservée ou encore que la variable explicative n'est pas totalement exogène et qu'elle dépend aussi de la variable expliquée. Le programme R suivant permet de simuler les trois cas classiques de biais, d'en montrer l'ampleur et le sens et aussi de montrer comment des variables instrumentales permettent de corriger et ce avec une efficacité que l'on trouvera même surprenante les biais en question. Cela, dit, simuler le problème et sa résolution reste notoirement plus facile que de trouver dans la réalité des bonnes variables instrumentales, des chocs exogènes qui n'affectent indirectement la variable expliquée que via leur effet sur la variable explicative biaisée. 



Comment faire des tests sous R ?

Un petit article d'introduction aux tests sous R publié d'abord ici http://quanti.hypotheses.org/404.



Les animaux domestiques de François Héran sous R

L'article de François Héran dans Données sociales, « les animaux domestiques » offre une palette de graphiques assez variés. Le refaire sous R est un bon exercice. Nous avons réussi à reproduire la plupart des figures, ou tout au moins à faire quelque chose d'approchant. Après avoir téléchargé les données, il suffit d'exécuter sous R le programme que vous avez en pièce jointe en adaptant la première ligne à l'emplacement de votre fichier sur votre ordinateur.

(On doit pouvoir faire encore mieux).



Une fonction pour simplifier les tableaux sous R

Je vous ai présenté il y a quelques temps les techniques pour avoir un tableau avec des pourcentages en ligne (ou en colonne), des marges et les effectifs.

[lire la suite]



Faire un tableau croisé sur R

Si l'on regarde les options par défaut, les statistiques descriptives ne semblent pas être le point fort de R. Cela semble à première vue très minimal et peu pratique. Mais en fouillant bien, on se rend compte que l'on peut faire pas mal de choses et que certaines options peuvent s'avérer très pratiques. Voyons le cas à partir de quelques exemples.

[lire la suite]

Importation et manipulation des données

R peut lire des données SAS au format xport, de même que des données tabulées au format txt, des données au format DBF (format DBASE utilisé pour la diffusion des données sur le site de l'insee), au format excel ou spss.

[Lire la suite ... ]

LES COMMENTAIRES | COMMENTS

5 messages Ajouter un commentaire
Add a comment
Contacter le Webmestre
Contact the Webmaster

Olivier GODECHOT  @  (2008-12-22 12:40:04)

On me pose la question suivante : "je me permet de vous écrire n'ayant pas eu de réponse à ma requête dans le forum R. Je cherche à faire un tableau de contingence pondéré, comme sous SAS lorsqu'on rajoute l'option WEIGHT dans une PROC FREQ. J'ai bien vu que la fonction table(V1,V2) retourne un tableau de contingence, comment faire pour obtenir un tableau de contingence qui prenne en compte une variable de pondération V3." Voici quelques éléments de réponse. Je ne connais pas d'option dans la fonction table ou dans ces répliques qui permettrait de faire la même chose que l'option weight de SAS. En revanche, on peut utiliser la fonction tapply : tapply(he$PONDER,list(he$st_b,he$txchat),sum,na.rm=TRUE) On applique la fonction sum à la variable de pondération PONDER en croisant par les catégories des deux variables contenues dans list. Ceci nous donne le résultat suivant : 0 1 0.CantonRural 1412279 809289 1.CantonRurbain 1914127 1053413 2.Ville100 000 4224054 833093 5.Banlieue 1928941 384898 6.Paris 1082036 113097 En utilisant la variable pondération de l'enquête Contacts, on sait que 1 082 000 de ménages à Paris n'avait pas de chat. La table en sortie se gère comme un tableau normal. On peut ajouter les pourcentages en ligne, en colonne, ainsi que les marges.


Joël  @  (2008-11-27 09:31:42)

Je découvre aussi ces posts sur R. A mon avis, il est presque de salut public de proposer une initiation pas trop rebutante à R pour des étudiants et/ou chercheurs en sciences sociales. Merci Olivier !


Jean-Michel  @  (2008-02-24 15:30:25)

Je connaissais R mais je n'ai jamais testé (rebuté par la phase d'apprentissage). Quels seraient les arguments pour convaincre un sociologue de s'y mettre plutôt que de se contenter des outils propriétaires (Modalisa dans mon cas) ?


François  @  (2008-01-17 03:18:13)

Comme Baptiste : bravo, enfin une introduction à R en langage ordinaire.

J'attends surtout les graphes, qui me semblent le motif majeur pour un apprentissage de R, en dehors du coût prohibitif des alternatives commerciales.

R fait de vraies merveilles au niveau des graphes, mieux que SPSS et plus rapidement. En revanche au niveau des tables, c'est un peu laborieux.


Baptiste  @  (2008-01-13 20:09:35)

Bravo !
J'attends la suite avec impatience...


[Fin des messages]


Garder le fil (rss) des commentaires
Français | English

Actualités   

OgO: plus ici|more here

[Publications] Godechot (Olivier), Introduction: Is sociology of finance a general sociology?, Finance at work: plus ici|more here

[Publications] Tomaskovic-Devey (Donald) (with) Godechot (Olivier et al.), The Comparative Organizational Inequality Network: Toward an Economic Sociology of Inequality, economic sociology: plus ici|more here

[Publications] Godechot (Olivier), Inequality: A Piketty et al. Moment in the Social Sciences, economic sociology_the european electronic newsletter: plus ici|more here

[Webmestre]

[Fil rss]

[V. 0.93]

HOP

Système d'aide à la publication sur Internet


00135.14

clics / mois.