olivier godechot

R tools


Simple functions for textual analysis

La fonction anatext permet de faire un dénombrement des mots, des segments de deux ou trois mots d’une variable textuelle d’une base ou d’un fichier texte. La fonction wordcount permet de compter un mot ou une expression dans une variable textuelle.





Comment faire des tests sous R ?

Un petit article d’introduction aux tests sous R publié d’abord ici http://quanti.hypotheses.org/404.





Quelques fonctions utiles pour R

Je construis parfois des petites fonctions qui peuvent être utiles.



Faut-il travailler sous R pour être heureux ?

Enfin une question qui ne manque pas d’R, et qui montre par la même occasion l’intérêt des fonctions anatext et wordcount dévoilées dans un précédent billet. Voici quelques lignes de codes qui vous montreront qu’il est relativement facile sinon d’être heureux du moins de reproduire les tableaux de l’article éponyme de Christian Baudelot et Michel Gollac. Pour cela, je vous invite à télécharger les données, et ensuite de soumetre dans R l’ensemble des fonctions que l’on trouve ici . Enfin le programme ci-dessous devrait faire l’affaire.

 

Petite simulation de la technique des variables instrumentales

Les variables instrumentales sont des techniques économétriques d’usage courant en économie et en voie de diffusion (mais relativement lente) en sociologie. Ces techniques permettent de corriger des biais d’estimation fréquents liés au fait que les variables explicatives sont mesurées avec erreur, qu’elles sont souvent incomplètes et que l’on est confronté à de l’hétérogénéité inobservée ou encore que la variable explicative n’est pas totalement exogène et qu’elle dépend aussi de la variable expliquée. Le programme R suivant permet de simuler les trois cas classiques de biais, d’en montrer l’ampleur et le sens et aussi de montrer comment des variables instrumentales permettent de corriger et ce avec une efficacité que l’on trouvera même surprenante les biais en question. Cela, dit, simuler le problème et sa résolution reste notoirement plus facile que de trouver dans la réalité des bonnes variables instrumentales, des chocs exogènes qui n’affectent indirectement la variable expliquée que via leur effet sur la variable explicative biaisée. 

Les animaux domestiques de François Héran sous R

L’article de François Héran dans Données sociales, « les animaux domestiques » offre une palette de graphiques assez variés. Le refaire sous R est un bon exercice. Nous avons réussi à reproduire la plupart des figures, ou tout au moins à faire quelque chose d’approchant. Après avoir téléchargé les données, il suffit d’exécuter sous R le programme que vous avez en pièce jointe en adaptant la première ligne à l’emplacement de votre fichier sur votre ordinateur.

(On doit pouvoir faire encore mieux).



Une fonction pour simplifier les tableaux sous R

Je vous ai présenté il y a quelques temps les techniques pour avoir un tableau avec des pourcentages en ligne (ou en colonne), des marges et les effectifs.

[lire la suite]

 



Faire un tableau croisé sur R

Si l’on regarde les options par défaut, les statistiques descriptives ne semblent pas être le point fort de R. Cela semble à première vue très minimal et peu pratique. Mais en fouillant bien, on se rend compte que l’on peut faire pas mal de choses et que certaines options peuvent s’avérer très pratiques. Voyons le cas à partir de quelques exemples.

[lire la suite]





Importation et manipulation des données

R peut lire des données SAS au format xport, de même que des données tabulées au format txt, des données au format DBF (format DBASE utilisé pour la diffusion des données sur le site de l’insee), au format excel ou spss.

[Lire la suite ... ]



English | Français

News   

OgO: plus ici|more here

[Données] Data and scripts for Les fissures de la digue républicaine In our article "Les fissures de la digue républicaine" (in ...: plus ici|more here

[Données] Replication package for the Great Separation The Great Separation is based on fine-grained administrative data that cannot be published ...: plus ici|more here

[Publications] PUBLICATIONS 2025Elvira, Marta and Godechot, Olivier, 2025, « Los que ganan más están cada vez más aislados en el trabajo, ...: plus ici|more here

[Webmestre]

[Fil rss]

[V. 0.93]
HOP

Système d'aide à la publication sur Internet