olivier godechot

Anatext : Une macro d'analyse textuelle

Le mode d'emploi.



1. Principes généraux

1. Faire tourner sous sas le fichier Anatext sous SAS.

2. Assigner un libname à l'endroit où se trouve la base Motoutil

3. Soumettre la ligne de commande suivante :

    %anatext;


4. Remplir les champs

5. Taper entrée jusqu'à déclenchement de la macro

6. Dans la log, en copie, se trouvent tous les programmes SAS exécutés. Et à la fin de la log se trouve la syntaxe complète de la macro exécutée.

2. Détail de la syntaxe

  • Premier cas : Variable(s) textuelle(s) d'une base SAS (toto.base)

      %Anatext
      (where=, keep=,var=,traitem=1,
      data=_last_,recol=NON,minlong=2,
      minfreq=9,Majuscul=OUI,Accents=OUI,
      Ecran=Oui,mat=0,anafac=0,indiv=1,
      motoutil=OUI,basoutil=MOTOUTIL.MOTOUTIL);


      where=
      Clause restrictive sur la base de données sas

      keep=
      conserver des variables de croisement

      var=
      variables contenant le texte à analyser

      traitem=
      type de traitement
      1 --> base sas

      data=
      base sas à analyser ex: toto.base

      recol=
      recoller les variables en cas de risque de mots coupés.

      minlong=
      Longueur minimale au-dessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus.

      minfreq=
      Seuil de fréquence mininmal au-dessus duquel les mots sont sélectionnés

      Majuscul=
      Oui ==> Confusion majuscule, minuscule

      Accents=
      OUI ==> Suppression des accents et des cédilles

      Ecran=
      Oui ==> Affichage de l'interface de saisie

      mat=
      0. Ne fait rien
      1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq
      2. Idem avec à la fois les mots et les segments de deux et trois mots.

      anafac=
      0. Ne fait rien
      1. Fait une analyse factorielle sur la base des mots (présence/absence).

      indiv=
      Définition des individus de la matrice et de l'analyse factorielle
      1. Observations
      2. UCE de 10 mots

      motoutil=
      OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres
      Non : pas de séparation

      basoutil=
      Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex :
      MOTOUTIL.MOTOUTIL


  • Deuxième cas Fichier Textes (monfichier.txt)


      %Anatext
      (fichier=,traitem=2,minlong=2,minfreq=9,Majuscul=OUI,
      Accents=OUI,Ecran=Oui,motpara=200,nouvtext=,mat=0,
      anafac=0,indiv=1,motoutil=OUI,
      basoutil=MOTOUTIL.MOTOUTIL);


      fichier=
      adresse du fichier texte c:\monrep\montext.txt

      traitem=
      2 --> fichier txt

      minlong=
      Longueur minimale audessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus.

      minfreq=
      Seuil de fréquence minimal au-dessus duquel les mots sont sélectionnés

      Majuscul=
      Oui ==> Confusion majuscule, minuscule

      Accents=
      OUI ==> Suppression des accents et des cédilles

      Ecran=
      Oui ==> Affichage de l'interface de saisie

      motpara=
      Nombre maximum de mots par paragraphe

      nouvtext=
      Séparateur de textes

      mat=
      0. Ne fait rien
      1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq
      2. Idem avec à la fois les mots et les segments de deux et trois mots.

      anafac=
      0. Ne fait rien
      1. Fait une analyse factorielle sur la base des mots (présence/absence).

      indiv=
      Définition des individus de la matrice et de l'analyse factorielle
      1. Phrases
      2. UCE de 10 mots
      3. Paragraphes
      4. Textes

      motoutil=
      OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres
      Non : pas de séparation

      basoutil=
      Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex :
      MOTOUTIL.MOTOUTIL



  • English | Français

    News   

    OgO: plus ici|more here

    [Presse] Atlantico et Olivier Godechot, La grande séparation : les salariés les mieux rémunérés travaillent de plus en plus ensemble… et ...: plus ici|more here

    [Publications] Godechot, Olivier, Blackstone vs BlackRock: Our lives in their portfolios. Why asset managers own the world. By Brett Christophers, London: plus ici|more here

    Tweets (rarely/rarement): @OlivierGodechot

    [Webmestre]

    [Fil rss]

    [V. 0.93]

    HOP

    A CMS