|
||||
Anatext : Une macro d'analyse textuelleLe mode d'emploi.1. Principes généraux 1. Faire tourner sous sas le fichier Anatext sous SAS. 2. Assigner un libname à l'endroit où se trouve la base Motoutil 3. Soumettre la ligne de commande suivante :
4. Remplir les champs 5. Taper entrée jusqu'à déclenchement de la macro 6. Dans la log, en copie, se trouvent tous les programmes SAS exécutés. Et à la fin de la log se trouve la syntaxe complète de la macro exécutée. 2. Détail de la syntaxe
(where=, keep=,var=,traitem=1, data=_last_,recol=NON,minlong=2, minfreq=9,Majuscul=OUI,Accents=OUI, Ecran=Oui,mat=0,anafac=0,indiv=1, motoutil=OUI,basoutil=MOTOUTIL.MOTOUTIL); where= Clause restrictive sur la base de données sas keep= conserver des variables de croisement var= variables contenant le texte à analyser traitem= type de traitement 1 --> base sas data= base sas à analyser ex: toto.base recol= recoller les variables en cas de risque de mots coupés. minlong= Longueur minimale au-dessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus. minfreq= Seuil de fréquence mininmal au-dessus duquel les mots sont sélectionnés Majuscul= Oui ==> Confusion majuscule, minuscule Accents= OUI ==> Suppression des accents et des cédilles Ecran= Oui ==> Affichage de l'interface de saisie mat= 0. Ne fait rien 1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq 2. Idem avec à la fois les mots et les segments de deux et trois mots. anafac= 0. Ne fait rien 1. Fait une analyse factorielle sur la base des mots (présence/absence). indiv= Définition des individus de la matrice et de l'analyse factorielle 1. Observations 2. UCE de 10 mots motoutil= OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres Non : pas de séparation basoutil= Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex : MOTOUTIL.MOTOUTIL %Anatext (fichier=,traitem=2,minlong=2,minfreq=9,Majuscul=OUI, Accents=OUI,Ecran=Oui,motpara=200,nouvtext=,mat=0, anafac=0,indiv=1,motoutil=OUI, basoutil=MOTOUTIL.MOTOUTIL); fichier= adresse du fichier texte c:\monrep\montext.txt traitem= 2 --> fichier txt minlong= Longueur minimale audessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus. minfreq= Seuil de fréquence minimal au-dessus duquel les mots sont sélectionnés Majuscul= Oui ==> Confusion majuscule, minuscule Accents= OUI ==> Suppression des accents et des cédilles Ecran= Oui ==> Affichage de l'interface de saisie motpara= Nombre maximum de mots par paragraphe nouvtext= Séparateur de textes mat= 0. Ne fait rien 1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq 2. Idem avec à la fois les mots et les segments de deux et trois mots. anafac= 0. Ne fait rien 1. Fait une analyse factorielle sur la base des mots (présence/absence). indiv= Définition des individus de la matrice et de l'analyse factorielle 1. Phrases 2. UCE de 10 mots 3. Paragraphes 4. Textes motoutil= OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres Non : pas de séparation basoutil= Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex : MOTOUTIL.MOTOUTIL |
Tweets (rarely/rarement): @OlivierGodechot |
|||
HOP A CMS |