|
Anatext : Une macro d’analyse textuelle
Le mode d’emploi.
1. Principes généraux 1. Faire tourner sous sas le fichier Anatext sous SAS. 2. Assigner un libname à l’endroit où se trouve la base Motoutil 3. Soumettre la ligne de commande suivante :
4. Remplir les champs 5. Taper entrée jusqu’à déclenchement de la macro 6. Dans la log, en copie, se trouvent tous les programmes SAS exécutés. Et à la fin de la log se trouve la syntaxe complète de la macro exécutée. 2. Détail de la syntaxe
- Premier cas : Variable(s) textuelle(s) d’une base SAS (toto.base)
%Anatext (where=, keep=,var=,traitem=1, data=_last_,recol=NON,minlong=2, minfreq=9,Majuscul=OUI,Accents=OUI, Ecran=Oui,mat=0,anafac=0,indiv=1, motoutil=OUI,basoutil=MOTOUTIL.MOTOUTIL);
where=
Clause restrictive sur la base de données sas
keep=
conserver des variables de croisement
var=
variables contenant le texte à analyser
traitem=
data=
base sas à analyser ex: toto.base
recol=
recoller les variables en cas de risque de mots coupés.
minlong=
Longueur minimale au-dessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus.
minfreq=
Seuil de fréquence mininmal au-dessus duquel les mots sont sélectionnés
Majuscul=
Oui ==> Confusion majuscule, minuscule
Accents=
OUI ==> Suppression des accents et des cédilles
Ecran=
Oui ==> Affichage de l’interface de saisie
mat=
1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq
2. Idem avec à la fois les mots et les segments de deux et trois mots.
anafac=
1. Fait une analyse factorielle sur la base des mots (présence/absence).
indiv=
Définition des individus de la matrice et de l’analyse factorielle
motoutil=
OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres
basoutil=
Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex :
- Deuxième cas Fichier Textes (monfichier.txt)
%Anatext (fichier=,traitem=2,minlong=2,minfreq=9,Majuscul=OUI, Accents=OUI,Ecran=Oui,motpara=200,nouvtext=,mat=0, anafac=0,indiv=1,motoutil=OUI, basoutil=MOTOUTIL.MOTOUTIL);
fichier=
adresse du fichier texte c:monrepmontext.txt
traitem=
minlong=
Longueur minimale audessus duquel les mots sont sélectionnés. Si minlong=2 on prend les mots de 3 caractères ou plus.
minfreq=
Seuil de fréquence minimal au-dessus duquel les mots sont sélectionnés
Majuscul=
Oui ==> Confusion majuscule, minuscule
Accents=
OUI ==> Suppression des accents et des cédilles
Ecran=
Oui ==> Affichage de l’interface de saisie
motpara=
Nombre maximum de mots par paragraphe
nouvtext=
mat=
1. Génère une matrice avec en ligne les individus, en colonne les mots dont le seuil de fréquence dépasse minfreq
2. Idem avec à la fois les mots et les segments de deux et trois mots.
anafac=
1. Fait une analyse factorielle sur la base des mots (présence/absence).
indiv=
Définition des individus de la matrice et de l’analyse factorielle
motoutil=
OUI : Utilisation de la base Motoutil pour séparer les mots outils des autres
basoutil=
Adresse de la base motoutil. (il faut avoir soumis avant cela le libname). par ex :
|
|