Guide SPSS
Avant-propos
Ces notes ont un but à la fois humble et prétentieux. Elles ont pour idéal d'aider des étudiants et des chercheurs à utiliser le logiciel statistique SPSS dans leurs travaux de recherche. Cependant, elles ont été produites pour une utilisation comme document complémentaire à une présentation (séminaire, cours, etc.) qui soulignerait certains points de façon plus précise. De plus, le lecteur notera que certaines définitions ne sont qu'une simple traduction de celles des manuels de référence tandis que d'autres ont été reformulées et précisées pour plus de clarté. On retrouvera à l'appendice A la description complète des instructions du logiciel tel que fournie par le livre de référence. De plus, pour utiliser la version SPSS du réseau ERE des Services informatiques de l'Université de Montréal, l'usager aurait intérêt à consulter un document publié par ces Services: Petit guide d'introduction au système UNIX sur ERE. Il contient aussi une section qui traite de l'utilisation de SPSS. L'appendice B de nos notes reprend les principaux renseignements relatifs à l'utilisation de SPSS sous UNIX et tout particulièrement sous le réseau ERE.
Références
Plusieurs manuels sont publiés par SPSS Inc. En voici une liste non exhaustive avec certaines remarques relatives à chacun d'eux:
- LE manuel qui contient la syntaxe de TOUTES les instructions (explications courtes):
SPSS Reference Guide (Release 4), SPSS Inc.;
- un manuel qui contient la description (plus détaillée) des instructions les plus importantes:
NORUSIS, M.J./SPSS Inc., SPSS Base System User's Guide (Release 4), SPSS Inc.;
- un manuel qui décrit explicitement les procédures statistiques de base du logiciel:
SPSS Introductory Statistics Student Guide, SPSS Inc.;
- un manuel qui décrit explicitement les procédures statistiques plus complexes (analyse multivariée, MANOVA, etc.):
SPSS Advanced Statistics User's Guide, SPSS Inc.;
- un manuel sur l'environnement UNIX du logiciel SPSS:
SPSS for UNIX: Operations Guide, SPSS Inc.;
- un livre qui, tout en présentant la description des instructions de base du logiciel, traite aussi de l'aspect statistique de l'analyse des données:
NORUSIS, M.J., The SPSS Guide to Data Analysis for Release 4, SPSS Inc.
Améliorations
En espérant que ces notes puissent être utiles aux futurs utilisateurs de SPSS, l'auteur aimerait souligner que les remarques, commentaires et suggestions quant au contenu et/ou à la présentation de ces notes seront recueillis avec joie, amour et tendresse...
Introduction
Le logiciel statistique SPSS a été créé dans un but bien particulier: le traitement et l'analyse statistique de données. Ces données peuvent être des réponses à un questionnaire d'opinion, des mesures provenant d'expériences en laboratoire, de variables socio-économiques extraites de fichiers de renseignements, etc. Ce logiciel a donc été construit dans l'optique de fichiers de données de type rectangulaire: c'est-à-dire que le fichier contient un nombre de données (sujets, cas, individus, etc.) et que chaque donnée est représentée par un nombre constant de variables (mesures, caractères). SPSS peut analyser des fichiers non rectangulaires sous certaines conditions mais le logiciel reconstruit sous forme interne un fichier en forme rectangulaire. L'usager peut aussi à l'aide d'artifices techniques (ex.: création de variables bidon) rendre un fichier en forme rectangulaire.
Ainsi, pour tenter d'illustrer l'utilisation de ces logiciels, l'appendice C contient un exemple de questionnaire (fictif) et les appendices D et F présentent des programmes SPSS analysant ce questionnaire.
Enfin, notons que la version du logiciel présenté est SPSS (Release) 4.0 . De plus, ce document ne traite pas de l'utilisation de SPSS à l'aide de l'interface à invites (SPSS prompts) ni de l'interface conviviale (SPSS Manager) qui permet les fenêtres, menus, glossaires, etc. Cette approche exige de conna^tre l'éditeur propre à SPSS. De plus, elle exige de travailler sur certains types de terminaux ou stations qui, actuellement, sont malheureusement peu nombreux sur le campus de l'université. L'usager qui, malgré tout, désire utiliser ces interfaces, devra consulter les documents: Petit guide d'introduction au système UNIX sur ERE ou SPSS for UNIX: Operations Guide.
Introduction à SPSS
Structure d'une instruction
Règles générales
Une instruction SPSS comporte 2 parties (zones). La première est la partie contenant les mots de contrôle et la seconde contient les mots spécifiques à chaque mot de contrôle. La zone de contrôle s'écrit à partir de la colonne 1. On pourra débuter une instruction en colonne 2 ou plus en mettant un caractère spécial (+ ou - ou .) en colonne 1. La seconde zone doit être séparée de la première par au moins un espace blanc. Si une instruction exige une zone de spécification dépassant la colonne 80, l'instruction peut continuer sur la ligne suivante à partir de la colonne 2 sans aucun caractère de continuation. La seule restriction, lors d'une continuation sur une autre ligne, est de ne pas scinder une entité (nom, descripteur) en deux parties.
Utilisation de la touche TAB
ATTENTION: il ne faut jamais utiliser la touche comme remplaçante de plusieurs espaces blancs. SPSS interprète incorrectement la touche . Il ne faut donc jamais l'utiliser. Pour insérer plusieurs espaces blancs dans une instruction, on tape plusieurs fois la touche ``espace blanc...
Emplacement logique d'une instruction
Il n'y pas pas d'ordre logique formel pour écrire un programme SPSS. Sauf que certaines instructions doivent appara^tre avant d'autres. Dans les prochains chapitres, on indiquera, s'il y a lieu, lorsqu'une instruction doit appara^tre avant une autre.
Syntaxe d'une instruction
Le caractère ``espace blanc et la virgule sont les délimiteurs utilisés par SPSS. De plus, l'oblique droite (/) est fréquemment utilisée pour séparer plusieurs spécifications dans une instruction. Comme SPSS ne tient aucunement compte des lignes blanches et de la présence de plusieurs espaces blancs entre les mots dans les spécifications, il est fortement recommandé d'en inclure dans son programme. Celui-ci n'en sera que mieux aéré...
Convention d'écriture
Le logiciel ne différencie pas les lettres minuscules des lettres MAJUSCULES sauf pour les noms de fichiers. Dans ce document, l'emploi des lettres MAJUSCULES indique que les mots utilisés proviennent de SPSS.
Instructions descriptives
SET
Syntaxe
SET diverses spécifications de présentation, mise-en-page, de manipulation des données, etc.
Rôle
Indique au logiciel les valeurs de différents paramètres.
Statut
Facultatif.
Remarques
1. Parmi les plus importants paramètres de spécifications, il y a:
- BLANKS = valeur
Transformer les champs blancs en une valeur numérique spécifiée. Par défaut, le champ blanc est considéré comme une valeur manquante (SYSMIS).
- LENGTH = valeur
Spécifier le nombre de lignes par page à l'impression et permettre les sauts-de-page. Par défaut, la valeur vaut 64, i.e. qu'il a des sauts de-page entre les pages de résultats.
- UNDEFINED = WARN ou NOWARN
Permettre au logiciel d'imprimer (WARN) ou non (NOWARN) un message informatif lorsqu'un champ numérique contient des caractères non numériques dans une donnée. La valeur par défaut est WARN.
- WIDTH = valeur
Spécifier la largeur en caractères pour l'impression des résultats. Les valeurs possibles sont entre 80 et 132. La valeur par défaut est 132. 2.Il serait sage de consulter la description complète de l'instruction pour les autres spécifications et leurs valeurs par défaut.
SHOW
Syntaxe
SHOW ALL ou la liste des spécifications désirées
Rôle
Imprimer les valeurs par défaut de tous ou de certains paramètres contrôlés par l'instruction SET.
Statut
Facultatif.
TITLE
Syntaxe
TITLE titre d'au plus 60 caractères
Rôle
Donner un titre au travail. Ce titre sera imprimé au début de chaque page de résultats dans le coin supérieur gauche.
Statut
Facultatif mais recommandé.
SUBTITLE
Syntaxe
SUBTITLE sous-titre d'au plus 60 caractères
Rôle
Donner un sous-titre à chaque ``tâche. Ce sous-titre apparaîtra à chaque page de résultats sous le titre.
Statut
Facultatif mais recommandé.
Remarque
On verra plus loin le concept de tâche associée à l'appel d'une procédure.
COMMENT
Syntaxe
COMMENT texte en commentaire
Rôle
Pour insérer des commentaires dans un programme SPSS.
Statut
Facultatif mais recommandé.
Remarques
- Le commentaire peut s'étendre sur plusieurs lignes débutant toujours en colonne 2 ou plus.
- Le mot COMMENT peut être remplacé par l'astérisque (*).
- Il y a aussi une possibilité d'inclure des commentaires dans la zone de spécification d'une instruction. Le commentaire doit débuter par /* et se terminer par */ . De plus, s'il n'y a plus de texte après le commentaire, */ est facultatif.
Exemples
SET LENGTH=64 /* commentaire */ WIDTH=80 SET LENGTH=45 /* commentaire */ UNDEFINED=NOWARN /* commentaire
DATA LIST
Syntaxe
DATA LIST FILE=nom_du_fichier_de_données
FIXED ou FREE ou LIST
RECORDS=n TABLE ou NOTABLE
/1 liste des variables de la ligne d'une donnée
...
/n liste des variables de la ligne d'une donnée
Rôle
Associer des noms aux variables lues dans le fichier de données. Indiquer le format de lecture et le type de ces variables.
Statut
Obligatoire pour un fichier ordinaire de données.
Exemples
DATA LIST FILE=INLINE FIXED RECORDS=1 /1 CODE 1-3 (A) SEXE 4 STATUT DIPLOME ETAT 5-10 DATA LIST FILE=toto FREE /1 QUEST1 TO QUEST5 DATA LIST FILE='/usagers/brise/ranger/Bidule' FIXED RECORDS=2 /1 CODE 1-4 (A) /2 VAR1 TO VAR5 1-10 VAR6 11-17 (2)
Remarques
On indique à la spécification FILE le nom du fichier où résident les données. Si ce nom du fichier est absent, ceci indique que les données sont dans le programme lui-même (voir l'instruction BEGIN DATA). Si le nom du fichier contient des caractères non alphanumériques, il doit être mis entre apostrophes.
Par défaut, le fichier de données nommé doit résider dans le répertoire où est exécuté le programme SPSS. Si le fichier de données réside dans un autre répertoire, il faut alors nommer le nom complet avec son chemin (arborescence, ``path).
Comme le nom du fichier se rapporte au nom UNIX du fichier, les minuscules sont différenciées des MAJUSCULES.
Les noms de variables sont formés de 1 à 8 caractères alphanumériques (lettres ou chiffres) ou des 5 caractères suivants: @, #, ., _et $ . Les noms doivent débuter par une lettre ou les caractères #et @. Cependant, les variables dont le nom débute par les caractère #et @ ont un rôle particulier (voir le manuel de référence et la section sur l'instruction LEAVE dans ce document). Les variables dont le nom débute par le caractère $ne peuvent être définies que par le logiciel (voir la section Variables pré-définies). Pour éviter une confusion possible, il est fortement suggéré de ne pas terminer un nom de variable par un point (.).
Dans certaines situations, il peut être utile d'employer la formation automatique de noms de variables à l'aide du mot TO. Ainsi, lorsque les noms de variables se terminent par un nombre, le mot TO génère automatiquement les noms des variables. Dans le exemple, le mot TO a généré 5 (noms de) variables: QUEST1 QUEST2 QUEST3 QUEST4 QUEST5 .
Lorsqu'on utilise le mot TO pour générer automatiquement des noms de variables, il faut obligatoirement que le début des noms de variables soit identique. Exemples:
/1 Q1S TO Q5S
/1 Q01 TO Q10
Le premier exemple est erroné car les noms ne se terminent pas par un nombre. Le second exemple est valide et générerait: Q01 Q02 ... Q09 Q10 .
Le mot-clé FIXED indique que chaque donnée est lue sous un format fixe. Il faudra alors indiquer pour chaque variable sa position (en terme de ``colonnes dans le fichier de données) dans la ligne du fichier de données. Si on nomme plusieurs variables avant d'indiquer leurs positions-colonnes, le champ total est divisé également entre les variables. Exemple:
STATUT DIPLOME ETAT 5-10 équivaut à STATUT 5-6 DIPLOME 7-8 ETAT 9-10
Si le champ total n'est pas un multiple du nombre de variables, SPSS détectera une erreur fatale.
On indique entre parenthèses certains types particuliers de variables:
(A) indique une variable alphanumérique (pouvant contenir tout caractère)
(n) indique une variable numérique dont n chiffres à droite représentent la partie décimale.
Exemple:
SALAIRE 1-6 (2) indique que la variable SALAIRE occupe 6 positions (chiffres) dont les 2 derniers représentent la partie décimale.
Un champ contenant les chiffres 102938 serait donc lu 1029.38
Note: La présence d'un point dans le champ lu a priorité sur le format de lecture. Ainsi, dans l'exemple précédent, un champ 1234.5 serait lu 1234.5 .
Une même colonne peut être utilisée par plusieurs variables:
... NOM 1-30 (A) INITIALE 1 (A) SEXE 31 NAISSANC 32-37 ANNAISS MOISNAIS
JOURNAIS 32-37 VAR1 TO VAR10 38-47 ...
Des caractères non numériques décelés dans un champ numérique incite SPSS à transformer ce champ en valeur manquante SYSMIS (voir SYSMIS dans MISSING VALUES et la spécification UNDEFINED dans SET).
Pour les habitués du FORTRAN, il existe une forme de lecture semblable aux notations de FORMAT en FORTRAN. Ex.: V1 TO V10 (1X,F2.1,/,3F4.0,...)
L'option de lecture FREE indique que les données sont représentées en format libre. Chaque valeur dans le fichier est séparée par un (ou des) blanc(s) ou par une virgule. L'option LIST est semblable à FREE sauf qu'une ligne du fichier représente une donnée complète. De plus, ces 2 options ne permettent pas de mettre des espaces blancs pour indiquer une valeur manquante à une variable dans un fichier de données.
La spécification RECORDS indique le nombre de lignes pour une donnée. Cette spécification ne s'applique que dans le cas d'une lecture sous format FIXED. La valeur par défaut est 1.
L'option TABLE permet d'imprimer un tableau d'informations relatives aux variables (nom et type) et du format de lecture (avec l'option de lecture FIXED seulement). NOTABLE supprime ce tableau informatif. La valeur par défaut est TABLE.
N OF CASES
Syntaxe
N OF CASES n
Rôle
Indiquer le nombre de données à traiter dans le fichier.
Statut
Facultatif.
Remarques
- Si le nombre de données à traiter est connu, on l'indique par la valeur n.
- Lorsque la valeur de n est connue, il est préférable de l'indiquer car ceci sauve du temps-machine. De plus, pour tester un programme sur un gros fichier de données, il peut être intéressant de mettre une petite valeur de n (inférieure à la vraie valeur connue) et ainsi économiser du temps de calcul.
MISSING VALUES
Syntaxe
MISSING VALUES nom ou liste de variables(valeurs manquantes)nom(valeurs manquantes)...
Rôle
Indiquer la ou les valeurs manquantes associées à chaque variable. Par conséquent, ces valeurs ne seront pas incluses dans les calculs.
Statut
Facultatif mais presque toujours requis.
Exemples
MISSING VALUES SEXE('X') AGE(999) MISSING VALUES REPONSE2(3) OPINION TO CONCLU(-1) MISSING VALUES Q1,Q3(8,9) Q6,VAR4(LO THRU -1,99) V7(9 THRU HI) MISSING VALUES CODE(' ') REGION('0')
Remarques
- Il faut noter que ces valeurs manquantes s'ajoutent aux champs blancs qui sont aussi, par défaut, considérés comme valeur manquante.
- L'emploi du mot-clé TO facilite l'énumératon d'une liste de variables. Toutes les variables définies entre les 2 variables (dans l'ordre nommé dans le DATA LIST) en seront affectées.
- Le mot-clé ALL signifie ``toutes les variables définies.
- IL faut faire attention aux champs blancs. Pour les variables numériques, ils seront considérés comme valeur manquante mais pour les variables alphanumériques il faudra le spécifier (voir le exemple).
- Le mot-clé THRU peut être utilisé pour indiquer un intervalle de valeurs. On peut employer les mots-clés LOWEST (ou LO) et HIGHEST (ou HI) comme valeurs des bornes avec THRU.
- Le nombre maximum de valeurs distinctes (ou bornes) manquantes est limité à 3 ... Ainsi, l'exemple suivant:
MISSING VALUES AGE(LO THU -1, 100 THRU HI)
est invalide puisqu'il y a 4 valeurs (bornes) mentionnées: LO, -1, 100, HI . Ce qui revient à dire qu'on ne peut utiliser plus d'un mot-clé THRU par variable! Pour pouvoir indiquer plusieurs intervalles (ou valeurs) comme manquants, on pourra utiliser l'instruction RECODE (voir chapitre suivant).
- L'utilisation de THRU avec les variables alphanumériques n'est pas permise.
- En répétant un nom de variable dans un MISSING VALUES, la valeur seulement est conservée. Ainsi, dans l'exemple suivant:
MISSING VALUES ALL(9)QUEST10(99)
La seule valeur manquante associée à QUEST10 sera 99.
- SPSS pré-définit une variable et deux valeurs relativement aux valeurs manquantes. La variable $SYSMISreprésente la valeur manquante par défaut (habituellement le blanc) et la valeur de cette variable est SYSMIS. La valeur MISSING représente ``l'attribut manquant (incluant SYSMIS) associé à chaque variable. La variable $SYSMISpeut être utilisée dans plusieurs instructions (COMPUTE, IF, etc.) ainsi que les valeurs SYSMIS et MISSING (RECODE, COUNT, etc.).
VARIABLE LABELS
Syntaxe
VARIABLE LABELS nom_de_variable'étiquette'/nom de variable ...
Rôle
Associer à un nom de variable une étiquette facilitant la lecture des résultats.
Statut
Facultatif mais très recommandé.
Exemples
VARIABLE LABELS Q1 'STATUT CIVIL' / Q2 "SEXE DE L'INTERVIEWE(E)" / VARIABLE LABELS SEXE 'SEXE DU REPONDANT'/ SALR 'SALAIRE MENSUEL(EN $)' / AN_QUITTE 'ANNEE ' + 'OU LE REPONDANT A QUITTE SON EMPLOI'
Remarques
- L'étiquette ne doit pas contenir plus de 120 caractères.
- Une étiquette peut s'écrire sur plus d'une ligne en mettant le symbole + au début de la ligne de contiuation de l'étiquette.
- Tous les caractères peuvent être utilisés dans la formation des étiquettes. S'il y a des apostrophes (') dans l'étiquette, celle-ci devra être mise entre guillemets (") (Voir le exemple). Ainsi, on peut utiliser l'apostrophe ou le guillemet comme délimiteur d'une étiquette.
- L'emploi de l'oblique droite (/) est facultatif.
- L'emploi des apostrophes (ou guillemets) est facultatif. Dans ce cas, chaque variable (et son étiquette) doit obligatoirement être séparée par l'oblique droite (/).
Exemple: Q1 AGE3 / Q2 SEXE / ...
- Une étiquette ne peut être associée à une variable avant que celle-ci n'ait été définie.