Guide SPSS

Avant-propos

Ces notes ont un but à la fois humble et prétentieux. Elles ont pour idéal d'aider des étudiants et des chercheurs à utiliser le logiciel statistique SPSS dans leurs travaux de recherche. Cependant, elles ont été produites pour une utilisation comme document complémentaire à une présentation (séminaire, cours, etc.) qui soulignerait certains points de façon plus précise. De plus, le lecteur notera que certaines définitions ne sont qu'une simple traduction de celles des manuels de référence tandis que d'autres ont été reformulées et précisées pour plus de clarté. On retrouvera à l'appendice A la description complète des instructions du logiciel tel que fournie par le livre de référence. De plus, pour utiliser la version SPSS du réseau ERE des Services informatiques de l'Université de Montréal, l'usager aurait intérêt à consulter un document publié par ces Services: Petit guide d'introduction au système UNIX sur ERE. Il contient aussi une section qui traite de l'utilisation de SPSS. L'appendice B de nos notes reprend les principaux renseignements relatifs à l'utilisation de SPSS sous UNIX et tout particulièrement sous le réseau ERE.

Références

Plusieurs manuels sont publiés par SPSS Inc. En voici une liste non exhaustive avec certaines remarques relatives à chacun d'eux:

LE manuel qui contient la syntaxe de TOUTES les instructions (explications courtes):

SPSS Reference Guide (Release 4), SPSS Inc.;

un manuel qui contient la description (plus détaillée) des instructions les plus importantes:

NORUSIS, M.J./SPSS Inc., SPSS Base System User's Guide (Release 4), SPSS Inc.;

un manuel qui décrit explicitement les procédures statistiques de base du logiciel:

SPSS Introductory Statistics Student Guide, SPSS Inc.;

un manuel qui décrit explicitement les procédures statistiques plus complexes (analyse multivariée, MANOVA, etc.):

SPSS Advanced Statistics User's Guide, SPSS Inc.;

un manuel sur l'environnement UNIX du logiciel SPSS:

SPSS for UNIX: Operations Guide, SPSS Inc.;

un livre qui, tout en présentant la description des instructions de base du logiciel, traite aussi de l'aspect statistique de l'analyse des données:

NORUSIS, M.J., The SPSS Guide to Data Analysis for Release 4, SPSS Inc.

Améliorations

En espérant que ces notes puissent être utiles aux futurs utilisateurs de SPSS, l'auteur aimerait souligner que les remarques, commentaires et suggestions quant au contenu et/ou à la présentation de ces notes seront recueillis avec joie, amour et tendresse...

Introduction

Le logiciel statistique SPSS a été créé dans un but bien particulier: le traitement et l'analyse statistique de données. Ces données peuvent être des réponses à un questionnaire d'opinion, des mesures provenant d'expériences en laboratoire, de variables socio-économiques extraites de fichiers de renseignements, etc. Ce logiciel a donc été construit dans l'optique de fichiers de données de type rectangulaire: c'est-à-dire que le fichier contient un nombre de données (sujets, cas, individus, etc.) et que chaque donnée est représentée par un nombre constant de variables (mesures, caractères). SPSS peut analyser des fichiers non rectangulaires sous certaines conditions mais le logiciel reconstruit sous forme interne un fichier en forme rectangulaire. L'usager peut aussi à l'aide d'artifices techniques (ex.: création de variables bidon) rendre un fichier en forme rectangulaire.

Ainsi, pour tenter d'illustrer l'utilisation de ces logiciels, l'appendice C contient un exemple de questionnaire (fictif) et les appendices D et F présentent des programmes SPSS analysant ce questionnaire.

Enfin, notons que la version du logiciel présenté est SPSS (Release) 4.0 . De plus, ce document ne traite pas de l'utilisation de SPSS à l'aide de l'interface à invites (SPSS prompts) ni de l'interface conviviale (SPSS Manager) qui permet les fenêtres, menus, glossaires, etc. Cette approche exige de conna^tre l'éditeur propre à SPSS. De plus, elle exige de travailler sur certains types de terminaux ou stations qui, actuellement, sont malheureusement peu nombreux sur le campus de l'université. L'usager qui, malgré tout, désire utiliser ces interfaces, devra consulter les documents: Petit guide d'introduction au système UNIX sur ERE ou SPSS for UNIX: Operations Guide.

Introduction à SPSS

Structure d'une instruction

Règles générales

Une instruction SPSS comporte 2 parties (zones). La première est la partie contenant les mots de contrôle et la seconde contient les mots spécifiques à chaque mot de contrôle. La zone de contrôle s'écrit à partir de la colonne 1. On pourra débuter une instruction en colonne 2 ou plus en mettant un caractère spécial (+ ou - ou .) en colonne 1. La seconde zone doit être séparée de la première par au moins un espace blanc. Si une instruction exige une zone de spécification dépassant la colonne 80, l'instruction peut continuer sur la ligne suivante à partir de la colonne 2 sans aucun caractère de continuation. La seule restriction, lors d'une continuation sur une autre ligne, est de ne pas scinder une entité (nom, descripteur) en deux parties.

Utilisation de la touche TAB

ATTENTION: il ne faut jamais utiliser la touche comme remplaçante de plusieurs espaces blancs. SPSS interprète incorrectement la touche . Il ne faut donc jamais l'utiliser. Pour insérer plusieurs espaces blancs dans une instruction, on tape plusieurs fois la touche ``espace blanc...

Emplacement logique d'une instruction

Il n'y pas pas d'ordre logique formel pour écrire un programme SPSS. Sauf que certaines instructions doivent appara^tre avant d'autres. Dans les prochains chapitres, on indiquera, s'il y a lieu, lorsqu'une instruction doit appara^tre avant une autre.

Syntaxe d'une instruction

Le caractère ``espace blanc et la virgule sont les délimiteurs utilisés par SPSS. De plus, l'oblique droite (/) est fréquemment utilisée pour séparer plusieurs spécifications dans une instruction. Comme SPSS ne tient aucunement compte des lignes blanches et de la présence de plusieurs espaces blancs entre les mots dans les spécifications, il est fortement recommandé d'en inclure dans son programme. Celui-ci n'en sera que mieux aéré...

Convention d'écriture

Le logiciel ne différencie pas les lettres minuscules des lettres MAJUSCULES sauf pour les noms de fichiers. Dans ce document, l'emploi des lettres MAJUSCULES indique que les mots utilisés proviennent de SPSS.

Instructions descriptives

SET

Syntaxe

SET diverses spécifications de présentation, mise-en-page, de manipulation des données, etc.

Rôle

Indique au logiciel les valeurs de différents paramètres.

Statut

Facultatif.

Remarques

1. Parmi les plus importants paramètres de spécifications, il y a:

BLANKS = valeur

Transformer les champs blancs en une valeur numérique spécifiée. Par défaut, le champ blanc est considéré comme une valeur manquante (SYSMIS).

LENGTH = valeur

Spécifier le nombre de lignes par page à l'impression et permettre les sauts-de-page. Par défaut, la valeur vaut 64, i.e. qu'il a des sauts de-page entre les pages de résultats.

UNDEFINED = WARN ou NOWARN

Permettre au logiciel d'imprimer (WARN) ou non (NOWARN) un message informatif lorsqu'un champ numérique contient des caractères non numériques dans une donnée. La valeur par défaut est WARN.

WIDTH = valeur

Spécifier la largeur en caractères pour l'impression des résultats. Les valeurs possibles sont entre 80 et 132. La valeur par défaut est 132. 2.Il serait sage de consulter la description complète de l'instruction pour les autres spécifications et leurs valeurs par défaut.

SHOW

Syntaxe

SHOW ALL ou la liste des spécifications désirées

Rôle

Imprimer les valeurs par défaut de tous ou de certains paramètres contrôlés par l'instruction SET.

Statut

Facultatif.

TITLE

Syntaxe

TITLE titre d'au plus 60 caractères

Rôle

Donner un titre au travail. Ce titre sera imprimé au début de chaque page de résultats dans le coin supérieur gauche.

Statut

Facultatif mais recommandé.

SUBTITLE

Syntaxe

SUBTITLE sous-titre d'au plus 60 caractères

Rôle

Donner un sous-titre à chaque ``tâche. Ce sous-titre apparaîtra à chaque page de résultats sous le titre.

Statut

Facultatif mais recommandé.

Remarque

On verra plus loin le concept de tâche associée à l'appel d'une procédure.

COMMENT

Syntaxe

COMMENT texte en commentaire

Rôle

Pour insérer des commentaires dans un programme SPSS.

Statut

Facultatif mais recommandé.

Remarques

Le commentaire peut s'étendre sur plusieurs lignes débutant toujours en colonne 2 ou plus.
Le mot COMMENT peut être remplacé par l'astérisque (*).
Il y a aussi une possibilité d'inclure des commentaires dans la zone de spécification d'une instruction. Le commentaire doit débuter par /* et se terminer par */ . De plus, s'il n'y a plus de texte après le commentaire, */ est facultatif.

Exemples

      SET LENGTH=64 /* commentaire */ WIDTH=80
      SET LENGTH=45 /* commentaire */
          UNDEFINED=NOWARN /* commentaire

DATA LIST

Syntaxe

DATA LIST FILE=nom_du_fichier_de_données
FIXED ou FREE ou LIST
RECORDS=n TABLE ou NOTABLE
/1 liste des variables de la ligne d'une donnée
...
/n liste des variables de la ligne d'une donnée

Rôle

Associer des noms aux variables lues dans le fichier de données. Indiquer le format de lecture et le type de ces variables.

Statut

Obligatoire pour un fichier ordinaire de données.

Exemples

   DATA LIST  FILE=INLINE  FIXED  RECORDS=1
    		/1 CODE 1-3 (A) SEXE 4 STATUT DIPLOME ETAT 5-10
   DATA LIST  FILE=toto  FREE  /1 QUEST1 TO QUEST5
   DATA LIST  FILE='/usagers/brise/ranger/Bidule'  FIXED  RECORDS=2
    		/1 CODE 1-4 (A)
    		/2 VAR1 TO VAR5 1-10 VAR6 11-17 (2)

Remarques

On indique à la spécification FILE le nom du fichier où résident les données. Si ce nom du fichier est absent, ceci indique que les données sont dans le programme lui-même (voir l'instruction BEGIN DATA). Si le nom du fichier contient des caractères non alphanumériques, il doit être mis entre apostrophes.
Par défaut, le fichier de données nommé doit résider dans le répertoire où est exécuté le programme SPSS. Si le fichier de données réside dans un autre répertoire, il faut alors nommer le nom complet avec son chemin (arborescence, ``path).
Comme le nom du fichier se rapporte au nom UNIX du fichier, les minuscules sont différenciées des MAJUSCULES.
Les noms de variables sont formés de 1 à 8 caractères alphanumériques (lettres ou chiffres) ou des 5 caractères suivants: @, #, ., _et $ . Les noms doivent débuter par une lettre ou les caractères #et @. Cependant, les variables dont le nom débute par les caractère #et @ ont un rôle particulier (voir le manuel de référence et la section sur l'instruction LEAVE dans ce document). Les variables dont le nom débute par le caractère $ne peuvent être définies que par le logiciel (voir la section Variables pré-définies). Pour éviter une confusion possible, il est fortement suggéré de ne pas terminer un nom de variable par un point (.).
Dans certaines situations, il peut être utile d'employer la formation automatique de noms de variables à l'aide du mot TO. Ainsi, lorsque les noms de variables se terminent par un nombre, le mot TO génère automatiquement les noms des variables. Dans le exemple, le mot TO a généré 5 (noms de) variables: QUEST1 QUEST2 QUEST3 QUEST4 QUEST5 .
Lorsqu'on utilise le mot TO pour générer automatiquement des noms de variables, il faut obligatoirement que le début des noms de variables soit identique. Exemples:

   /1 Q1S TO Q5S 

   /1 Q01 TO Q10

Le premier exemple est erroné car les noms ne se terminent pas par un nombre. Le second exemple est valide et générerait: Q01 Q02 ... Q09 Q10 .
Le mot-clé FIXED indique que chaque donnée est lue sous un format fixe. Il faudra alors indiquer pour chaque variable sa position (en terme de ``colonnes dans le fichier de données) dans la ligne du fichier de données. Si on nomme plusieurs variables avant d'indiquer leurs positions-colonnes, le champ total est divisé également entre les variables. Exemple:

   STATUT DIPLOME ETAT 5-10 équivaut à STATUT 5-6 DIPLOME 7-8 ETAT 9-10

Si le champ total n'est pas un multiple du nombre de variables, SPSS détectera une erreur fatale.
On indique entre parenthèses certains types particuliers de variables:

(A) indique une variable alphanumérique (pouvant contenir tout caractère)
(n) indique une variable numérique dont n chiffres à droite représentent la partie décimale. Exemple:

   SALAIRE 1-6 (2) indique que la variable SALAIRE occupe 6 positions (chiffres) dont les 2 derniers représentent la partie décimale. 
 Un champ contenant les chiffres 102938 serait donc lu 1029.38

Note: La présence d'un point dans le champ lu a priorité sur le format de lecture. Ainsi, dans l'exemple précédent, un champ 1234.5 serait lu 1234.5 .

Une même colonne peut être utilisée par plusieurs variables:

   ... NOM 1-30 (A) INITIALE 1 (A) SEXE 31 NAISSANC 32-37 ANNAISS MOISNAIS 

   JOURNAIS 32-37 VAR1 TO VAR10 38-47 ...

Des caractères non numériques décelés dans un champ numérique incite SPSS à transformer ce champ en valeur manquante SYSMIS (voir SYSMIS dans MISSING VALUES et la spécification UNDEFINED dans SET).
Pour les habitués du FORTRAN, il existe une forme de lecture semblable aux notations de FORMAT en FORTRAN. Ex.: V1 TO V10 (1X,F2.1,/,3F4.0,...)
L'option de lecture FREE indique que les données sont représentées en format libre. Chaque valeur dans le fichier est séparée par un (ou des) blanc(s) ou par une virgule. L'option LIST est semblable à FREE sauf qu'une ligne du fichier représente une donnée complète. De plus, ces 2 options ne permettent pas de mettre des espaces blancs pour indiquer une valeur manquante à une variable dans un fichier de données.
La spécification RECORDS indique le nombre de lignes pour une donnée. Cette spécification ne s'applique que dans le cas d'une lecture sous format FIXED. La valeur par défaut est 1.
L'option TABLE permet d'imprimer un tableau d'informations relatives aux variables (nom et type) et du format de lecture (avec l'option de lecture FIXED seulement). NOTABLE supprime ce tableau informatif. La valeur par défaut est TABLE.

N OF CASES

Syntaxe

N OF CASES n

Rôle

Indiquer le nombre de données à traiter dans le fichier.

Statut

Facultatif.

Remarques

Si le nombre de données à traiter est connu, on l'indique par la valeur n.
Lorsque la valeur de n est connue, il est préférable de l'indiquer car ceci sauve du temps-machine. De plus, pour tester un programme sur un gros fichier de données, il peut être intéressant de mettre une petite valeur de n (inférieure à la vraie valeur connue) et ainsi économiser du temps de calcul.

MISSING VALUES

Syntaxe

MISSING VALUES nom ou liste de variables(valeurs manquantes)nom(valeurs manquantes)...

Rôle

Indiquer la ou les valeurs manquantes associées à chaque variable. Par conséquent, ces valeurs ne seront pas incluses dans les calculs.

Statut

Facultatif mais presque toujours requis.

Exemples

MISSING VALUES  SEXE('X') AGE(999)
MISSING VALUES  REPONSE2(3) OPINION TO CONCLU(-1)
MISSING VALUES  Q1,Q3(8,9) Q6,VAR4(LO THRU -1,99) V7(9 THRU HI)
MISSING VALUES  CODE(' ') REGION('0')

Remarques

Il faut noter que ces valeurs manquantes s'ajoutent aux champs blancs qui sont aussi, par défaut, considérés comme valeur manquante.
L'emploi du mot-clé TO facilite l'énumératon d'une liste de variables. Toutes les variables définies entre les 2 variables (dans l'ordre nommé dans le DATA LIST) en seront affectées.
Le mot-clé ALL signifie ``toutes les variables définies.
IL faut faire attention aux champs blancs. Pour les variables numériques, ils seront considérés comme valeur manquante mais pour les variables alphanumériques il faudra le spécifier (voir le exemple).
Le mot-clé THRU peut être utilisé pour indiquer un intervalle de valeurs. On peut employer les mots-clés LOWEST (ou LO) et HIGHEST (ou HI) comme valeurs des bornes avec THRU.
Le nombre maximum de valeurs distinctes (ou bornes) manquantes est limité à 3 ... Ainsi, l'exemple suivant:

  MISSING VALUES AGE(LO THU -1, 100 THRU HI)

est invalide puisqu'il y a 4 valeurs (bornes) mentionnées: LO, -1, 100, HI . Ce qui revient à dire qu'on ne peut utiliser plus d'un mot-clé THRU par variable! Pour pouvoir indiquer plusieurs intervalles (ou valeurs) comme manquants, on pourra utiliser l'instruction RECODE (voir chapitre suivant).

L'utilisation de THRU avec les variables alphanumériques n'est pas permise.
En répétant un nom de variable dans un MISSING VALUES, la valeur seulement est conservée. Ainsi, dans l'exemple suivant:

  MISSING VALUES ALL(9)QUEST10(99)

La seule valeur manquante associée à QUEST10 sera 99.

SPSS pré-définit une variable et deux valeurs relativement aux valeurs manquantes. La variable $SYSMISreprésente la valeur manquante par défaut (habituellement le blanc) et la valeur de cette variable est SYSMIS. La valeur MISSING représente ``l'attribut manquant (incluant SYSMIS) associé à chaque variable. La variable $SYSMISpeut être utilisée dans plusieurs instructions (COMPUTE, IF, etc.) ainsi que les valeurs SYSMIS et MISSING (RECODE, COUNT, etc.).

VARIABLE LABELS

Syntaxe

VARIABLE LABELS nom_de_variable'étiquette'/nom de variable ...

Rôle

Associer à un nom de variable une étiquette facilitant la lecture des résultats.

Statut

Facultatif mais très recommandé.

Exemples

  VARIABLE LABELS  Q1 'STATUT CIVIL' / Q2 "SEXE DE L'INTERVIEWE(E)" /
  VARIABLE LABELS  SEXE 'SEXE DU REPONDANT'/
                   SALR 'SALAIRE MENSUEL(EN $)' / AN_QUITTE 'ANNEE '
                  + 'OU LE REPONDANT A QUITTE SON EMPLOI'

Remarques

L'étiquette ne doit pas contenir plus de 120 caractères.
Une étiquette peut s'écrire sur plus d'une ligne en mettant le symbole + au début de la ligne de contiuation de l'étiquette.
Tous les caractères peuvent être utilisés dans la formation des étiquettes. S'il y a des apostrophes (') dans l'étiquette, celle-ci devra être mise entre guillemets (") (Voir le exemple). Ainsi, on peut utiliser l'apostrophe ou le guillemet comme délimiteur d'une étiquette.
L'emploi de l'oblique droite (/) est facultatif.
L'emploi des apostrophes (ou guillemets) est facultatif. Dans ce cas, chaque variable (et son étiquette) doit obligatoirement être séparée par l'oblique droite (/).

   Exemple: Q1 AGE3 / Q2 SEXE / ...

Une étiquette ne peut être associée à une variable avant que celle-ci n'ait été définie.

VALUE LABELS

Syntaxe

VALUE LABELS nom ou liste de variables valeur 'étiquette'... valeur 'étiquette' / nom_de_variablevaleur 'étiquette' ...

Rôle

Associer aux valeurs d'une variable des étiquettes utiles à une lecture compréhensible des résultats.

Statut

Facultatif mais très recommandé.

Exemples

 VALUE LABELS  SEXE 'H' 'HOMME' 'F' 'FEMME'/Q1 1 'OUI' 2 'NON'/
 VALUE LABELS  VAR4
     1 'UN PEU'
     2 'BEAUCOUP'
     3 'PASSIONNEMENT'/
 VAR8,VAR12 1 'EN VILLE' 2 'EN BANLIEUE'/
 MESS TO SPEC 1 '1-2'  2 '3-4'  3 '5 ET +'/

Remarques

Les étiquettes peuvent être formées d'au plus 60 caractères.
Hormis la longueur, les règles de formation des étiquettes sont les mêmes que celles des étiquettes des VARIABLE LABELS.
Certaines procédures (ex. CROSSTABS) n'impriment que les premiers caractères des étiquettes.
Comme pour MISSING VALUES, les mots-clés TO et ALL peuvent être utilisés.
Comme pour MISSING VALUES, la répétition d'une variable avec un nouvel ensemble d'étiquettes annule l'ensemble des étiquettes nommées précédemment (Voir l'instruction ADD VALUE LABELS).
Il est évident que cette instruction s'applique aux variables numériques ``codées et aux valeurs alphanumériques.

ADD VALUE LABELS

Syntaxe

Identique à celle de VALUE LABELS.

Rôle

Ajouter certaines étiquettes de valeurs à certaines variables.

Statut

Facultatif.

Remarque

Lorsqu'une même étiquette d'une valeur est commune à plusieurs variables, il peut être avantageux de l'indiquer dans cette instruction plutôt que de la mentionner à chaque variable. Par exemple: si l'étiquette 9 'AUCUNE REPONSE' est commune à plusieurs variables, on l'omettra dans VALUE LABELS et on ajoutera l'instruction suivante: ADD VALUE LABELS Q1 TO Q10,SEXE,SALR TO DIPLOM 9 'AUCUNE REPONSE'

``LES PROCÉDURES

Syntaxe

NOM_DE_LA_PROCÉDURE spécifications propres à cette procédure

Rôle

Provoquer l'exécution des calculs désirés.

Statut

Le nom de la procédure est obligatoire avec certaines spécifications minimales.

Exemples

     a) CROSSTABS  TABLES=SEXE BY Q1/VAR4 TO SALAIRE BY VAR9 / STATISTICS
     b) FREQUENCIES  VARIABLES=VAR3,SALR TO TOTAL
                 /HISTOGRAM=NORMAL /STATISTICS=ALL

Remarques

Une description syntaxique des procédures les plus élémentaires est à l'appendice E.
On peut évidemment demander plusieurs procédures dans un même programme. L'ensemble des instructions entre chaque procédure sera appelé une ``tâche.

Anonyme

Rechercher

Guide SPSS

Avant-propos

Références

Améliorations

Introduction

Introduction à SPSS

Structure d'une instruction

Règles générales

Utilisation de la touche TAB

Emplacement logique d'une instruction

Syntaxe d'une instruction

Convention d'écriture

Instructions descriptives

SET

Syntaxe

Rôle

Statut

Remarques

SHOW

Syntaxe

Rôle

Statut

TITLE

Syntaxe

Rôle

Statut

SUBTITLE

Syntaxe

Rôle

Statut

Remarque

COMMENT

Syntaxe

Rôle

Statut

Remarques

Exemples

DATA LIST

Syntaxe

Rôle

Statut

Exemples

Remarques

N OF CASES

Syntaxe

Rôle

Statut

Remarques

MISSING VALUES

Syntaxe

Rôle

Statut

Exemples

Remarques

VARIABLE LABELS

Syntaxe

Rôle

Statut

Exemples

Remarques

VALUE LABELS

Syntaxe

Rôle

Statut

Exemples

Remarques

ADD VALUE LABELS

Syntaxe

Rôle

Statut

Remarque

``LES PROCÉDURES

Syntaxe

Rôle

Statut

Exemples

Remarques

BEGIN DATA ... END DATA