« Simulations » : différence entre les versions

De DMS
Provencher (discussion | contributions)
Aucun résumé des modifications
Michele (discussion | contributions)
Aucun résumé des modifications
(31 versions intermédiaires par 7 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
<!-- Simulations, simulations, Simulations Numériques, simulations numériques, Simulation, simulation, Numérique, numérique, Numerical Simulation, numerical simulation, Numerical Simulations, numerical simulations, Machines Disponibles, machines disponibles, Available Machines, available machines, Procédure, procédure, règles à respecter, Règles, Consignes, consignes, Calculs, calculs, Parallèle, parallèle, Parallèles, parallèles, Parallel, parallel, Computation, computation, Computations, computations, Procedure, procedure -->
<!-- Simulations, simulations, Simulations Numériques, simulations numériques, Simulation, simulation, Numérique, numérique, Numerical Simulation, numerical simulation, Numerical Simulations, numerical simulations, Machines Disponibles, machines disponibles, Available Machines, available machines, Procédure, procédure, règles à respecter, Règles, Consignes, consignes, Calculs, calculs, Parallèle, parallèle, Parallèles, parallèles, Parallel, parallel, Computation, computation, Computations, computations, Procedure, procedure -->
Sur cette page, vous trouverez la procédure générale vous permettant de démarrer des simulations numériques ainsi que certaines consignes à respecter.
Depuis l'avènement de l'informatique, les simulations numériques sont couramment utilisées en sciences, tant pour tester des hypothèses, qu'effectuer une analyse numérique ou pour mettre un modèle à l'épreuve et l'environnement informatique du Département est conçu de façon à faciliter la mise en place de telles simulations.


Les instructions qui suivent font appel à des [[Commandes_élémentaires|commandes UNIX]]&nbsp;: consultez la section [[Commandes_élémentaires#Commandes_de_base|Commandes de bases]] de la page [[Commandes_élémentaires|Commandes élémentaires]] pour les commandes nécessaires.
Cette page contient des renseignements quant aux ressources disponibles, indique quelques procédures standards et offrent quelques conseils généraux.
__TOC__


Si vous travaillez à partir d'une machine qui ne fait pas partie des machines du Département (ordinateur portable, ordinateur de la maison, etc.), lisez d'abord la section [[Simulations#Travail_à_distance|Travail à distance]].
== Présentation des ressources ==


=== Les différentes machines ===


__TOC__
Le Département fourni plusieurs machines permettant d'effectuer d'imposants calculs qui sont partagées entre les usagers. Ces machines sont dispersées en 4 différents endroits&nbsp;: [[labomat]], [[labodms]], [[labostat]] et la salle des serveurs. Bien que l'on retrouve ces machines en des lieux différents, elles sont toutes connectées entres elles grâce à un réseau et l'on peut se connecter à chacune d'entre elles à l'aide de la commande [[La_commande_ssh|<code>ssh</code>]]. Veuillez prendre note qu'une [[Politique_d'utilisation_du_réseau|politique d'utilisation]] régit l'utilisation du réseau.


== Démarrer une simulation ==
Afin d'éviter de surcharger les machines et de ralentir vos calculs, vous devez choisir votre machine à l'aide de la commande [[La_commande_simulation|<code>simulation</code>]]. Il suffit d'entrer dans un terminal (icône [[Image:TerminalIcone.png]])&nbsp;:
 
=== Choix des machines ===
Avant de démarrer vos simulations, vous devez d'abord choisir des machines du Département sur lesquelles les exécuter. Pour ce faire, la façon la plus simple est d'utiliser la commande [[La_commande_simulation|<tt>simulation</tt>]], qu'il suffit d'entrer dans un terminal (icône [[Image:TerminalIcone.png]])&nbsp;:
<pre>
<pre>
simulation
simulation
</pre>
</pre>
Cette commande renvoie l'utilisation des machines disponibles&nbsp;: plus le rapport associé à une machine est grand, plus celle-ci est occupée. (Consultez la page dédiée à [[La_commande_simulation|<tt>simulation</tt>]] pour plus d'informations.) Évidemment, les machines les moins utilisées devraient être priorisées pour vos simulations.
Cette commande renvoie l'utilisation des CPUs, de la mémoire vive et des cartes graphiques (s'il y a lieu) des machines disponibles.  Voici un exemple du résultat qui peut en sortir:
<pre>
$ simulation
Host        Cpus  C.L.  Mem Mem L  GPU    G. Nom  CPU S  CPU M
============================================================================
simulation7  24    10  251  133    -        -  13030  312720
simulation8  24    12  251  111    -        -  13030  312720
saturne        8    5  11    9    -        -  5200  41600
mars          8    5  11    9    -        -  5200  41600
uranus        8    5  11    9    -        -  5200  41600
neptune        8    5  11    9    -        -  5200  41600
lune          8    5  11    8    -        -  5200  41600
mercury        8    5  11    8    -        -  5200  41600
venice        12    8  15    8    0  GTX 1050  15971  191652
venus          8    5  11    8    -        -  5200  41600
jupiter        8    5  11    6    -        -  5200  41600
borrelly      8    4  11    6    -        -  5200  41600
fox          12    7  15    5    0  GTX 1050  15971  191652
soleil        8    4  11    4    -        -  5200  41600
athenes        8    8    7    3    -        -  10085  80680
pluto          8    4  11    3    -        -  5200  41600
acapulco      12    3  15    2    0  GTX 1050  15971  191652
panthere      12    8  15    2    0  GTX 1050  15971  191652
lionceau      8    5    5    2    -        -  5809  46472
leopard        8    5    5    2    -        -  5200  41600
loup          8    5    5    2    -        -  5809  46472
lion          12    0  15    1    0  GTX 1050  15971  191652
puma          8    5    5    1    -        -  5809  46472
cougar        8    5  11    1    -        -  5200  41600
jaguar        12    7  15    1    0  GTX 1050  15971  191652
ocelot        2    2    1    0    -        -  5200  10400
lynx          8    5  11    0    -        -  5200  41600
 
============================================================================
Cpus => Cores C.L. => Cpu libres
Mem => Memoire totale Mem L => Memoire disponible
GPU => GPUs Utilisés G. Nom => GPU model
CPU S => Cpu Mark single thread CPU M => Cpu Mark total multi threads
 
*** ATTENTION: ASSUREZ-VOUS DE TOUJOURS LAISSER 2 CPU (CORES) DE LIBRE ***
Voir https://dms.umontreal.ca/wiki/index.php/Simulations pour détails
</pre>
 
Pour chaque machine vous pouvez voir le nombre de coeurs de processeur total ainsi le nombre de coeurs libres, la mémoire vive totale et libre (en Gigabytes), le nombre de cartes graphiques utilisées et leur modèle (s'il y a lieu, seulement certaines machines possèdent une carte graphique) et finalement la cote CPUMark single-thread/multi-threads des CPUs de la machine.
 
'''Évidemment, les machines les moins utilisées devraient être priorisées pour vos simulations.'''
 
=== Consignes à respecter ===
 
<span style="color:#FF0000">'''Résumé des consignes:'''</span>
* <span style="color:#FF0000">maximum de 3 simulations par machine par usager</span>
* <span style="color:#FF0000">toujours laisser 2 coeurs de libre</span>
* <span style="color:#FF0000">toujours laisser 1gb de mémoire de libre, de préférence 2gb</span>
 
Par courtoisie pour les autres usagers, un maximum de 3 simulations par machine par usager est autorisé. De plus, il faut s'assurer que l'utilisation d'une machine ne dépasse pas sa capacité en CPU et en mémoire, en plus de laisser un peu de capacité pour que la machine puisse continuer à fonctionner sans problèmes.  Comme l'indique le message au bas de l'exemple de la commande simulation dans la section précédente, il faut s'assurer de toujours laisser 2 coeurs libres sur chaque machines afin de ne pas l'étouffer.  Il faut aussi faire attention à la mémoire vive disponible, essayez de toujours laisser au moins 1gb de libre, de préférence 2gb si possible.
 
Par exemple, supposons que vous devez lancer 2 simulations. Vous aurez alors besoin de 2 coeurs de CPU au minimum, possiblement de 4 coeurs (ou même plus) si votre logiciel est multi-thread et d'une certaine quantité de mémoire vive.  Si on reprend l'exemple de la commande simulation plus haut, on peut voir dans la 5e colonne que plusieurs des machines ont 3gb ou moins de mémoire de libre, donc on va les mettre de côté afin de ne pas les surcharger.  On peut ensuite voir dans la 3e colonne que plusieurs des machines n'ont que 4 ou 5 coeurs de CPU de libres.  Si vos simulations sont single-thread ils pourraient faire l'affaire, mais assumons que vos simulations sont multi-thread, donc nous allons aussi les mettre de côté afin de ne pas les surcharger (et laisser 2 coeurs libre en tout temps comme indiqué). Ils nous reste donc ces machines de disponibles qui conviendrait à votre tâche:


=== Exécution en arrière-plan ===
Une fois que vous avez établi une liste de machines à utiliser, vous devrez vous brancher sur ces machines à tour de rôle afin de démarrer vos simulations. La commande permettant de se connecter à une machine est [[La_commande_ssh|<tt>ssh</tt>]]. Par exemple, pour vous connecter à <tt>loup</tt>, entrez
<pre>
<pre>
ssh loup
Host        Cpus  C.L.  Mem Mem L  GPU    G. Nom  CPU S  CPU M
============================================================================
simulation7  24    10  251  133    -        -  13030  312720
simulation8  24    12  251  111    -        -  13030  312720
venice        12    8  15    8    0  GTX 1050  15971  191652
fox          12    7  15    5    0  GTX 1050  15971  191652
</pre>
</pre>


Une fois branché à une machine de votre liste, vous pouvez démarrer une simulation sur celle-ci en arrière-plan (''batch'')&nbsp;: de cette façon, votre programme continuera de fonctionner même lorsque vous serez débranché de la machine ou lorsque vous aurez quitté votre session de travail (''Log out''). Pour lancer votre simulation <tt><script></tt> en arrière-plan, entrez
Vous pouvez donc vous brancher via [[La_commande_ssh|ssh]] ou autre à une de ces machines et lancer vos simulations.
 
=== Les différents logiciels ===
 
En plus de plusieurs logiciels libres, le Département détient certaines licences de logiciels de haute performance. La plupart de ces [[Logiciels|logiciels]] sont installés sur toutes les machines.
 
Également, afin d'éviter les erreurs suite à une mise à niveau, les [[Anciennes_versions|anciennes versions]] des logiciels sont toujours disponibles.
 
=== Pour plus de ressources ===
 
Si les ressources à votre disposition au Département sont insuffisantes, il est possible de faire une demande à [[Calcul_Québec|Calcul Québec]] pour avoir accès aux super ordinateurs.
 
== Quelques procédures ==
 
=== Exécuter un processus en arrière-plan ===
 
Une fois branché à une machine, vous pouvez démarrer une simulation sur celle-ci en arrière-plan (''batch'')&nbsp;: de cette façon, votre programme continuera de fonctionner même lorsque vous serez débranché de la machine ou lorsque vous aurez quitté votre session de travail (''Log out''). Pour lancer votre simulation <tt><script></tt> en arrière-plan, entrez
<pre>
<pre>
<programme> [options] <script> &
<programme> [options] <script> &
</pre>
</pre>
où <tt><programme></tt> est le programme exécutant votre script ([[R|R]], [[MATLAB|MATLAB]], etc.) et <tt>[options]</tt> sont les paramètres à passer au programme. À la toute fin, l'esperluette (&laquo;&nbsp;&&nbsp;&raquo;) indique à Linux d'exécuter le tout en arrière-plan. Lorsque la commande est entrée, un numéro d'identification correspondant à votre simulation est retourné&nbsp;: il s'agit du PID. Si vous souhaitez [[Simulations#Arrêter_une_simulation|stopper votre simulation]], c'est ce numéro que vous devez passer à la commande [[Commandes_élémentaires#kill|<tt>kill</tt>]].
où <tt><programme></tt> est le programme exécutant votre script ([[R|R]], [[MATLAB|MATLAB]], etc.) et <tt>[options]</tt> sont les paramètres à passer au programme. À la toute fin, l'esperluette (&laquo;&nbsp;&&nbsp;&raquo;) indique à Linux d'exécuter le tout en arrière-plan. Lorsque la commande est entrée, un numéro d'identification correspondant à votre simulation est retourné&nbsp;: il s'agit du [http://fr.wikipedia.org/wiki/Identifiant_de_processus PID]. Si vous souhaitez arrêter votre simulation, vous aurez besoin de ce numéro.


Par exemple, pour démarrer le script [[R|R]] nommé <tt>prog.R</tt>, il suffit de taper
Par exemple, pour démarrer le script [[R|R]] nommé <tt>prog.R</tt>, il suffit de taper
Ligne 34 : Ligne 108 :
R CMD BATCH prog.R &
R CMD BATCH prog.R &
</pre>
</pre>
Le système vous retourne ensuite un PID&nbsp;:
Le système vous retourne ensuite le PID associé&nbsp;:
<pre>
<pre>
[1] 10369
[1] 10369
</pre>
</pre>
Pour [[Simulations#Arrêter_une_simulation|arrêter cette simulation]], vous n'avez qu'à entrer
<pre>
kill 10369
</pre>
Une fois que votre simulation est lancée, vous pouvez&nbsp;:


* Continuer d'utiliser la même machine pour démarrer une [[Simulations#Consignes_à_respecter|nouvelle simulation]] (ou pour d'autres activités);
==== Mise en garde ====
* Vous débrancher de la machine (commande [[Commandes_élémentaires#exit|<tt>exit</tt>]]).


Si vos simulations sont toutes démarrées, vous pouvez même quitter votre session de travail (''Log out'') sans risquer d'interrompre vos simulations.
[[File:Attention.png|20px]] Après vous être déconnecté d'une machine où vous venez de démarrer une simulation, les messages que cette dernière pourrait afficher à l'écran seront perdus&nbsp;: vous devez donc prendre soin d'enregistrer les résultats de votre simulation dans un fichier grâce à une [[Pipelining_et_redirection|redirection du canal de sortie]].


==== Remarques importantes ====
[[File:Attention.png|20px]] De plus, si vous lancez plusieurs simulations à la fois, assurez-vous que chacune utilise un ensemble '''distinct''' de fichiers&nbsp;: ceci évitera de potentiels problèmes d'accès et de perte de données. Par exemple, la simulation <tt>script1</tt> pourrait utiliser <tt>res_1.csv</tt> et <tt>dat_1.csv</tt> pour enregistrer ses résultats, alors que <tt>simul2</tt> pourrait utiliser <tt>res_2.csv</tt> et <tt>dat_2.csv</tt>.
* Après vous être déconnecté d'une machine où vous venez de démarrer une simulation, les messages que cette dernière pourrait afficher à l'écran sont perdus&nbsp;: vous devez donc prendre soin d'enregistrer les résultats de votre simulation dans un fichier, sur votre compte. De plus, si vous lancez plusieurs simulations à la fois, assurez-vous que chacune utilise un ensemble '''distinct''' de fichiers&nbsp;: ceci évitera de potentiels problèmes d'accès et de perte de données. Par exemple, la simulation <tt>script1</tt> pourrait utiliser <tt>res_1.csv</tt> et <tt>dat_1.csv</tt> pour enregistrer ses résultats, alors que <tt>simul2</tt> pourrait utiliser <tt>res_2.csv</tt> et <tt>dat_2.csv</tt>.


* Si vos calculs font appel à des nombres aléatoires, assurez-vous que chacune de vos simulations utilise des graines (''seeds'') différentes pour le générateur de nombre aléatoires, sinon vous obtiendrez des résultats '''identiques''' pour toutes vos simulations.
=== Retrouver le PID d'un processus ===


=== Consignes à respecter ===
Si vous avez perdu le PID associé à un processus s'exécutant en arrière-plan, vous pouvez toujours le récupérer à l'aide de la commande [[Commandes_élémentaires#ps|<code>ps</code>]].
Par courtoisie pour les autres usagers, un maximum de 3 simulations (processus) par machine par usager est autorisé. De plus, l'utilisation moyenne d'une machine ne devrait jamais dépasser sa « capacité moins 1 ». Autrement dit, la machine devrait pouvoir exécuter au moins 1 nouveau processus indépendant.


Par exemple, supposons que vous ayez choisi, pour lancer vos simulations, les machines <tt>uranus</tt>, <tt>jupiter</tt> et <tt>cougar</tt>. Supposons également que leur utilisation moyenne, telle que renvoyée par la commande [[La_commande_simulation|<tt>simulation</tt>]], soit donnée par
<pre>
<pre>
Machine        Utilisation
ps
--------------------------
uranus        5.05 / 8.00
jupiter        2.04 / 8.00
cougar        0.51 / 2.00
</pre>
</pre>
Dans le respect des consignes, vous pouvez démarrer un maximum de 2 simulations sur <tt>uranus</tt>, 3 sur <tt>jupiter</tt> et 1 seule sur <tt>cougar</tt>.


=== Calculs en parallèle ===
Cette commande vous retourne tous les processus en cours d'exécution et leur PID. Il vous suffit alors d'identifier le processus associé à votre simulation.
Lorsque vos calculs s'y prêtent (opérations sur matrices et vecteurs, boucle avec itérations indépendantes, etc.), l'exécution de votre script en parallèle peut être très avantageuse.


Plusieurs des logiciels les plus utilisés au Département pour les simulations comportent des extensions qui permettent la parallélisation, notamment [[R|R]] et [[MATLAB|MATLAB]]. Consultez les pages dédiées à ces logiciels pour plus de détails.
=== Arrêter une simulation ===


== Arrêter une simulation ==
Si vous connaissez le PID d'un processus en cours d'exécution, vous pouvez toujours l'arrêter à l'aide de la commande [[Commandes_élémentaires#kill|<code>kill</code>]].


Pour arrêter une simulation, vous devez utiliser la commande [[Commandes_élémentaires#kill|<tt>kill</tt>]] suivie du numéro de processus (PID) de votre simulation&nbsp;:
Pour arrêter le processus ayant pour PID 10369, vous n'avez qu'à entrer
<pre>
<pre>
kill 452
kill 10369
</pre>
</pre>


Si vous ne connaissez pas le PID de votre simulation, entrez la commande [[Commandes_élémentaires#top|<tt>top</tt>]] dans un terminal&nbsp;:
== Astuces et conseils ==
<pre>                                                                                                       
top - 10:00:02 up 14 days, 11:22,  4 users,  load average: 0.37, 0.24, 0.18
Tasks: 239 total,  2 running, 237 sleeping,  0 stopped,  0 zombie
Cpu(s):  0.3%us,  0.2%sy,  0.0%ni, 99.3%id,  0.2%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  2036352k total,  1959528k used,    76824k free,    51480k buffers
Swap:  3071992k total,    21940k used,  3050052k free,  1202944k cached


  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
=== L'espace disque ===
10558 fedora    20  0  172m  29m 2960 R 24.2  1.5  0:00.29 R
 
10567 fedora    20  0 19380 1340  928 R  3.5  0.1  0:00.07 top
Les règlements sur les [[Information_sur_les_quotas|quotas]] s'applique aussi si vous effectuez une simulation. Si vous avez besoin de plus d'espace pour vos données, vous pouvez utiliser le répertoire [[NOBACKUP|NOBACKUP]] qui est soumis à d'autres règles.
1880 root      20  0  272m 1008  804 S  1.7  0.0  0:07.39 ypbind
 
    1 root      20  0 23556  848  636 S  0.0  0.0  0:14.94 init
[[File:Attention.png|20px]] Comme son nom l'indique, '''aucune [[Copie_de_sauvegarde|copie de sauvegarde]] n'est effectuée''' pour ce répertoire.
    2 root      20  0    0    0    0 S  0.0  0.0  0:01.63 kthreadd
 
    3 root      RT  0    0    0    0 S  0.0  0.0  0:00.14 migration/0
=== Améliorer les performances de son algorithme ===
</pre>
 
Appuyez sur &laquo;&nbsp;<tt>q</tt>&nbsp;&raquo; pour quitter. Pour arrêter la simulation [[R|R]] de PID 10558 qui s'exécute, il suffit d'entrer
Dans le cas où un calcul prend trop de temps à être réalisé, plusieurs options peuvent être considérées selon le cas. La première option consiste évidemment à vérifier si la machine exécutant le calcul n'est pas déjà saturé par d'autres calculs grâce à la commande [[La_commande_simulation|simulation]].
<pre>
kill 10558
</pre>


'''N.B.&nbsp;:''' Seul l'usager ayant démarré le processus peut le terminer. Dans l'exemple précédent, seul <tt>fedora</tt> peut tuer 10558.
Si le problème ne vient pas de la machine, il va falloir s'attaquer à l'algorithme de la simulation et à son implémentation. Une relecture de l'algorithme peut souvent mettre en lumière quelques optimisations qui accéléreraient le calcul. Par exemple, on peut accélérer le traitement de l'information si l'on minimise les entrés et sorties du programme. Si cette approche ne fourni pas de meilleurs résultats, il faut revoir l'implémentation.


== Travail à distance ==
Lorsque vos calculs s'y prêtent (opérations sur matrices et vecteurs, boucle avec itérations indépendantes, etc.), l'exécution de votre script en parallèle peut être une solution très avantageuse. Plusieurs des logiciels les plus utilisés au Département pour les simulations comportent des extensions qui permettent la parallélisation, notamment [[R|R]] et [[MATLAB|MATLAB]].


Si vous souhaitez démarrer vos simulations depuis votre ordinateur personnel, vous devrez d'abord télécharger [[PuTTY|PuTTY]] et [[FileZilla|FileZilla]], dans le cas où votre machine utilise Windows. Le logiciel [[PuTTY|PuTTY]] sert à vous connecter au réseau du DMS et à émuler le terminal de commandes Linux. Le logiciel [[FileZilla|FileZilla]] vous permet de transférer vos fichiers depuis votre ordinateur personnel vers votre compte au DMS, et vice-versa.
Également, une méthode qui est généralement très efficace, mais qui demande plus de temps et d'efforts, consiste à implémenter l'algorithme à l'aide d'un langage de bas niveau (langage compilé) tel que le [[GCC|C]] ou le [[G95|Fortran]] qui sont plus rapide que les langages de haut niveaux (langage interprétés).


En combinant ces deux programmes, vous pouvez ainsi travailler à distance sur votre script de simulation, télécharger celui-ci sur votre compte au DMS, le démarrer sur une (ou plusieurs) machine(s) du Département et ensuite télécharger les résultats de la simulation sur votre machine.
[[File:Attention.png|20px]] Avant d'envisager de reprogrammer votre algorithme dans un langage de bas niveau, il est important de s'assurer que votre algorithme est optimal et que vous êtes assez maître du langage en question pour espérer faire mieux que vos précédentes implémentations.


Consultez les pages [[PuTTY|PuTTY]] et [[FileZilla|FileZilla]] du wiki pour les instructions de téléchargement, de configuration et d'utilisation.
=== Les nombres aléatoires ===


Une fois [[PuTTY#Connexion_au_réseau|branché au réseau]] du DMS, vous êtes prêt à [[Simulations#Démarrer_une_simulation|démarrer une simulation]].
Si vos calculs font appel à des nombres aléatoires, assurez-vous que chacune de vos simulations utilise des [http://fr.wikipedia.org/wiki/Graine_al%C3%A9atoire graines] (''seeds'') différentes pour le générateur de nombre aléatoires, sinon vous obtiendrez des résultats '''identiques''' pour toutes vos simulations.


== Voir aussi ==
== Voir aussi ==


=== '''Articles connexes''' ===
=== Présentation ===
* [http://www.dms.umontreal.ca/wiki/images/6/68/Expose-simulations.pdf ''Faire des simulations au DMS (lorsque l’on est statisticien)''], par [http://www.dms.umontreal.ca/repertoire-departement/portrait/lafaye Pierre Lafaye de Micheaux]
 
L'équipe informatique offre, selon les besoins, une présentation pour introduire l'environnement du Département. Les fichiers suivants sont présentés pendant la présentation&nbsp;:
* [http://www.dms.umontreal.ca/downloads/presentation-informatique/Presentation-Informatique.zip Presentation-Informatique (2014)] et seulement les [http://www.dms.umontreal.ca/downloads/presentation-informatique/Presentation-Informatique-Diapositives.pdf diapositives]
* [http://www.dms.umontreal.ca/downloads/presentation-informatique/informatique_au_DMS_2017.pdf Diapositives de la présentation (2017)]
 
=== Ressources externes ===
 
* [http://www.dms.umontreal.ca/wiki/images/6/68/Expose-simulations.pdf ''Faire des simulations au DMS (lorsque l’on est statisticien)''], par Pierre Lafaye de Micheaux
 
=== Articles connexes ===
<div class="inline">
* [[Commandes_élémentaires|Commandes élémentaires]]
* [[Commandes_élémentaires|Commandes élémentaires]]
* [[Commandes_élémentaires#exit|<tt>exit</tt>]]
* [[Commandes_élémentaires#exit|exit]]
* [[FileZilla|FileZilla]]
* [[FileZilla|FileZilla]]
* [[PuTTY|PuTTY]]
* [[PuTTY|PuTTY]]
* [[La_commande_simulation|<tt>simulation</tt>]]
* [[La_commande_simulation|simulation]]
* [[La_commande_ssh|<tt>ssh</tt>]]
* [[La_commande_ssh|ssh]]
* [[NOBACKUP|NOBACKUP]]
* [[Calcul_Québec|Calcul Québec]]
</div>

Version du 3 décembre 2020 à 20:57

Depuis l'avènement de l'informatique, les simulations numériques sont couramment utilisées en sciences, tant pour tester des hypothèses, qu'effectuer une analyse numérique ou pour mettre un modèle à l'épreuve et l'environnement informatique du Département est conçu de façon à faciliter la mise en place de telles simulations.

Cette page contient des renseignements quant aux ressources disponibles, indique quelques procédures standards et offrent quelques conseils généraux.

Présentation des ressources

Les différentes machines

Le Département fourni plusieurs machines permettant d'effectuer d'imposants calculs qui sont partagées entre les usagers. Ces machines sont dispersées en 4 différents endroits : labomat, labodms, labostat et la salle des serveurs. Bien que l'on retrouve ces machines en des lieux différents, elles sont toutes connectées entres elles grâce à un réseau et l'on peut se connecter à chacune d'entre elles à l'aide de la commande ssh. Veuillez prendre note qu'une politique d'utilisation régit l'utilisation du réseau.

Afin d'éviter de surcharger les machines et de ralentir vos calculs, vous devez choisir votre machine à l'aide de la commande simulation. Il suffit d'entrer dans un terminal (icône ) :

simulation

Cette commande renvoie l'utilisation des CPUs, de la mémoire vive et des cartes graphiques (s'il y a lieu) des machines disponibles. Voici un exemple du résultat qui peut en sortir:

$ simulation 
Host        Cpus  C.L.  Mem Mem L  GPU    G. Nom  CPU S   CPU M
============================================================================
simulation7   24    10  251   133    -         -  13030  312720
simulation8   24    12  251   111    -         -  13030  312720
saturne        8     5   11     9    -         -   5200   41600
mars           8     5   11     9    -         -   5200   41600
uranus         8     5   11     9    -         -   5200   41600
neptune        8     5   11     9    -         -   5200   41600
lune           8     5   11     8    -         -   5200   41600
mercury        8     5   11     8    -         -   5200   41600
venice        12     8   15     8    0  GTX 1050  15971  191652
venus          8     5   11     8    -         -   5200   41600
jupiter        8     5   11     6    -         -   5200   41600
borrelly       8     4   11     6    -         -   5200   41600
fox           12     7   15     5    0  GTX 1050  15971  191652
soleil         8     4   11     4    -         -   5200   41600
athenes        8     8    7     3    -         -  10085   80680
pluto          8     4   11     3    -         -   5200   41600
acapulco      12     3   15     2    0  GTX 1050  15971  191652
panthere      12     8   15     2    0  GTX 1050  15971  191652
lionceau       8     5    5     2    -         -   5809   46472
leopard        8     5    5     2    -         -   5200   41600
loup           8     5    5     2    -         -   5809   46472
lion          12     0   15     1    0  GTX 1050  15971  191652
puma           8     5    5     1    -         -   5809   46472
cougar         8     5   11     1    -         -   5200   41600
jaguar        12     7   15     1    0  GTX 1050  15971  191652
ocelot         2     2    1     0    -         -   5200   10400
lynx           8     5   11     0    -         -   5200   41600

============================================================================
Cpus	=> Cores			C.L.	=> Cpu libres
Mem	=> Memoire totale		Mem L	=> Memoire disponible
GPU	=> GPUs Utilisés		G. Nom	=> GPU model
CPU S	=> Cpu Mark single thread	CPU M 	=> Cpu Mark total multi threads

*** ATTENTION: ASSUREZ-VOUS DE TOUJOURS LAISSER 2 CPU (CORES) DE LIBRE ***
Voir https://dms.umontreal.ca/wiki/index.php/Simulations pour détails

Pour chaque machine vous pouvez voir le nombre de coeurs de processeur total ainsi le nombre de coeurs libres, la mémoire vive totale et libre (en Gigabytes), le nombre de cartes graphiques utilisées et leur modèle (s'il y a lieu, seulement certaines machines possèdent une carte graphique) et finalement la cote CPUMark single-thread/multi-threads des CPUs de la machine.

Évidemment, les machines les moins utilisées devraient être priorisées pour vos simulations.

Consignes à respecter

Résumé des consignes:

  • maximum de 3 simulations par machine par usager
  • toujours laisser 2 coeurs de libre
  • toujours laisser 1gb de mémoire de libre, de préférence 2gb

Par courtoisie pour les autres usagers, un maximum de 3 simulations par machine par usager est autorisé. De plus, il faut s'assurer que l'utilisation d'une machine ne dépasse pas sa capacité en CPU et en mémoire, en plus de laisser un peu de capacité pour que la machine puisse continuer à fonctionner sans problèmes. Comme l'indique le message au bas de l'exemple de la commande simulation dans la section précédente, il faut s'assurer de toujours laisser 2 coeurs libres sur chaque machines afin de ne pas l'étouffer. Il faut aussi faire attention à la mémoire vive disponible, essayez de toujours laisser au moins 1gb de libre, de préférence 2gb si possible.

Par exemple, supposons que vous devez lancer 2 simulations. Vous aurez alors besoin de 2 coeurs de CPU au minimum, possiblement de 4 coeurs (ou même plus) si votre logiciel est multi-thread et d'une certaine quantité de mémoire vive. Si on reprend l'exemple de la commande simulation plus haut, on peut voir dans la 5e colonne que plusieurs des machines ont 3gb ou moins de mémoire de libre, donc on va les mettre de côté afin de ne pas les surcharger. On peut ensuite voir dans la 3e colonne que plusieurs des machines n'ont que 4 ou 5 coeurs de CPU de libres. Si vos simulations sont single-thread ils pourraient faire l'affaire, mais assumons que vos simulations sont multi-thread, donc nous allons aussi les mettre de côté afin de ne pas les surcharger (et laisser 2 coeurs libre en tout temps comme indiqué). Ils nous reste donc ces machines de disponibles qui conviendrait à votre tâche:

Host        Cpus  C.L.  Mem Mem L  GPU    G. Nom  CPU S   CPU M
============================================================================
simulation7   24    10  251   133    -         -  13030  312720
simulation8   24    12  251   111    -         -  13030  312720
venice        12     8   15     8    0  GTX 1050  15971  191652
fox           12     7   15     5    0  GTX 1050  15971  191652

Vous pouvez donc vous brancher via ssh ou autre à une de ces machines et lancer vos simulations.

Les différents logiciels

En plus de plusieurs logiciels libres, le Département détient certaines licences de logiciels de haute performance. La plupart de ces logiciels sont installés sur toutes les machines.

Également, afin d'éviter les erreurs suite à une mise à niveau, les anciennes versions des logiciels sont toujours disponibles.

Pour plus de ressources

Si les ressources à votre disposition au Département sont insuffisantes, il est possible de faire une demande à Calcul Québec pour avoir accès aux super ordinateurs.

Quelques procédures

Exécuter un processus en arrière-plan

Une fois branché à une machine, vous pouvez démarrer une simulation sur celle-ci en arrière-plan (batch) : de cette façon, votre programme continuera de fonctionner même lorsque vous serez débranché de la machine ou lorsque vous aurez quitté votre session de travail (Log out). Pour lancer votre simulation <script> en arrière-plan, entrez

<programme> [options] <script> &

<programme> est le programme exécutant votre script (R, MATLAB, etc.) et [options] sont les paramètres à passer au programme. À la toute fin, l'esperluette (« & ») indique à Linux d'exécuter le tout en arrière-plan. Lorsque la commande est entrée, un numéro d'identification correspondant à votre simulation est retourné : il s'agit du PID. Si vous souhaitez arrêter votre simulation, vous aurez besoin de ce numéro.

Par exemple, pour démarrer le script R nommé prog.R, il suffit de taper

R CMD BATCH prog.R &

Le système vous retourne ensuite le PID associé :

[1] 10369

Mise en garde

Après vous être déconnecté d'une machine où vous venez de démarrer une simulation, les messages que cette dernière pourrait afficher à l'écran seront perdus : vous devez donc prendre soin d'enregistrer les résultats de votre simulation dans un fichier grâce à une redirection du canal de sortie.

De plus, si vous lancez plusieurs simulations à la fois, assurez-vous que chacune utilise un ensemble distinct de fichiers : ceci évitera de potentiels problèmes d'accès et de perte de données. Par exemple, la simulation script1 pourrait utiliser res_1.csv et dat_1.csv pour enregistrer ses résultats, alors que simul2 pourrait utiliser res_2.csv et dat_2.csv.

Retrouver le PID d'un processus

Si vous avez perdu le PID associé à un processus s'exécutant en arrière-plan, vous pouvez toujours le récupérer à l'aide de la commande ps.

ps

Cette commande vous retourne tous les processus en cours d'exécution et leur PID. Il vous suffit alors d'identifier le processus associé à votre simulation.

Arrêter une simulation

Si vous connaissez le PID d'un processus en cours d'exécution, vous pouvez toujours l'arrêter à l'aide de la commande kill.

Pour arrêter le processus ayant pour PID 10369, vous n'avez qu'à entrer

kill 10369

Astuces et conseils

L'espace disque

Les règlements sur les quotas s'applique aussi si vous effectuez une simulation. Si vous avez besoin de plus d'espace pour vos données, vous pouvez utiliser le répertoire NOBACKUP qui est soumis à d'autres règles.

Comme son nom l'indique, aucune copie de sauvegarde n'est effectuée pour ce répertoire.

Améliorer les performances de son algorithme

Dans le cas où un calcul prend trop de temps à être réalisé, plusieurs options peuvent être considérées selon le cas. La première option consiste évidemment à vérifier si la machine exécutant le calcul n'est pas déjà saturé par d'autres calculs grâce à la commande simulation.

Si le problème ne vient pas de la machine, il va falloir s'attaquer à l'algorithme de la simulation et à son implémentation. Une relecture de l'algorithme peut souvent mettre en lumière quelques optimisations qui accéléreraient le calcul. Par exemple, on peut accélérer le traitement de l'information si l'on minimise les entrés et sorties du programme. Si cette approche ne fourni pas de meilleurs résultats, il faut revoir l'implémentation.

Lorsque vos calculs s'y prêtent (opérations sur matrices et vecteurs, boucle avec itérations indépendantes, etc.), l'exécution de votre script en parallèle peut être une solution très avantageuse. Plusieurs des logiciels les plus utilisés au Département pour les simulations comportent des extensions qui permettent la parallélisation, notamment R et MATLAB.

Également, une méthode qui est généralement très efficace, mais qui demande plus de temps et d'efforts, consiste à implémenter l'algorithme à l'aide d'un langage de bas niveau (langage compilé) tel que le C ou le Fortran qui sont plus rapide que les langages de haut niveaux (langage interprétés).

Avant d'envisager de reprogrammer votre algorithme dans un langage de bas niveau, il est important de s'assurer que votre algorithme est optimal et que vous êtes assez maître du langage en question pour espérer faire mieux que vos précédentes implémentations.

Les nombres aléatoires

Si vos calculs font appel à des nombres aléatoires, assurez-vous que chacune de vos simulations utilise des graines (seeds) différentes pour le générateur de nombre aléatoires, sinon vous obtiendrez des résultats identiques pour toutes vos simulations.

Voir aussi

Présentation

L'équipe informatique offre, selon les besoins, une présentation pour introduire l'environnement du Département. Les fichiers suivants sont présentés pendant la présentation :

Ressources externes

Articles connexes