Le livret d’accueil pratico-pratique pour démarrer

Les serveurs
Les espaces disques
Les sauvegardes
Les logiciels
Infrastructure Rstudio
- - Rstudio Server
  - Rstudio - Problèmes connus
Le gestionnaire de ressources
L'environnement de développement
Les bases de données BDIR et Infosnig
L'archivage

Les serveurs¶

Demande ouverture de compte¶

Les demandes d'ouverture de compte doivent être faites par les responsables ou correspondants informatiques, contactez les personnes qui font les demandes de comptes ou votre correspondant informatique.

Ces derniers doivent se connecter sur dga20 et lancer firefox puis entrer l'url suivante : http://localhost/consultldap/
Entrer ensuite le login/mdp (le même que pour se connecter à dga20) puis cliquer sur demande de compte.

dga20 - serveur généraliste¶

C'est le serveur principal du CTIG. La plupart des utilisateurs ont un compte sur cette machine.

Il est principalement dédié à l'interactivité. Les utilisateurs peuvent aussi faire du calcul et de la gestion de données, mais si ces activités demandent beaucoup de ressources (CPU, mémoire), il est préférable d'utiliser le cluster

On accède directement à dga20 à partir des réseaux connus du CTIG (adresse réseau déclarée au CTIG). Les réseaux fournis par les FAI (Fournisseur d'accès à Internet) n'en font pas partie.

Pour l'accès à dga20 voir la FAQ : Comment accéder à nos serveurs ?

Introduction à dga20 (infos SGE) : fiche technique dga20

dga14 – X2GO pour accès itinérant¶

Par défaut, un compte est créé sur le serveur dga14 qui permet d'accéder aux serveurs du CTIG à partir d'un accès itinérant (adresse réseau non déclarée au CTIG).

500 Mo sont disponibles sur votre home de dga14. La suppression des répertoires et des fichiers non accédés depuis 7 jours est automatique.

Pour l'accès à dga14 voir la FAQ : Comment accéder à nos serveurs ?

dga-cluster – cluster de calcul¶

Un cluster est une grappe de serveurs (ou “ferme de calcul”) constituée de plusieurs serveurs similaires ou différents (appelés aussi noeuds) et partageant une baie de disques commune ainsi qu'un réseau de communication. Un système d'exploitation spécialisé, exploite les éléments du cluster pour gérer la répartition du calcul ou les traitements à réaliser.

Il ne propose pas d'environnement graphique (GNOME). L'accès à ce serveur se fait via une commande ssh (ssh user@dga-cluster )

dga-cluster gère le gestionnaire de travaux Batch (SGE) et permet l'utilisation du compilateur Intel Fortran.

Physiquement, il s'agit de 2 serveurs configurés en HADR (Haute disponibilité). Si le serveur actif s'arrête, le second prend la main.

Le cluster est composé de 82 noeuds dont vous trouverez les caractéristiques ci-dessous

Marque	Type	nombre de noeuds	Processeurs/noeuds	nombre de coeurs/noeuds	Mémoire (Go)/noeuds
SuperMicro	SYS-6028TP-HTTR	72	2 x E5-2640 v3 @ 2.60GHz	16	128
SuperMicro	SYS-6028TP-HTTR	8	2 x E5-2640 v3 @ 2.60GHz	16	256
SuperMicro	SYS-6028R-TRT	2	2 x E5-2698 v3 @ 2.30GHz	32	512

Le nombre total de coeurs disponible sur le cluster est donc de : 1344

L'accès au cluster se fait en cas d'un besoin de parallélisation important. L’ouverture d’un compte sur le cluster dga-cluster se fait dans le cadre d’un projet.

Pour les utilisateurs de dga-cluster: documentation

documentation ancien cluster (arrêté en octobre 2016)

Pour en savoir plus¶

Autres serveurs d'infrastructure, schéma de l'environnement du CTIG et caractéristiques techniques des serveurs.

Les espaces disques¶

Demande espace disque - projet¶

Les demandes pour un nouvel espace disque (file-system) sont à associer à un projet.
Le formulaire est ici : Formulaires compte et projet.

Les demandes d'augmentation d'espace disque sont à adresser sous la forme d'un forge (https://code.x2go.org/releases/binary-win32/x2goclient/releases/4.1.1.1-2018.03.01/) par le responsable de l'équipe de recherche ou par le responsable du projet.

Les différents espaces¶

Le /home a un quota de 2Go par utilisateur, il n'a pas vocation a recevoir des données qui servent a des études de recherches ou d'indexation et qui sont elles souvent partagées par les personnes d'une même équipe de recherche ou d'un projet.

Le /travail est un espace non sauvegardé et sur lequel les fichiers sont effacés au bout de 17 jours de non utilisation (lecture ou écriture).

Espace	Type	Taille	Sauvegarde	droits à la création	Accessibilité (1)
/home/jdupont	Fichiers de configurations des logiciels utilisés et données personnelles.	2 Go par utilisateur	MCAIX1	rwx r-x --- (*)	accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster	Le répertoire jdupont est créé à la première connexion.
/travail	Données temporaires et fichiers intermédiaires lors des calculs.	30 To	Pas de sauvegarde	rwx r-x r-x (*)	accessible en lecture-écriture depuis dga20,dga-cluster et les noeuds du cluster	Chacun y créer un répertoire pour y stocker son travail. Suppression automatique des répertoires vides et des fichiers non accédés depuis plus de 17 jours.
/EquipeRecherche	Répertoires des activités ou projet partagés par l’équipe de recherche.	selon la demande	MCAIX1	rwx r-x r- x (*)	accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster	Tous les membres de l’équipe peuvent créer un répertoire au 1er niveau de l’espace.
/Projet	Répertoires d’un projet, la plupart du temps transversal aux équipes de recherche. Un groupe « projet » y est associé.	selon la demande	selon la demande	rwx r-x r-x Le groupe par défaut est le projet.	accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster	Tous les membres du projet peuvent créer un répertoire de 1er niveau. Remplir le formulaire pour déclarer un nouveau projet sur CTIGWiki.

(1) L'accès en écriture sur les espaces EquipeRecherche et Projet depuis le cluster ne peut se faire que via la classe SGE copyq

(*) Le groupe par défaut est l’équipe de recherche.

Travailler plus efficacement dans les filesystems¶

Dans les gros filesystems, ou dans les filesystems ou il y a beaucoup de fichiers (par exemple /travail) il est conseillé d'éviter au maximum de faire des listages de fichiers ou de minimiser les opérations avec des wildcards.

Par exemple la commande

rm -rf *

peut durer très longtemps lorsqu'il y a beaucoup de fichiers à supprimer, de même que la commande

ls -l

ls -R

mettra d'autant plus de temps à répondre qu'il y a de fichiers a lister.

Pour optimiser les traitements de masse sur des ensembles de fichiers il est alors conseillé d'utiliser des commandes les plus basiques possibles, ou de ne pas lister l'ensemble d'un répertoire. Une autre solution peut être de lister une fois les fichiers dans un fichier de liste puis de travailler avec ce fichier de liste. La commande

rm -rf *

par exemple re-parcoure l'arborescence à chaque suppression de fichiers, multiplié par le nombre de fichiers cela peut donner des temps extrêmement longs.

Voici un exemple de commandes qui peuvent être jusqu’à 10 fois plus rapide selon le nombre de fichiers :

Commande "lente"	Commande "rapide"
ls -l	ls -1f
rm -rf *	find . \| xargs rm -f ou find . -exec rm {} \;
cp -R /dossier1 /dossier2	rsync -aHv /dossier1/ /dossier2/

De manière générale il faut privilégier l'utilisation de find ou de rsync pour les opérations sur les fichiers. Vous trouverez de l'aide sur ces commandes en tapant

man rsync

man find

dans un terminal.

Exemples de commandes utiles :

find . -name '*.pdf' -exec rm {} \;

pour n'effacer que les fichiers pdf

rsync -a --exclude '.svn' rep_depart rep_arrivee

pour ne pas copier les fichiers contenus dans le répertoire .svn

rsync -a --exclude '*.pdf' rep_depart rep_arrivee

pour copier tous les fichiers sauf les pdf.

L'utilisation d'interface graphique pour naviguer dans les répertoires est également à proscrire : nautilus par exemple utilise les mêmes mécanismes que "ls -l".

Les sauvegardes¶

Principe des sauvegardes¶

Une Management Classe définit les règles de sauvegarde à appliquer aux fichiers lui appartenant (nombre de versions de fichiers à conserver,durée de rétention ...). 2 management classes sont principalement utilisées : MCAIX1 et MCBK3.

MCAIX1 : tant que le fichier existe sur disque, la dernière version de sauvegarde de celui-ci est conservée. Les deux versions précédentes du fichier sont conservées 90 jours. Lorsque le fichier est supprimé du disque, la dernière version est conservée 40 jours.

MCBK3 : tant que le fichier existe sur disque, les 3 dernières versions de sauvegarde de celui-ci sont conservées. Lorsque le fichier est supprimé du disque, la dernière version est conservée 1 an. « mcbk3 » ne figure plus automatiquement dans le nom du fichier ou du répertoire (sauvegarde de son arborescence).

Restauration de fichiers¶

Pour demander une restauration de fichier, creez une forge a cette adresse : https://ctig-forge.jouy.inra.fr/projects/centre-de-service/issues/new .

Horaires des sauvegardes¶

Les sauvegardes se font sur les file-systèmes accessibles depuis dga12.
Les sauvegardes se déroulent la nuit à partir de 00h05 du lundi au vendredi.

Les espaces internes (/home)du cluster dga11 sont sauvegardés à partir de 04h10 du lundi au vendredi.

Seuls les fichiers modifés depuis la dernière sauvegarde sont sauvegardés.

Détails des Managements Classes par serveur¶

Tableau des Management Classe par file-system.

Les logiciels¶

Outils statistiques¶

	dga20	dga-cluster	noeuds du cluster	notes
SAS	9.4		9.4	seules les classes sas et sasindex (réservée aux membres du groupe index_sge) peuvent accéder à SAS sur les noeuds du cluster
R	3.3.2 3.2.3 3.0.2	3.3.2 3.2.3 3.0.2	3.3.2 3.2.3 3.0.2	les versions N-1 et N-2 sont accessibles, respectivement, par les commandes R-1 et R-2.

Outils génétiques du DGA¶

	dga20	dga-cluster	noeuds du cluster
GENEKIT	14/06/2012	14/06/2012	14/06/2012
GS3	2.2.3		2.2.3
GSEVM
hapflk	1.3.0	1.3.0	1.3.0
QTLMap	0.9.7	0.9.7	0.9.7
TM
Pls4Snp	0.0.3	0.0.3	0.0.3
muller	0.0.3	0.0.3	0.0.3
LDSO	1.0.2	1.0.2	1.0.2
RobPower	1.0.0	1.0.0	1.0.0

Outils génétiques Extérieurs au DGA¶

	dga20	dga-cluster	noeuds du cluster	RStudio server	noeuds du cluster RH8
ASReml	3.0/4.1 arrêt le 29/02/2024	3.0/4.1 arrêt le 29/02/2024	3.0 /4.1 arrêt le 29/02/2024	4.2	4.2
crEDC	5e	5e	5e
Cri-Map	2.503		2.503
FImpute			3.0 via FImpute3	3.0 via FImpute3	3.0 via FImpute3
PEST	4.2.6		4.2.6
PLINK	1.07 et 1.09b4	1.07 et 1.09b4	1.07 et 1.09b4
VCE	6.0.2		6.0.2
WOMBAT	25/02/2020		25/02/2020
VCFTools	0.1.13	0.1.13	0.1.13
Admixture	1.2.3
blupf90	26/12/2016	26/12/2016	26/12/2016

Infrastructure Rstudio¶

Cette infrastructure a été mise en production le 8 juin 2022

Rstudio Server ¶

Rstudio - Problèmes connus ¶

Le gestionnaire de ressources¶

Le gestionnaire de ressources SGE (Son of Grid Engine)permet, entre autres, de gérer les files d'attente du batch pour les travaux soumis de manière non interactive (en mode commande différée).

	dga-cluster	notes
SGE	8.1.8	les travaux peuvent aussi être soumis depuis dga20

Les commandes htop et qinfo permettent de connaitre les consommations de ressources des travaux.

L'environnement de développement¶

Langages¶

Environnement par défaut¶

	dga20	dga-cluster	notes
Intel Fortran (1)	12.0.2.137 14.0.1	12.0.2.137 14.0.1	on ne peut pas compiler avec Intel Fortran sur dga20, mais l'exécution de programmes fortran est permise. La compilation avec Intel Fortran n'est permise que sur dga-cluster ou via la file d'attente SGE ifort
gfortran	4.8.2	4.8.2
GNU C	4.8.2
Java	1.7	1.7
perl	5.10.1	5.10.1
python	2.66	2.66	version par défaut, des versions plus récentes sont disponibles, voir plus bas
shell(bash)

(1) Le compilateur Intel Fortran n'est accessible que depuis dga-cluster ou via la classe sge ifort

Des versions plus récentes de certains logiciels sont accessibles en chargeant leurs environnements :

gcc 4.7.2 :

source /bao/dev/env/env-gcc-4.7.1.sh

gcc 4.8.2 :

source /bao/dev/env/env-gcc-4.8.2.sh

ifort 2013 :

source /bao/dev/env/env-ifort-2013-1.106.sh

java 1.8

source /bao/dev/env/env-java8.sh

openmpi-1.6.5 pour ifort 2013:

source /bao/dev/env/env-openmpi-1.6.5-ifort-2013_sp1.1.sh

openmpi-1.6.5 pour gfortran 4.8:

source /bao/dev/env/env-openmpi-1.6.5-gcc-4.8.2.sh

python 2.7 :

source /bao/dev/env/env-python-2.7.0.sh

python 2.7.11 :

source /bao/dev/env/env-python-2.7.11.sh

python 3.6.2 :

source /bao/dev/env/env-python-3.6.2.sh

Editeurs et utilitaires¶

	dga20
nedit	5.5
emacs	23.1.1
meld	1.3.1

Outils de versioning¶

Formation Subversion version du 27/11/2012 (Olivier Filangi)
Précis des commandes GIT (Thierry Heirman)
Pro GIT disponible en lecture libre en ligne (Scott Chacon and Ben Straub) : https://git-scm.com/book/en/v2

Aides au développement¶

Pour en savoir plus sur :

Résolution d'un grand nombre de problèmes statistiques et informatiques, résolution de systèmes linéaires, logiciels d'optimisation ...
La librairie de routines Fortran NAG
L'utilisation des debbugeurs Version du 23/11/2012 (diaporama de la formation réalisée par Olivier Filangi)

Les formations :

Diaporamas des formations au nouvel environnement, lors de la migration au nouvel environnement sous Linux, présentation de l'environnement de développement
L'utilisation de SVN version du 27/11/2012 (diaporama de la formation réalisée par Olivier Filangi)

Nos forums sont à disposition et permettent de poser des questions, demander de l'aide à la cantonade, vers les utilisateurs du CTIG.

Plus largement, à l'INRA :

Un réseau métier, le PEPI IDL (Partage d'Epérience et de Pratique en Informatique pour l'ingénierie du Développement Logiciel) est disponible.

Pour qui? Les scientifiques et ingénieurs intéressés par le développement logiciel.
Pour quoi faire? Afin d'améliorer la qualité du développement logiciel à l'INRA, le PEPI-IDL organise en réseau les personnes intéressées. Son objectif est d'aider au partage des bonnes pratiques, de développer et de maintenir une expertise, de fédérer les personnes intéressées autour du développement, et d'aider à la définition et à la promotion des métiers du développement logiciel.

La forge du département¶

Une forge est un système dédié à la gestion de projets, essentiellement informatiques, au travers d'une interface web. Les principales fonctionnalités de cette forge sont, pour chaque projet, une gestion des membres du projet avec différents rôles définis, un wiki, une gestion de "ticket" pour suivre les remontées de bugs ou de nouveaux développements. Le système de gestion de version 'SVN' est inclus dans ce système, permettant un meilleur suivi des versions des développements.
Le fonctionnement de la forge est assuré par le CTIG qui prend en charge l'hébergement et l'administration système de la machine, et par le CATI SICPA, responsable de l'administration web et du support utilisateur.

La forge du département INRA de Génétique Animale : http://forge-dga.jouy.inra.fr/

Pour mettre à disposition vos développements¶

QGSP - Quantitative Genetics Software Platform : https://qgsp.jouy.inra.fr/

La BAO : organisation des logiciels concernant les développeurs

Les bases de données BDIR et Infosnig¶

Les BDIR (Base de Données Indexation Recherche) sont des fichiers plats à destination des chercheurs de l'INRA, au format CSV, contenant :

des extractions consolidées de données issues des Systèmes Nationaux d'Informations Génétiques (SIG, OVALL, SIECL, ..) nécessaires pour les évaluations génétiques officielles, mais aussi pour les besoins de recherche.
éventuellement des données ne provenant pas des SNIG : typages, ...
les résultats des évaluations génétiques

L'organisation des fichiers est documentée et structurée, les fichiers sont accessibles pour les personnes autorisées depuis différents serveurs du CTIG (cluster, dga12, ..)

Différents outils ont été développés pour faciliter l'utilisation des fichiers :

macros SAS permettant de lire / écrire des fichier
outil de remontée de généalogie
outil de récupération de lignes
outil de mise en forme de fichiers (ajout d'entete, mise au format Excel)

Les informations concernant les bases de données Indexation Recherche (BDIR) et l'infocentre des SNIG (Infosnig) pour l'IDELE sont disponibles ici.

L'archivage¶

L'archivage a pour but de conserver des informations figées, afin de les consulter pour des besoins opérationnels et/ou de conformité aux lois et réglementations.

Le système d’archivage ADA est disponible. Il permet de ranger des objets (répertoires ou fichiers) qui sont à garder pour une consultation ultérieure dans des archives. Ces objets, une fois archivés, peuvent être supprimés des disques. Les objets dans les archives sont conservés et consultables suivant des règles prédéfinies.

L’archivage est différent de la sauvegarde. On archive pour conserver plutôt sur le moyen-long terme, les données ne sont pas modifiables une fois archivées, l’archivage est du domaine de l’application, il faut connaître la valeur de la donnée pour l’archiver. La sauvegarde est une recours en cas d’incident plutôt sur le court-moyen terme, elle est du domaine de l’exploitation.

Pour en savoir plus sur l'archivage

CTIG-Environnement pour l’utilisateur » CTIG Environnement

Wiki