Le livret d’accueil pratico-pratique pour démarrer

Les serveurs


Demande ouverture de compte

Les demandes d'ouverture de compte doivent être faites par les responsables ou correspondants informatiques, contactez les personnes qui font les demandes de comptes ou votre correspondant informatique.

Ces derniers doivent se connecter sur dga20 et lancer firefox puis entrer l'url suivante : http://localhost/consultldap/
Entrer ensuite le login/mdp (le même que pour se connecter à dga20) puis cliquer sur demande de compte.

dga20 - serveur généraliste

C'est le serveur principal du CTIG. La plupart des utilisateurs ont un compte sur cette machine.

Il est principalement dédié à l'interactivité. Les utilisateurs peuvent aussi faire du calcul et de la gestion de données, mais si ces activités demandent beaucoup de ressources (CPU, mémoire), il est préférable d'utiliser le cluster

On accède directement à dga20 à partir des réseaux connus du CTIG (adresse réseau déclarée au CTIG). Les réseaux fournis par les FAI (Fournisseur d'accès à Internet) n'en font pas partie.

Pour l'accès à dga20 voir la FAQ : Comment accéder à nos serveurs ?

Introduction à dga20 (infos SGE) : fiche technique dga20

dga14 – X2GO pour accès itinérant

Par défaut, un compte est créé sur le serveur dga14 qui permet d'accéder aux serveurs du CTIG à partir d'un accès itinérant (adresse réseau non déclarée au CTIG).

500 Mo sont disponibles sur votre home de dga14. La suppression des répertoires et des fichiers non accédés depuis 7 jours est automatique.

Pour l'accès à dga14 voir la FAQ : Comment accéder à nos serveurs ?

dga-cluster – cluster de calcul

Un cluster est une grappe de serveurs (ou “ferme de calcul”) constituée de plusieurs serveurs similaires ou différents (appelés aussi noeuds) et partageant une baie de disques commune ainsi qu'un réseau de communication. Un système d'exploitation spécialisé, exploite les éléments du cluster pour gérer la répartition du calcul ou les traitements à réaliser.

Il ne propose pas d'environnement graphique (GNOME). L'accès à ce serveur se fait via une commande ssh (ssh user@dga-cluster )

dga-cluster gère le gestionnaire de travaux Batch (SGE) et permet l'utilisation du compilateur Intel Fortran.

Physiquement, il s'agit de 2 serveurs configurés en HADR (Haute disponibilité). Si le serveur actif s'arrête, le second prend la main.

Le cluster est composé de 82 noeuds dont vous trouverez les caractéristiques ci-dessous

Marque Type nombre de noeuds Processeurs/noeuds nombre de coeurs/noeuds Mémoire (Go)/noeuds
SuperMicro SYS-6028TP-HTTR 72 2 x E5-2640 v3 @ 2.60GHz 16 128
SuperMicro SYS-6028TP-HTTR 8 2 x E5-2640 v3 @ 2.60GHz 16 256
SuperMicro SYS-6028R-TRT 2 2 x E5-2698 v3 @ 2.30GHz 32 512

Le nombre total de coeurs disponible sur le cluster est donc de : 1344

L'accès au cluster se fait en cas d'un besoin de parallélisation important. L’ouverture d’un compte sur le cluster dga-cluster se fait dans le cadre d’un projet.

Pour les utilisateurs de dga-cluster: documentation

Pour en savoir plus

Autres serveurs d'infrastructure, schéma de l'environnement du CTIG et caractéristiques techniques des serveurs.

Les espaces disques


Demande espace disque - projet

Les demandes pour un nouvel espace disque (file-system) sont à associer à un projet.
Le formulaire est ici : Formulaires compte et projet.

Les demandes d'augmentation d'espace disque sont à adresser sous la forme d'un forge (https://code.x2go.org/releases/binary-win32/x2goclient/releases/4.1.1.1-2018.03.01/) par le responsable de l'équipe de recherche ou par le responsable du projet.

Les différents espaces

Le /home a un quota de 2Go par utilisateur, il n'a pas vocation a recevoir des données qui servent a des études de recherches ou d'indexation et qui sont elles souvent partagées par les personnes d'une même équipe de recherche ou d'un projet.

Le /travail est un espace non sauvegardé et sur lequel les fichiers sont effacés au bout de 17 jours de non utilisation (lecture ou écriture).

Espace Type Taille Sauvegarde droits à la création Accessibilité (1)
/home/jdupont Fichiers de configurations des logiciels utilisés et données personnelles. 2 Go par utilisateur MCAIX1 rwx r-x --- (*) accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster Le répertoire jdupont est créé à la première connexion.
/travail Données temporaires et fichiers intermédiaires lors des calculs. 30 To Pas de sauvegarde rwx r-x r-x (*) accessible en lecture-écriture depuis dga20,dga-cluster et les noeuds du cluster Chacun y créer un répertoire pour y stocker son travail.
Suppression automatique des répertoires vides et des fichiers non accédés depuis plus de 17 jours.
/EquipeRecherche Répertoires des activités ou projet partagés par l’équipe de recherche. selon la demande MCAIX1 rwx r-x r- x (*) accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster Tous les membres de l’équipe peuvent créer un répertoire au 1er niveau de l’espace.
/Projet Répertoires d’un projet, la plupart du temps transversal aux équipes de recherche. Un groupe « projet » y est associé. selon la demande selon la demande rwx r-x r-x
Le groupe par défaut est le projet.
accessible en lecture-écriture depuis dga20 et dga-cluster et en lecture seule depuis les noeuds du cluster Tous les membres du projet peuvent créer un répertoire de 1er niveau.
Remplir le formulaire pour déclarer un nouveau projet sur CTIGWiki.

(1) L'accès en écriture sur les espaces EquipeRecherche et Projet depuis le cluster ne peut se faire que via la classe SGE copyq

(*) Le groupe par défaut est l’équipe de recherche.

Travailler plus efficacement dans les filesystems

Dans les gros filesystems, ou dans les filesystems ou il y a beaucoup de fichiers (par exemple /travail) il est conseillé d'éviter au maximum de faire des listages de fichiers ou de minimiser les opérations avec des wildcards.

Par exemple la commande

rm -rf *
peut durer très longtemps lorsqu'il y a beaucoup de fichiers à supprimer, de même que la commande
ls -l
ou
ls -R
mettra d'autant plus de temps à répondre qu'il y a de fichiers a lister.

Pour optimiser les traitements de masse sur des ensembles de fichiers il est alors conseillé d'utiliser des commandes les plus basiques possibles, ou de ne pas lister l'ensemble d'un répertoire. Une autre solution peut être de lister une fois les fichiers dans un fichier de liste puis de travailler avec ce fichier de liste. La commande

rm -rf *
par exemple re-parcoure l'arborescence à chaque suppression de fichiers, multiplié par le nombre de fichiers cela peut donner des temps extrêmement longs.

Voici un exemple de commandes qui peuvent être jusqu’à 10 fois plus rapide selon le nombre de fichiers :

Commande "lente" Commande "rapide"
ls -l 
ls -1f
rm -rf *
find . | xargs rm -f
ou
find . -exec rm {} \;
cp -R /dossier1 /dossier2 
rsync -aHv /dossier1/ /dossier2/

De manière générale il faut privilégier l'utilisation de find ou de rsync pour les opérations sur les fichiers. Vous trouverez de l'aide sur ces commandes en tapant

man rsync
ou
man find
dans un terminal.

Exemples de commandes utiles :

find . -name '*.pdf' -exec rm {} \; 
pour n'effacer que les fichiers pdf
rsync -a --exclude '.svn' rep_depart rep_arrivee
pour ne pas copier les fichiers contenus dans le répertoire .svn
rsync -a --exclude '*.pdf' rep_depart rep_arrivee
pour copier tous les fichiers sauf les pdf.

L'utilisation d'interface graphique pour naviguer dans les répertoires est également à proscrire : nautilus par exemple utilise les mêmes mécanismes que "ls -l".

Les sauvegardes


Principe des sauvegardes

Une Management Classe définit les règles de sauvegarde à appliquer aux fichiers lui appartenant (nombre de versions de fichiers à conserver,durée de rétention ...). 2 management classes sont principalement utilisées : MCAIX1 et MCBK3.

MCAIX1 : tant que le fichier existe sur disque, la dernière version de sauvegarde de celui-ci est conservée. Les deux versions précédentes du fichier sont conservées 90 jours. Lorsque le fichier est supprimé du disque, la dernière version est conservée 40 jours.

MCBK3 : tant que le fichier existe sur disque, les 3 dernières versions de sauvegarde de celui-ci sont conservées. Lorsque le fichier est supprimé du disque, la dernière version est conservée 1 an. « mcbk3 » ne figure plus automatiquement dans le nom du fichier ou du répertoire (sauvegarde de son arborescence).

Restauration de fichiers

Pour demander une restauration de fichier, creez une forge a cette adresse : https://ctig-forge.jouy.inra.fr/projects/centre-de-service/issues/new .

Horaires des sauvegardes

Les sauvegardes se font sur les file-systèmes accessibles depuis dga12.
Les sauvegardes se déroulent la nuit à partir de 00h05 du lundi au vendredi.

Les espaces internes (/home)du cluster dga11 sont sauvegardés à partir de 04h10 du lundi au vendredi.

Seuls les fichiers modifés depuis la dernière sauvegarde sont sauvegardés.

Détails des Managements Classes par serveur

Tableau des Management Classe par file-system.

Les logiciels

Outils statistiques

dga20 dga-cluster noeuds du cluster notes
SAS 9.4 9.4 seules les classes sas et sasindex (réservée aux membres du groupe index_sge) peuvent accéder à SAS sur les noeuds du cluster
R 3.3.2 3.2.3 3.0.2 3.3.2 3.2.3 3.0.2 3.3.2 3.2.3 3.0.2 les versions N-1 et N-2 sont accessibles, respectivement, par les commandes R-1 et R-2.

Outils génétiques du DGA

dga20 dga-cluster noeuds du cluster
GENEKIT 14/06/2012 14/06/2012 14/06/2012
GS3 2.2.3 2.2.3
GSEVM
hapflk 1.3.0 1.3.0 1.3.0
QTLMap 0.9.7 0.9.7 0.9.7
TM
Pls4Snp 0.0.3 0.0.3 0.0.3
muller 0.0.3 0.0.3 0.0.3
LDSO 1.0.2 1.0.2 1.0.2
RobPower 1.0.0 1.0.0 1.0.0

Outils génétiques Extérieurs au DGA

dga20 dga-cluster noeuds du cluster RStudio server noeuds du cluster RH8
ASReml 3.0/4.1 arrêt le 29/02/2024 3.0/4.1 arrêt le 29/02/2024 3.0 /4.1 arrêt le 29/02/2024 4.2 4.2
crEDC 5e 5e 5e
Cri-Map 2.503 2.503
FImpute 3.0 via FImpute3 3.0 via FImpute3 3.0 via FImpute3
PEST 4.2.6 4.2.6
PLINK 1.07 et 1.09b4 1.07 et 1.09b4 1.07 et 1.09b4
VCE 6.0.2 6.0.2
WOMBAT 25/02/2020 25/02/2020
VCFTools 0.1.13 0.1.13 0.1.13
Admixture 1.2.3
blupf90 26/12/2016 26/12/2016 26/12/2016

Infrastructure Rstudio

Cette infrastructure a été mise en production le 8 juin 2022

Rstudio Server

Rstudio - Problèmes connus

Le gestionnaire de ressources


Le gestionnaire de ressources SGE (Son of Grid Engine)permet, entre autres, de gérer les files d'attente du batch pour les travaux soumis de manière non interactive (en mode commande différée).

dga-cluster notes
SGE 8.1.8 les travaux peuvent aussi être soumis depuis dga20

Les commandes htop et qinfo permettent de connaitre les consommations de ressources des travaux.

L'environnement de développement


Langages

Environnement par défaut

dga20 dga-cluster notes
Intel Fortran (1) 12.0.2.137 14.0.1 12.0.2.137 14.0.1 on ne peut pas compiler avec Intel Fortran sur dga20, mais l'exécution de programmes fortran est permise. La compilation avec Intel Fortran n'est permise que sur dga-cluster ou via la file d'attente SGE ifort
gfortran 4.8.2 4.8.2
GNU C 4.8.2
Java 1.7 1.7
perl 5.10.1 5.10.1
python 2.66 2.66 version par défaut, des versions plus récentes sont disponibles, voir plus bas
shell(bash)

(1) Le compilateur Intel Fortran n'est accessible que depuis dga-cluster ou via la classe sge ifort

Des versions plus récentes de certains logiciels sont accessibles en chargeant leurs environnements :

gcc 4.7.2 :

source /bao/dev/env/env-gcc-4.7.1.sh

gcc 4.8.2 :

source /bao/dev/env/env-gcc-4.8.2.sh

ifort 2013 :

source /bao/dev/env/env-ifort-2013-1.106.sh

java 1.8

source /bao/dev/env/env-java8.sh

openmpi-1.6.5 pour ifort 2013:

source /bao/dev/env/env-openmpi-1.6.5-ifort-2013_sp1.1.sh

openmpi-1.6.5 pour gfortran 4.8:

source /bao/dev/env/env-openmpi-1.6.5-gcc-4.8.2.sh

python 2.7 :

source /bao/dev/env/env-python-2.7.0.sh

python 2.7.11 :

source /bao/dev/env/env-python-2.7.11.sh

python 3.6.2 :

source /bao/dev/env/env-python-3.6.2.sh

Editeurs et utilitaires

dga20
nedit 5.5
emacs 23.1.1
meld 1.3.1

Outils de versioning

Aides au développement

Pour en savoir plus sur :

Les formations :

Nos forums sont à disposition et permettent de poser des questions, demander de l'aide à la cantonade, vers les utilisateurs du CTIG.

Plus largement, à l'INRA :

Un réseau métier, le PEPI IDL (Partage d'Epérience et de Pratique en Informatique pour l'ingénierie du Développement Logiciel) est disponible.

Pour qui? Les scientifiques et ingénieurs intéressés par le développement logiciel.
Pour quoi faire? Afin d'améliorer la qualité du développement logiciel à l'INRA, le PEPI-IDL organise en réseau les personnes intéressées. Son objectif est d'aider au partage des bonnes pratiques, de développer et de maintenir une expertise, de fédérer les personnes intéressées autour du développement, et d'aider à la définition et à la promotion des métiers du développement logiciel.

La forge du département

Une forge est un système dédié à la gestion de projets, essentiellement informatiques, au travers d'une interface web. Les principales fonctionnalités de cette forge sont, pour chaque projet, une gestion des membres du projet avec différents rôles définis, un wiki, une gestion de "ticket" pour suivre les remontées de bugs ou de nouveaux développements. Le système de gestion de version 'SVN' est inclus dans ce système, permettant un meilleur suivi des versions des développements.
Le fonctionnement de la forge est assuré par le CTIG qui prend en charge l'hébergement et l'administration système de la machine, et par le CATI SICPA, responsable de l'administration web et du support utilisateur.

La forge du département INRA de Génétique Animale : http://forge-dga.jouy.inra.fr/

Pour mettre à disposition vos développements

QGSP - Quantitative Genetics Software Platform : https://qgsp.jouy.inra.fr/

La BAO : organisation des logiciels concernant les développeurs

Les bases de données BDIR et Infosnig


Les BDIR (Base de Données Indexation Recherche) sont des fichiers plats à destination des chercheurs de l'INRA, au format CSV, contenant :
  • des extractions consolidées de données issues des Systèmes Nationaux d'Informations Génétiques (SIG, OVALL, SIECL, ..) nécessaires pour les évaluations génétiques officielles, mais aussi pour les besoins de recherche.
  • éventuellement des données ne provenant pas des SNIG : typages, ...
  • les résultats des évaluations génétiques

L'organisation des fichiers est documentée et structurée, les fichiers sont accessibles pour les personnes autorisées depuis différents serveurs du CTIG (cluster, dga12, ..)

Différents outils ont été développés pour faciliter l'utilisation des fichiers :
  • macros SAS permettant de lire / écrire des fichier
  • outil de remontée de généalogie
  • outil de récupération de lignes
  • outil de mise en forme de fichiers (ajout d'entete, mise au format Excel)

Les informations concernant les bases de données Indexation Recherche (BDIR) et l'infocentre des SNIG (Infosnig) pour l'IDELE sont disponibles ici.

L'archivage


L'archivage a pour but de conserver des informations figées, afin de les consulter pour des besoins opérationnels et/ou de conformité aux lois et réglementations.

Le système d’archivage ADA est disponible. Il permet de ranger des objets (répertoires ou fichiers) qui sont à garder pour une consultation ultérieure dans des archives. Ces objets, une fois archivés, peuvent être supprimés des disques. Les objets dans les archives sont conservés et consultables suivant des règles prédéfinies.

L’archivage est différent de la sauvegarde. On archive pour conserver plutôt sur le moyen-long terme, les données ne sont pas modifiables une fois archivées, l’archivage est du domaine de l’application, il faut connaître la valeur de la donnée pour l’archiver. La sauvegarde est une recours en cas d’incident plutôt sur le court-moyen terme, elle est du domaine de l’exploitation.

Pour en savoir plus sur l'archivage