=Importante mise à jour de notre infrastructure de calcul informatique de pointe= L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à partir de l'hiver 2024-2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. La mise en service de la plupart des nouveaux systèmes est prévue pour l'été de 2025. Le contenu de la présente page sera mis à jour au fur et à mesure que les informations sont disponibles. Près de 80 % de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée. =Nouveaux systèmes= {| class="wikitable" |- | '''nouveau système''' || '''système remplacé''' || '''Documentation''' |- | [[Arbutus/fr|Arbutus]] || [[Cloud/fr|nuage]] (aucun changement à cette infrastructure virtuelle)|| [[Arbutus/fr|voir cette page]] |- | [[Rorqual]] || [[Béluga]] || [[Rorqual|voir cette page]] |- | [[Fir/fr|Fir]] || [[Cedar/fr|Cedar]] || [[Fir/fr|voir cette page]] |- | [[Trillium/fr|Trillium]] || [[Niagara/fr|Niagara]] & [[Mist/fr|Mist]] || [[Trillium/fr|voir cette page]] |- | [[Nibi/fr|Nibi]] || [[Graham/fr|Graham]] || [[Nibi/fr|voir cette page]] |} =Capacité des systèmes, baisse et arrêts de services= Pendant l'installation et la transition vers les nouveaux systèmes, nous devrons sans doute suspendre ou diminuer les services en raison de contraintes d'alimentation électrique ou d'espace.
Veuillez tenir compte de ces possibilités dans la planification de votre programme de recherche, des soutenances de thèse ou de mémoire, etc. [[Infrastructure renewal completed events/fr|Cliquez ici pour la liste des travaux terminés]]. {| class="wikitable" |- | '''Début''' || '''Fin''' || '''État''' || '''Système''' || '''Type''' || '''Description''' |- | 2025-06-06, 9h (HAE) || 2025-06-10, 12h (HAE) (4 jours) || en préparation || Béluga, Narval, Juno (autres que zone HD) || Arrêt de service || Une maintenance électrique planifiée nous oblige à éteindre les nœuds de calcul de Béluga et Narval à partir de 9h (midi) le 6 juin, jusqu’à 12h (midi) le 10 juin 2025 (HAE). Les instances infonuagiques du nuage Juno qui ne sont pas dans la zone de haute disponibilité seront aussi éteintes. Les tâches prévues pour se terminer après 9h le 6 juin resteront dans la queue jusqu'à ce que les grappes reviennent en service. Courtes interruptions pour maintenance du réseau et du stockage : * Les travaux de maintenance du réseau pourraient causer de courtes interruptions d'accès aux '''instances infonuagiques de Béluga et aux instances infonuagiques de Juno qui ne sont pas dans la zone de haute disponibilité'''. * '''Les systèmes de stockage de Béluga et de Narval''' resteront accessibles via Globus et les nœuds de connexion; cependant, les travaux de maintenance du réseau et du stockage pourraient causer des interruptions d'accès intermittentes. |- | 2025-01-22 || || en cours || Cedar (70%) || baisse de services || La capacité de la grappe sera réduite à environ 70% à partir du 22 janvier jusqu'à ce que la grappe Fir entre en service à l'été 2025. |- | 2025-02-25 || || en cours || Graham (25%) || baisse de services || '''Mise à jour du 21 mars : La grappe Graham fonctionne maintenant à capacité réduite.'''
'''Le nuage Graham fonctionne comme à l'habitude.''' |- | 2025-01-06 || || en cours || Niagara (50%), Mist (35%) || baisse de services|| La capacité de calcul sera réduite à 50% pour Niagara et à 35% pour Mist jusqu'à la mise en service de Trillium prévue pour l'été 2025. Mist a été fermée pendant quelques heures le 6 janvier 2025. |} =Concours pour l'allocation des ressources= Le concours pour l'allocation des ressources sera touché par cette transition, mais la procédure de candidature reste inchangée. Les allocations pour 2024-2025 resteront en vigueur sur les grappes qui seront remplacées tant que ces grappes seront en service. Les allocations pour 2025-2026 seront toutes disponibles une fois que toutes les nouveaux systèmes seront en service. Si vous détenez à la fois des allocations pour 2024 et pour 2025, il y aura une période pendant laquelle ces allocations ne seront pas disponibles puisque la plupart des grappes remplacées seront hors service avant la mise en service de tous les nouveaux systèmes. Vous pourrez toutefois utiliser votre allocation par défaut (def-xxxxxx) sur chaque nouveau système dès sa mise en service, mais les allocations pour 2025 ne seront disponibles qu'une fois tous les nouveaux systèmes mis en service. =Outils de formation= {| class="wikitable" |- | '''Titre''' || '''Organisation''' || '''Présenté par''' || '''Date''' || '''Description''' || '''Public cible''' || '''Format''' || '''Inscription''' |- | Workflow Hacks for Large Datasets in HPC || Université Simon-Fraser / West DRI || Alex Razoumov || Mardi 20 mai 2025, 10h HP || Au cours des années, nous avons préparé des webinaires sur des outils qui facilitent les flux de travail avec de grands ensembles de données. Nous présenterons ici certains de ces outils.
Visualisation in-situ : pour des rendus interactifs de vecteurs de grande taille en mémoire, sans le besoin de les enregistrer sur disque.
Compression de données 3D avec perte : pour faciliter le stockage et l'archivage en diminuant la taille d'ensembles de données 3D d'environ 100X, sans artefacts visibles.
Stockage distribué : pour une meilleure gestion de beaucoup de données se trouvant dans plusieurs endroits différents.
DAR (Disk ARchiver) : une alternative moderne et performante à TAR qui offre une indexation, des archives différentielles et une extraction plus rapide.
Les enregistrements et le matériel pour les webinaires précédents sont disponibles (sans frais) sur [https://training.westdri.ca https://training.westdri.ca]. || Utilisatrices et utilisateurs ayant de grands ensembles de données || webinaire;
les enregistrements et le matériel des webinaires passés sont disponibles gratuitement sur [https://training.westdri.ca https://training.westdri.ca] |- | [https://training.sharcnet.ca/courses/enrol/index.php?id=210 Mastering GPU Efficiency] (en anglais)|| SHARCNET || Sergey Mashchenko || en tout temps || Ce cours en ligne que vous faites à votre rythme offre une formation de base sur l'utilisation des GPU sur nos [https://training.sharcnet.ca/courses/mod/glossary/showentry.php?eid=86&displayformat=dictionary systèmes nationaux]. Les GPU modernes (tels que NVIDIA A100 et H100) sont des ressources massivement parallèles et très coûteuses. La plupart des tâches GPU ne sont pas en mesure d'utiliser ces GPU efficacement, soit en raison de la taille du problème trop petite pour saturer le GPU, soit en raison du modèle d'utilisation intermittent (en rafale) du GPU. Vous apprendrez à mesurer l'utilisation du GPU par vos tâches à utiliser les deux technologies NVIDIA - MPS (Multi-Process Service) et MIG (Multi-Instance GPU) pour améliorer l'utilisation du GPU. || Utilisatrices et utilisateurs potentiels des systèmes mis à niveau ||Cours en ligne d'une heure avec certificat|| [https://training.sharcnet.ca/courses/enrol/index.php?id=210 Accédez au cours ici (un compte avec l'Alliance est requis)] |- | Introduction to the Fir cluster (en anglais)|| Université Simon-Fraser / West DRI || Alex Razoumov || Septembre 2025 (report de la date) || La nouvelle grappe Fir de l'Université Simon-Fraser devrait entrer en fonction au cours de l'été 2025. Nous présenterons un aperçu de la grappe et de son matériel; les différents systèmes de fichiers et leur usage recommandé; les politiques de soumission des tâches; et les meilleures pratiques sur l'utilisation de la grappe || Utilisatrices et utilisateurs de la grappe [[Fir/fr|Fir]] || webinaire || détails pour l'inscription à venir |- | [https://youtu.be/pxY3G3BhwyA Survival guide for the upcoming GPU upgrades] (en anglais) || SHARCNET || Sergey Mashchenko || EN LIGNE || Nos systèmes nationaux subiront des mises à niveau importantes dans les prochains mois. En particulier, les anciens GPU (P100, V100) seront remplacés par les nouveaux GPU H100 de NVIDIA. La puissance de calcul totale des GPU augmentera d'un facteur de 3,5, mais le nombre de GPU diminuera considérablement, passant de 3200 à 2100. Ceci posera un défi important, car la pratique habituelle consistant à utiliser un GPU entier pour chaque processus ou rang MPI ne sera plus possible dans la plupart des cas. Heureusement, NVIDIA propose deux technologies puissantes pour atténuer cette situation : MPS (Multi-Process Service) et MIG (Multi-Instance GPU). Nous discuterons de ces deux technologies et de la manière dont elles peuvent être utilisées sur nos grappes. Nous verrons comment déterminer l'approche qui fonctionnera le mieux pour un code particulier et une démonstration sera effectuée à la fin. ||Utilisatrices et utilisateurs potentiels des systèmes mis à niveau, ou devant utiliser une quantité importante de ressources H100 (par exemple, plusieurs GPU à la fois et/ou pour plus de 24 heures d'exécution) || [https://youtu.be/pxY3G3BhwyA vidéo] et [https://helpwiki.sharcnet.ca/wiki/images/1/1d/MIG_MPS.pdf diapositives] (durée, 1 heure) || (présentation faite le 20 novembre 2024 de 12h à 13h) |} = Foire aux questions = == Mes données seront-elles migrées sur leur nouveau système? == La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre. == Mes fichiers seront-ils supprimés si le centre de données qui héberge mon système ferme pendant la transition? == Non, vos fichiers ne seront pas supprimés. Pendant les activités de renouvellement, chaque site hôte national migrera les données /project et /home du système de stockage existant vers le nouveau système de stockage quand il sera installé. Ces migrations se produisent généralement pendant les arrêts de services, mais les détails spécifiques peuvent varier selon le site. Chaque site hôte national vous informera de toute action susceptible d'avoir un effet sur vos travaux. De plus, les systèmes de bandes pour les sauvegardes et les données /nearline ne sont pas remplacés, donc les sauvegardes et les données /nearline resteront inchangées. Pour d'autres questions techniques, écrivez à [[Technical support/fr|notre soutien technique]]. == Les arrêts de service sont-ils prévisibles? == Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur [https://status.alliancecan.ca notre page web sur l'État des systèmes]. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour. == Qui peut répondre à mes questions sur la transition? == Le [[technical support/fr|soutien technique]] tentera de vous informer, mais il se peut que l'information ne leur soit pas encore connue. == Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications? == Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition. == Les logiciels sur les systèmes existants seront-ils toujours disponibles? == Oui, notre [[Standard software environments/fr|environnement logiciel standard]] sera disponible sur les nouveaux systèmes. == Les logiciels commerciaux sous licence seront-ils migrés sur les nouveaux systèmes? == Oui. Dans la mesure du possible, vous aurez le même accès pour ce type d'application (Gaussian, AMS/ADF, etc.). Les fournisseurs pourraient modifier les conditions, mais le risque est faible. Nous vous informerons des cas susceptibles de se présenter. == Les arrêts de service seront-ils échelonnés? == Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible. == Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure? == La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.