{| class="wikitable" |- | Disponibilité : '''31 mars 2025''' |- | Nœud de connexion : '''tamia.alliancecan.ca''' |- | Collection Globus : [https://app.globus.org/file-manager?origin_id=72c3bca0-9281-4742-b066-333ba0fdef72 TamIA's Globus v5 Server] |- | Nœud de copie (rsync, scp, sftp,...) : '''tamia.alliancecan.ca''' |- | Portail : à annoncer |} tamIA est une grappe dédiée aux besoins de la communauté scientifique canadienne en matière d'intelligence artificielle. tamIA est située à [http://www.ulaval.ca/ l'Université Laval] et est co-gérée avec [https://mila.quebec/ Mila] et [https://calculquebec.ca/ Calcul Québec]. Son nom rappelle le [https://fr.wikipedia.org/wiki/Tamia tamia], un mammifère rongeur présent en Amérique du Nord. Cette grappe fait partie de [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/environnement-informatique-pancanadien-de-lia-eipia l'environnement de calcul pancanadien de l’IA (ECPIA)] ==Particularités== * Notre politique veut que les nœuds de calcul de tamIA n'aient pas accès à l'internet. Pour y faire exception, veuillez joindre le [[Technical_support/fr|soutien technique]] en expliquant ce dont vous avez besoin et pourquoi. * Notez que l'outil crontab n'est pas offert. * Chaque tâche devrait être d'une durée d’au moins une heure (au moins cinq minutes pour les tâches de test) et vous ne pouvez pas avoir plus de 1000 tâches (en exécution et en attente) à la fois. * La durée maximale d'une tâche est d'une journée (24 heures). * Chaque tâche doit utiliser 4 GPUs, soit 1 noeud complet. ==Accès== Pour accéder à la grappe de calcul, chaque chercheuse ou chercheur doit [https://ccdb.alliancecan.ca/me/access_services compléter une demande d'accès dans la CCDB]. L'accès effectif à la grappe peut prendre jusqu'à une heure après avoir complété la demande d'accès. Les chercheuses principales et chercheurs principaux admissibles sont membres d'un RAP de type AIP (préfixe aip-). La procédure pour parrainer d'autres chercheuses et chercheurs est la suivante: * Sur la '''[https://ccdb.alliancecan.ca/ page d'accueil de la CCDB]''', consulter la table ''Projet avec allocation de ressources''; * Chercher le RAPI du projet aip- et cliquer dessus pour être redirigé vers la page de gestion du RAP; * En bas de la page de gestion du RAP, cliquer sur '''Gérer l'appartenance aux projets'''; * Dans la section ''Ajouter des membres'', entrer le CCRI du membre à ajouter. ==Stockage== {| class="wikitable sortable" |- | HOME
Système de fichiers Lustre || * Cet espace est petit et ne peut pas être agrandi : vous devrez utiliser votre espace project pour les grands besoins en stockage. * Petits [[Storage and file management/fr#Quotas_et_politiques|quotas]] fixes par utilisateur * Il n'y a actuellement aucune sauvegarde automatique. (Planifié pour l'été 2025) |- | SCRATCH
Système de fichiers Lustre || * Grand espace pour stocker les fichiers temporaires pendant les calculs. * Pas de système de sauvegarde automatique * Grands [[Storage and file management/fr#Quotas_et_politiques|quotas]] fixes par utilisateur * Il y a une [[Scratch_purging_policy/fr | purge automatique]] des vieux fichiers dans cet espace. |- | PROJECT
Système de fichiers Lustre || * Cet espace est conçu pour le partage de données entre membres d'un groupe et pour le stockage de beaucoup de données. * Grands [[Storage and file management/fr#Quotas_et_politiques|quotas]] ajustables par projet * Il y a une sauvegarde automatique une fois par jour. |} Au tout début de la présente page, un tableau indique plusieurs adresses de connexion. Pour les transferts de données par [[Globus/fr|Globus]], il faut utiliser le '''Point de chute Globus'''. Par contre, pour les outils comme [[Transferring_data/fr#rsync|rsync]] et [[Transferring_data/fr#SCP|scp]], il faut utiliser l'adresse du '''Nœud de copie'''. ==Réseautique haute performance== Le réseau [https://fr.wikipedia.org/wiki/Bus_InfiniBand InfiniBand] [https://www.nvidia.com/en-us/networking/quantum2/ NDR de Nvidia] relie tous les nœuds de la grappe. Chaque GPU H100 est connecté à un port NDR200 via une carte Nvidia ConnectX-7. Chaque serveur a donc 4 ports NDR200 de connectés sur la fabrique Infiniband. Le réseau Infiniband est non bloquant pour les serveurs de calculs et est composé de 2 étages de commutateurs disposés dans une topologie "fat-tree". Le stockage et les noeuds de gestions sont reliés via 4 connexions à 400Gb/s au coeur du réseau. ==Caractéristiques des nœuds== {| class="wikitable sortable" ! nœuds !! cœurs !! mémoire disponible !! CPU !! stockage !! GPU |- | 42 || 48 || 512GB || 2 x [https://www.intel.com/content/www/us/en/products/sku/232380/intel-xeon-gold-6442y-processor-60m-cache-2-60-ghz/specifications.html Intel Xeon Gold 6442Y 2,6 GHz, 24C] || 1 x SSD de 7.68TB || 4 x NVIDIA HGX H100 SXM 80GB HBM3 700W, connectés via NVLink |- | 4 || 64 || 512GB || 2 x [https://www.intel.com/content/www/us/en/products/sku/232398/intel-xeon-gold-6438m-processor-60m-cache-2-20-ghz/specifications.html Intel Xeon Gold 6438M 2.2G, 32C/64T] || 1 x SSD de 7.68TB || Aucun |} ===Environnements logiciels disponibles=== [[Standard software environments/fr|L'environnement logiciel standard StdEnv/2023]] est l'environnement par défaut sur tamIA. ==Suivi de vos tâches== {{note|type=reminder|Le portail n'est pas encore disponible.}} Depuis le [https://portail.tamia.alliancecan.ca/ portail], vous pourrez suivre vos tâches de calcul GPU comme CPU en temps réel ou celles passées afin de maximiser l'utilisation des ressources et diminuer vos temps d'attente dans la file. Vous pourrez notamment visualiser pour une tâche : * l'utilisation des cœurs de calcul; * la mémoire utilisée; * l'utilisation de GPU. Il est important d'utiliser les ressources allouées et de rectifier vos demandes lorsque les ressources de calcul sont peu ou pas utilisées. Par exemple, si vous demander quatre cœurs (CPU) mais n'en utilisez qu'un seul, vous devez ajuster votre fichier de soumission en conséquence.