Cet atelier a pour objectif d’initier aux méthodes d’alignement textuel et d’analyse de similarité en traitement automatique du langage naturel (NLP). Une première partie proposera une introduction théorique aux principaux concepts mobilisés : alignement de segments textuels, embeddings et métriques de similarité. Les participant·e·s réaliseront ensuite des travaux pratiques à partir des outils Medite et Versus, afin d’en comprendre les usages spécifiques dans différents contextes de recherche : philologie numérique et comparaison de variantes textuelles, études de traduction, ou encore détection de réemplois et analyse de l’intertextualité. L’atelier se conclura par une discussion critique sur les potentialités de ces outils, ainsi que sur les modalités de personnalisation des requêtes et des traitements, notamment à l’aide de Python, pour répondre à des besoins de recherche plus spécifiques.
Cet atelier a pour objectif d’initier à l’usage de Mistral OCR pour convertir des PDF/scans/images en contenus exploitables (texte, mise en page, tableaux, équations) et structurés.
Après une introduction (qualité des sources, paramètres, limites et bonnes pratiques), les participants réaliseront des travaux pratiques : préparation d’un document, lancement de l’OCR, récupération des résultats (export texte/Markdown/JSON selon les sorties disponibles), contrôle qualité, puis pistes d’intégration dans une chaîne de traitement (indexation, recherche, RAG, préparation d’édition numérique).
Pré-requis : ordinateur portable, un PDF ou des images de document à tester (facultatif mais recommandé).
Cet atelier a pour objectif d’initier au traitement automatique du langage naturel (NLP) à l’aide de la bibliothèque Python spaCy, afin d’analyser et structurer des textes de manière efficace et reproductible. Après une introduction aux notions fondamentales du NLP et à l’architecture de spaCy, les participant·e·s réaliseront des travaux pratiques en environnement Jupyter Notebook / Google Colab : préparation d’un texte, tokenisation et segmentation, lemmatisation, reconnaissance d’entités nommées, etc. L’atelier se conclura par une discussion sur les bonnes pratiques et les possibilités d’intégration de spaCy dans des chaînes de traitement linguistique plus larges.
Prérequis : ordinateur portable
Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont aux travaux pratiques, avec l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.
Cet atelier, qui se décline en deux étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions numériques.
Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.
Pré-requis : ordinateur portable, connexion internet
Lien : GitHub
Résumé : Cet atelier propose une exploration approfondie du "Prompt Engineering", l’art de formuler des requêtes optimisées pour interagir avec des modèles d'IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs.
À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l'efficacité de vos requêtes. L'objectif est d'outiller les participants afin qu'ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.
Public concerné : Débutants souhaitant découvrir les bases d'utilisation de ChatGPT et améliorer leurs interactions avec les modèles d'IA.
Pré-requis : ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d'IA (ChatGPT, DALL-E)
Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.