ObTIC | LabRADoR

Analyse de similarité et alignement textuel

Cet atelier a pour objectif d’initier aux méthodes d’alignement textuel et d’analyse de similarité en traitement automatique du langage naturel (NLP). Une première partie proposera une introduction théorique aux principaux concepts mobilisés : alignement de segments textuels, embeddings et métriques de similarité. Les participant·e·s réaliseront ensuite des travaux pratiques à partir des outils Medite et Versus, afin d’en comprendre les usages spécifiques dans différents contextes de recherche : philologie numérique et comparaison de variantes textuelles, études de traduction, ou encore détection de réemplois et analyse de l’intertextualité. L’atelier se conclura par une discussion critique sur les potentialités de ces outils, ainsi que sur les modalités de personnalisation des requêtes et des traitements, notamment à l’aide de Python, pour répondre à des besoins de recherche plus spécifiques.

Début

mer 03/06/2026 - 15:00

Fin

mer 03/06/2026 - 17:00

Lieu

Campus Pierre et Marie Curie - SCAI Seminar Room

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Exploiter Mistral OCR – Extraction et structuration de documents

Cet atelier a pour objectif d’initier à l’usage de Mistral OCR pour convertir des PDF/scans/images en contenus exploitables (texte, mise en page, tableaux, équations) et structurés.
Après une introduction (qualité des sources, paramètres, limites et bonnes pratiques), les participants réaliseront des travaux pratiques : préparation d’un document, lancement de l’OCR, récupération des résultats (export texte/Markdown/JSON selon les sorties disponibles), contrôle qualité, puis pistes d’intégration dans une chaîne de traitement (indexation, recherche, RAG, préparation d’édition numérique).

Pré-requis : ordinateur portable, un PDF ou des images de document à tester (facultatif mais recommandé).

Début

ven 23/01/2026 - 14:00

Fin

ven 23/01/2026 - 17:00

Lieu

BNF DataLab

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Traitement du langage naturel avec spaCy

Cet atelier a pour objectif d’initier au traitement automatique du langage naturel (NLP) à l’aide de la bibliothèque Python spaCy, afin d’analyser et structurer des textes de manière efficace et reproductible. Après une introduction aux notions fondamentales du NLP et à l’architecture de spaCy, les participant·e·s réaliseront des travaux pratiques en environnement Jupyter Notebook / Google Colab : préparation d’un texte, tokenisation et segmentation, lemmatisation, reconnaissance d’entités nommées, etc. L’atelier se conclura par une discussion sur les bonnes pratiques et les possibilités d’intégration de spaCy dans des chaînes de traitement linguistique plus larges.

Prérequis : ordinateur portable

Début

ven 13/02/2026 - 00:00

Fin

ven 13/02/2026 - 00:00

Lieu

En visioconférence

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Mettre en place une édition numérique 2 : l’encodage en XML-TEI

Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont aux travaux pratiques, avec l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.

Début

ven 05/12/2025 - 00:00

Fin

ven 05/12/2025 - 00:00

Lieu

En visioconférence

Inscription

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Mettre en place une édition numérique – Reconnaissance automatique du texte

Cet atelier, qui se décline en deux étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions numériques.

Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.

Pré-requis : ordinateur portable, connexion internet

Lien : GitHub

Début

ven 31/10/2025 - 14:00

Fin

ven 31/10/2025 - 17:00

Lieu

Maison de la recherche - Salle D421

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Prompt Engineering : l'art des requêtes efficaces

Résumé : Cet atelier propose une exploration approfondie du "Prompt Engineering", l’art de formuler des requêtes optimisées pour interagir avec des modèles d'IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs.

À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l'efficacité de vos requêtes. L'objectif est d'outiller les participants afin qu'ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.

Public concerné : Débutants souhaitant découvrir les bases d'utilisation de ChatGPT et améliorer leurs interactions avec les modèles d'IA.

Pré-requis : ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d'IA (ChatGPT, DALL-E)

Début

ven 14/11/2025 - 00:00

Fin

ven 14/11/2025 - 00:00

Lieu

En visioconférence

Inscription

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Pandore toolbox

Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.

Qui contacter pour être accompagné ?

ObTIC - Observatoire des textes, des idées et des corpus

En savoir plus sur l'outil

Pandore Toolbox

ObTIC

Traiter et analyser ses données

Collecter & organiser ses données

ObTIC