Traiter et analyser ses données

L'HTR/OCR en LSHS

L'Optical Character Recognition (OCR) et l'Handwritten Text Recognition (HTR) sont deux technologies permettant d'effectuer de la reconnaissance automatique de texte imprimé et de texte manuscrit. Elles s’inscrivent dans un domaine vaste et parfois complexe, où il peut être difficile de se repérer, de savoir par où commencer et comment procéder. Toutefois, l'OCR et l'HTR sont suffisamment avancés pour proposer des outils à la disposition de tous, même sans connaissances en Deep Learning.

L'objectif de cet atelier est de présenter les différentes étapes dans la reconnaissance de texte imprimé ou manuscrit, de la préparation du corpus à la pratique avec eScriptorium.

Déroulement de l'atelier:

Présentation générale
Préparation d'un corpus de texte
Choisir un outil
Exercice pratique sur eScriptorium

Pré-requis :

apporter son propre PC
Apporter quelques images contenant du texte à transcrire automatiquement

Début

jeu 30/01/2025 - 16:00

Fin

jeu 30/01/2025 - 18:00

Lieu

Maison de la recherche - Salle D117

S'inscrire

Formation assurée par

CERES - Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Les ateliers du CERES

TXM pour l’analyse de corpus de textes

Début

jeu 14/11/2024 - 16:00

Fin

jeu 14/11/2024 - 18:00

Lieu

Maison de la recherche - Salle D117

Modalités d'inscription à venir

Formation assurée par

CERES - Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Les ateliers du CERES

Excel pour l’analyse de corpus de presse

Excel est un logiciel de tableurs particulièrement connu pour être propice à la réalisation de calculs et de graphiques à partir de données numériques. Il est également tout à fait possible de l’utiliser pour manipuler des objets textuels. Cela est particulièrement pertinent lorsque des chercheur·euses disposent déjà de données formatées pour ce logiciel, ou bien enregistrées en format .csv (car elles ont été inscrites à la main par les chercheur·euses dans ce logiciel, parce qu’un logiciel de collecte a permis de construire un corpus dans le format .csv, ou encore car des jeux de données sont partagées en open data dans ce format). L’usage d’Excel pour l’analyse de textes est également pertinent lorsque le coût de migration d’un corpus déjà constitué vers des logiciels de textométrie est trop important, ou bien n’est pas nécessairement pertinent pour la question de recherche qui est en jeu.

Début

jeu 17/10/2024 - 16:00

Fin

jeu 17/10/2024 - 18:00

Lieu

Maison de la recherche - Salle D117

S'inscrire

Formation assurée par

CERES - Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Les ateliers du CERES

Lab-Radar : programme d’accompagnement des données et bases de données dédié aux SHS

Fouille et exploration de fonds littéraires, éditions augmentées, caractérisation des mobilités
anciennes et contemporaines, étude des réseaux d’information et des archives du web,
reconstitution virtuelle des objets du patrimoine : les recherches en humanités numériques menées
au sein de la Faculté des Lettres, couvrent un large spectre de problématiques. Il est aujourd’hui
nécessaire d’offrir, en soutien à ces dynamiques, des outils dédiés et un support de développement
adapté.

Dans cette perspective, la Faculté des Lettres, en partenariat avec la Bibliothèque Sorbonne
Université (BSU) et l’Unité de Service Mutualisée SACADO dans le cadre du projet LabRADoR,
met à disposition des laboratoires, enseignantes-chercheuses, enseignants-chercheurs,
chercheurs, chercheuses, des serveurs et des machines virtuelles accessibles sur demande.

Ce projet pilote a pour objectif d’offrir un soutien durable, au travers, notamment :

d’un accès gratuit à de l’espace de stockage, à l’hébergement d’une application ou
d’un portail web scientifique et à du temps de calcul pour les projets de recherche ;
de conseils et formations concernant l’ouverture, la structuration et la curation des
bases de données issues des laboratoires de la Faculté des Lettres, couvrant
l'ensemble de la chaîne de traitement ;
d'un accompagnement pour l’adoption de bonnes pratiques en matière de
méthodologie, de standards numériques et de gestion de projets ;
de formations dédiées, internes et externes, en lien avec les outils et méthodes du
numérique pour les humanités.

L'équipe du projet Lab-Radar reste disponible pour répondre à vos questions et vous offrir cet
appui. N’hésitez pas à contacter Yasmine Bellouch, chargée de projet
(yasmine.bellouch@sorbonne-universite.fr) et Barbara van Doosselaere, responsable de la
valorisation de la recherche (barbara.van_doosselaere@sorbonne-universite).

Service proposé par :

Faculté des Lettres - Direction de la recherche et de la valorisation

Cycle de la vie des données (Generalités)

Collecter & organiser ses données

Traiter et analyser ses données

Stocker ses données

Faculté des Lettres - Direction de la recherche et de la valorisation

Gérer des données personnelles : anonymisation et pseudonymisation

Objectifs

Comprendre les différences entre pseudonymisation et anonymisation
Découvrir des outils pour pseudonymiser et anonymiser ses données

Contenus

Présentation des différences entre anonymisation et pseudonymisation
Présentation de méthodes pour anonymiser les données (généralisation, randomisation)
Démonstration d’outils pour anonymiser les données

Début

lun 09/12/2024 - 14:00

Fin

lun 09/12/2024 - 16:00

Lieu

En visioconférence

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

[Annulée] Les fondamentaux du Règlement Général sur la Protection des Données (RGPD)

Objectifs

Découvrir les principes fondamentaux du RGPD
Connaitre les procédures à mettre en œuvre dans le cadre d’un traitement de données à caractère personnel

Contenus

Définition des termes et des rôles
Présentation des procédures à mettre en œuvre pour être en conformité avec le RGPD
Réponses aux questions

Début

lun 25/11/2024 - 14:30

Fin

lun 25/11/2024 - 16:00

Cette formation à été annulée, si vous souhaitez un accomapgnement sur le RGPD,…

Formation assurée par

DPD - Déléguée à la protection des données

Extraction de concepts clés à partir de textes

Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d’extraction de concepts clés à partir de textes. Notre objectif est d’extraire les mots-clés à partir du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne et française au XIXe s.) d’une part, et d’autre à partir des textes écrits par ses élèves et collègues. Cette tâche s’inscrit dans le projet de thèse en cours axé sur le pistage de circulation du discours médical de Jean-Martin Charcot.

Début

mar 30/04/2024 - 10:00

Fin

mar 30/04/2024 - 12:00

Lieu

BNF DataLab

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Consultez le GitHub de l'atelier

OpenRefine I : Nettoyer ses données avec OpenRefine

Contenus

Présentation de l’interface d’OpenRefine
Créer des facettes, trier et filtrer ses données
Nettoyer ses données avec des fonction pré-enregistrées
Nettoyer ses données avec des formules en GREL
Exporter son projet ou ses données

Début

jeu 28/11/2024 - 10:00

Fin

jeu 28/11/2024 - 12:00

Lieu

En visioconférence

Campus Pierre et Marie Curie

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

Découvrir les outils de transcription textuelle

Contenus

• Principes et méthodes de la transcription
• Panorama des outils
• Exemples de projets de transcription collaborative
• Démonstration de Transkribus et eScriptorium

Début

lun 13/05/2024 - 14:00

Fin

lun 13/05/2024 - 16:00

Printemps de la donnée (19 mars au 24 juin 2024)

Lieu

En visioconférence

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

Consultez le site du Printemps de la donnée

Les bases de données en humanités numériques

Les projets de recherche en humanités numériques créent des données qu’il faut gérer soigneusement. De cette fin, des connaissances de la théorie des bases de données et sa mise en pratique seraient un ajout important aux compétences des étudiant.e.s, doctorant.e.s et chercheur.euse.s.

Cet atelier de deux heures vise à introduire les participant.e.s aux enjeux des bases de données relationnelles et des systèmes de gestion de bases de données. Nous parlerons également de Structured Query Language (SQL).

Début

ven 23/02/2024 - 10:00

Fin

ven 23/02/2024 - 12:00

Lieu

BNF DataLab

Contactez la formatrice pour vous inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus