You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Prise en main de eScriptorium avec la création d'un projet experts. Pour le moment, nous ne parvenons pas à créer une équipe. Emmanuel se propose de faire un mail à Alix pour trouver une solution.
Sara pourrait faire un essai en y versant un pv puis débuter la segmentation.
Charger les expertises dans eScriptorium par l’intermédiaire de IIIF pour des tests en utilisant l’ontologie de segmentation.
Alix recommandait de procéder au préalable à la segmentation des pages pour faciliter le traitement. Si on y parvient, il faudra créer un nouveau manifeste avec les coordonnées de la page.
L’utilisation de plusieurs logiciels de segmentation utilisent des GPU. Sur Mac CUDA n’est pas compatible avec les M1. Il serait donc préférable d’avoir accès à des ressources de calcul par l’intermédaire de Huma-Num.
Faire le point sur les modèles d’annotation COCO et leurs convertions
pour chacun des outils identifier les formats acceptés
identifier des outils de conversion
identifier des outils pour la production des annotation de segmentation de document
Explorer la possibilité de reconnaître les pages dans Kraken.
Idendifier les annotations de segmento qui seraient utiles pour l’automatisation de la transcription.
Sélection des affaires à transcrire
4 mains avaient été retenues pour la transcription.
Josselin revient sur la méthode de sélection aléatoire des affaires
Le programme a été reprogrammé pour éviter que l’on tire deux fois une affaire. Restait à savoir comment faire la sélection des affaires pour conserver un tirage alléatoire en se donnant une latitude pour rejeter des affaires parce qu’elles sont trop longues ou mal écrites.
Le tirage au fur et à mesure ne règle pas le problème de l’exclusion d’affaires en fontion de leur taille. On pourrait retirer les longues affaires de la sélection. Quel seuil choisit-on ?
En fait à fur et à mesure était utile car on ne sait pas exactement combien d’affaires on va transcrire, c’était la raison pour laquelle on prévoyait de relancer le tri au fur et à mesure.
On étudie la répartition des affaires. La médiane est à 6 pages, la moyenne supérieure à 9 pages. Les affaires au-delà de trente pages sont relativement rares (80% < 10 pages). Néanmoins, le tirage aléatoire inclue un certain nombre de procès-verbaux de plus de 20 pages (500 sur 5000). On pourrait en transcrire un certain nombre et exclure les affaires de plus de 30 pages. Il est finalement décider de procéder par un tirage aléatoire ponctuel, et de d’abord transcrire les affaires de taille raisonnable en gardant la référence des affaires plus longues pour les transcrire ensuite. D’autant que ces affaires pourront être transcrites en partie automatiquement.
Transcription des affaires
Il est fréquent qu’un espace est laissé en blanc pour que l’expert revienne sur le rapport. La même encre est utilisée que pour la signature de l’expert.
Le balisage léger identifié avec Emmanuel fonctionne. Il reste à produire un schéma ODD.
Reste le problème des majuscules et des mots aglunités avec majuscules.
On ne corrige pas l’orthographes ou les fautes.
Le projet Scripta est visiblement terminé.
Le projet CREMMA essaye de produire un vocabulaire unifié pour la description des règles de transcription utilisées. Emmanuel a indiqué à Alix que nous étions intéressés d’y participer. S’il y a des réunions, proposer à Sara d’y participer.
Le problème c’est qu’il est parfois difficile d’identifier l’implication des règles de transcription sur la transcription automatique : cas des mots aglutinés.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
-
Réunion du 21 novembre 2023
Emmanuel, Robert, Sara, Josselin
Segmentation
Nous avons reçu notre accès à CREMMA.
Prise en main de eScriptorium avec la création d'un projet experts. Pour le moment, nous ne parvenons pas à créer une équipe. Emmanuel se propose de faire un mail à Alix pour trouver une solution.
Sara pourrait faire un essai en y versant un pv puis débuter la segmentation.
Charger les expertises dans eScriptorium par l’intermédiaire de IIIF pour des tests en utilisant l’ontologie de segmentation.
Alix recommandait de procéder au préalable à la segmentation des pages pour faciliter le traitement. Si on y parvient, il faudra créer un nouveau manifeste avec les coordonnées de la page.
L’utilisation de plusieurs logiciels de segmentation utilisent des GPU. Sur Mac CUDA n’est pas compatible avec les M1. Il serait donc préférable d’avoir accès à des ressources de calcul par l’intermédaire de Huma-Num.
Faire le point sur les modèles d’annotation COCO et leurs convertions
Explorer la possibilité de reconnaître les pages dans Kraken.
Idendifier les annotations de segmento qui seraient utiles pour l’automatisation de la transcription.
Sélection des affaires à transcrire
4 mains avaient été retenues pour la transcription.
Josselin revient sur la méthode de sélection aléatoire des affaires
Le programme a été reprogrammé pour éviter que l’on tire deux fois une affaire. Restait à savoir comment faire la sélection des affaires pour conserver un tirage alléatoire en se donnant une latitude pour rejeter des affaires parce qu’elles sont trop longues ou mal écrites.
https://experts.huma-num.fr/xpr/clerks
Le tirage au fur et à mesure ne règle pas le problème de l’exclusion d’affaires en fontion de leur taille. On pourrait retirer les longues affaires de la sélection. Quel seuil choisit-on ?
En fait à fur et à mesure était utile car on ne sait pas exactement combien d’affaires on va transcrire, c’était la raison pour laquelle on prévoyait de relancer le tri au fur et à mesure.
On étudie la répartition des affaires. La médiane est à 6 pages, la moyenne supérieure à 9 pages. Les affaires au-delà de trente pages sont relativement rares (80% < 10 pages). Néanmoins, le tirage aléatoire inclue un certain nombre de procès-verbaux de plus de 20 pages (500 sur 5000). On pourrait en transcrire un certain nombre et exclure les affaires de plus de 30 pages. Il est finalement décider de procéder par un tirage aléatoire ponctuel, et de d’abord transcrire les affaires de taille raisonnable en gardant la référence des affaires plus longues pour les transcrire ensuite. D’autant que ces affaires pourront être transcrites en partie automatiquement.
Transcription des affaires
Il est fréquent qu’un espace est laissé en blanc pour que l’expert revienne sur le rapport. La même encre est utilisée que pour la signature de l’expert.
Le balisage léger identifié avec Emmanuel fonctionne. Il reste à produire un schéma ODD.
Reste le problème des majuscules et des mots aglunités avec majuscules.
On ne corrige pas l’orthographes ou les fautes.
Le projet Scripta est visiblement terminé.
Le projet CREMMA essaye de produire un vocabulaire unifié pour la description des règles de transcription utilisées. Emmanuel a indiqué à Alix que nous étions intéressés d’y participer. S’il y a des réunions, proposer à Sara d’y participer.
Le problème c’est qu’il est parfois difficile d’identifier l’implication des règles de transcription sur la transcription automatique : cas des mots aglutinés.
Beta Was this translation helpful? Give feedback.
All reactions