Skip to content

Latest commit

 

History

History
216 lines (114 loc) · 16.6 KB

crCRIHN2024-04-22.md

File metadata and controls

216 lines (114 loc) · 16.6 KB

CR CRIHN 22 avril 2024

Prochaines étapes

  • intégration d’autres métriques (clusterisation, hubs) pour enrichir et modifier profil
  • établissement de seuils numériques pour définir els profils (mesure absolue, modèle du small world)
  • attribution de valeur au réemplois à travers annotation ou topic modeling, analyse des sentiments (pos/neg) qui nous donne un réseau signé dont les métriques peuvent s’avérier encore plus parlantes
  • enrichissement métadonnées des œuvres, statut, classification généraiques de l’époque.

Discussion

Presse beaucoup 19e siècle. Mais réception des lumières au 19e siècle fondamental.

Sur le rôle de la réception des anciens. Un des postdoc sur ce sujet. Problème du choix des traduction pour traiter cette question. Si prend deux textes, multiplicationd es réemplois qui est problématique.

Inspiration de bio-informatique

2017-2018 à Chicago commencé à expérimenter avec le ML pour voir si l’on pouvait trouver des articles similaires dans l’Encyclopédie. Ce qui a très bien marché. Mais s’est dit que devait avancer car si compare article court et long, une dyssimétrie. Il fallait trouver quelque chose de plus littéral, co-occurence de choses différentes. Test de Blast, un algorithme mis en place pour les séquences d’ADN en bio-informatique. Utilisation de cet algorithme car des données manquantes. Souplesse de l’algorithme qui pour nous était très importante. Du réemploi mais pas du tout du copier-collé. Important pour faire face à des OCR de mauvaises qualité.

Utilisation des Ngrams pour comparer les séquences. De plus en plus ces techniques abandonnées au profit du Sentence embedding qui permet de mieux prendre en compte les syntaxes, etc.

Oui initialement une approche Word2Vect. Mais satisfait car peut dire que le même texte en deux endroits différents. Peut ajouter des changements des variations que peut quantifier, mais au moins sûr de cette identification. Si on enlève cette contrainte de séquentialité (trigramme qui suit un autre), on va avoir des rapports sémantiques mais il devient très difficile pour nous de dire qu’il s’agit du même texte. Robespierre Rousseauiste. Trouve quatre passage mais ne site pas. Si enlève la contrainte de séquentialité alors oui trouve des choses mais rien ne prouve qu’il y a un lien entre les textes. En réalité peut parler seulement de la même chose. Si veut tracer ligne entre les textes, on a besoin de pouvoir être sûr qu’il y a une co-présence.

Bien sûr les séquences et le contexte qui permettra ensuite de faire une analyse sémantique par vecteur. On va construire un modèle 18e siècle sur le corpus qui va permettre d’avoir une idée plus précise du contexte. Cite Voltaire mais de quelle manière, dans quel contexte. Ex. Voltaire change complètement de valence au cours du 19e. D’abord poète, puis oublié avec Hugo. Revient comme le Voltaire de Callas.

Allusion, etc. très difficile de formuler pour la machine ce qu’est une allusion. Par exemple Odyssée de James Joyce et celle de Homère.

Réseaux de parentés et le parcours de vie, Québec, 1621-1849

Lisa Dillon, Yacine Boujilia, Alain Gagnon

Département de démographie, Université de Montréal

PRDH

Construction des données historiques. Travaille à la fois sur la recherche et la construction des micro-données historiques et généalogistes. Même type de données que celle que consultent les généalogistes, mais mon équipe utilise ces sources primaires pour créer de grandes bases de données pour mener des études de démographie historique.

Registre de la population du Québec ancien RPQA, 1621-1861

Données longitudinales issues du programme de recherche en démographie historique de 196.. Poursuit avec de nouvelles subvention jusqu’en 1861.

  • Travail avec 100% des recensements du Québec 1666, 1667, 1681, 1831
  • 20% Recencement du Canada Ouest et Canada Est, 1852
  • 100% Recencesement canadien, 1881

Source de donnés Registres de la population du Québec ancien RPQA

Population catholique du Québec 1621-1861.

  • Débuté en 1966.
  • 2,3 M individus.
  • 27 tables inter-reliées SQL + site public
  • Fichiers individu, Union, Acte, Mention SPSS/Stata R
  • Mention 11 millions de ligne

Comprendre les structures de parenté des populations. Influence de la parentalité sur la fécondité ou la survie de la population. En quelle mesure l’existence des apparenté sont importantes pour la survie des enfants et de la fécondité.

Mesurer plus généralement le kindship au Québec. Apparenté 1er 2e 3e degré. Évolution au cours du temps. Interdépendance des acteurs et centralité des liens matrimoniaux. Travaux récents qui soulignent importante association entre les aparentés et survie des enfants.

ex. Diago Alburez-Gutierez, dans PNAS, Projections of human kinship for all countries. Octobre 2023

Montre comment les structures de parenté doivent évoluer dans les prochains siècles. Question des migrations importantes pour cela. Analyse Gephi pour contraster différentes communautés.

En moyenne chaque individu peut compter 200 aparentés au 1er et 2e degré, indépemment de la durée de vie (mortalité infantile). Changements importants liés aux Filles du roi. Mais stable de 1700 à 1800, fonction de stabilité dans le taux de fécondité et même mortalité.

Structure et distribution des liens aux différents types d’apparentés. Domination des cousins. Dans une population avec forte fécondité, beaucoup d’enfants alors beaucoup de cousins et de neveux, alors que le nombre de parents et grand-parents fixe.

Tableau du nombre moyen de différent type d’apparentés par age.

Évolution dans le temps. Perte des parents, belle-mère, etc. idem pour les oncles et tantes. Nombre de frère et sœur augmente même audelà de 30 ans.

Étude sur Baie SaitPaul. étude de structuration des réseau. Densité de la communauté augmente au cours du temps. Résulat intermariage avec nièces et neveux. À travers le temps, intensification du réseau et des liens entre générations.

Montréal, une situation totalemnet différente. En 1700 nombreux nœuds isolés des gens sans liens les uns avec les autres, quelques clusters qui signalent des familles importantes. Nombreux liens maritaux mais réseau très lâche. Peu multi-générationnel. Le réseau va se densifier en 1750.

Par contraste Boucherville, idem. Mais de plus en plus de liens multi-générationnels plus tôt qu’à Montréal.

Possible de fournir des métriques. Nb de nœuds, liens et densité. Permet des comparaisons. Diamètre, nb plus grand qui sépare individu. Average path Très différents.

Pierrich Plusquellec, Psychoéducation

Thèse sur les vaches de combat en Suisse.

Directeur scientifique de l’OBVIA, impact de IA sur le numérique.

Veilleurs + Porteurs de solutions dans le domaine de l’éthique et de la responsabilité en IA.

L’informatique affective... un cas très concret de comment peut se parler entre prof pour arriver à un produit utile aux autres. Champ développé par Rosalind Picard

étude et le dev de systèmes et d’appareils ayant les capacité de reocnnaître, d’exprimer, de synthétsier et modéliser les émotiosn humaines.

Nombreux développements dans le DL. Kobian, Jules, qui ont permis de produire des robots. Ou encore Hiroshi Ishiguro et son double robotique. SEER comprend génération de robots. Rendus à Erica, avatar qui imite les émotions humaines avec qui pourrait converser.

Facial Action Coding System, The Manual on CD Rom par Ekman, détaille tous les muscles du village et comment associés à l’expression des émotions. Sourire social qui n’embarque pas les faces d’oie. Colère, etc.

Schadenfreude, joie du dommage : sourire et baisser la tête !

Peur, émotion, etc. Pixar utilise ce système pour encoder des émotions.

Utilisation d’avatars. Tristesse, ne lève pas tous la main au même moment. Parfois perceptions passent à travers un filtre interprétatif. Pas un serial killer.

Pouvoir de lire les émotions. Mais quel lien avec le numérique. Marianne Stewart Bartley ? a montré qu’un ordinateur était capable de repérer les expressions faciales d’émotion. Un algorithme lancé en 2011.

Aujourd’hui, 82% de bonnes réponses, là où les humains varient entre 65 et 90%. Équivalent.

The Computer Expression Recognition Toolbox article fondateur, depuis beaucoup de progrès douleur, etc. Marian Stewart Bartlett aujourd’hui chercheuse chez Apple. Exemple possibilité de reproduire expression faciale dans avatars. Ce faisant dit oui pour prendre expression facilae.

Grande industrie autour de cela, marketting, affectiva media analysis. Gros marché dans les voitures autonomes. Smart Eye : comprendre et prédire comportement humain dans environnements complexe.

En chine, Emotion Cues qui en temps réel dans les classes mesure les 7 expression et donne des métriques émotionnelles sur les enfants.

Technologie qui va loin. Test sur les Ouïghours. Centre commercial Sainte-Foy, projet-pilote de profilage des clients.

Un énorme potentiel et d’énormes risques. Donc nécessaire d’agir.

L’informatique affective peut-elle aider à nous rendre heureux.

Bonheur selon la science (bien être subjectif) :

  • perception de bien fonctionner
  • l’expérience émotionnelle (être conscient de ses émotions, mais qui a le temps)

Kahneman, prix nobel éco. Manière dont utilse notre temps émotions. Comprendre nos émotions, les repérer, la voie du bien être.

L’émotion une réaction

Daniel Kahneman, Système 1, système 2 : les deux vitesses de la pensée. Flammarion, 2011.

Moyenne passe 8h par jour devant son écran. Activé logiciel émoSciences pour capter ses émotions.

https://emosciens.com

Veiller sur ces émotions au cours du temps. Rechercher des stratégies et les essayer. Énormes enjeux de responsabilité, d’éthique et de responsabilité sociale. État des lieux de l’existant. Niveau acceptibilité sociale.

Analyse d’impact à la vie privée. Déclaration du registre biométrique. Travail pour coller Déclaration IA responsable. Comment s’assurer qu’un tel produit soit éthique et responsable.

Discussion

Collègues qui ont commencé à créer SIG historique pour limites. Pas encore allés très loin sur ces questions.

Philippe Bergeron, film qui a introduit code des émotions en 1985, à l’Université de Montréal.

AER à l’ETS, du mal à s’intégrer car peu de compétence technique. Entrepreunariat scientifique. Toutes les données sont anonymisées, ne conserve que des données brutes dénominalisées. Loin d’être sûr du succès commercial d’une telle entreprise. Pas fait une OBNL car comme companie privée nous a permis d’obtenir des fonds du ministère. Un moyen d’accélérer l’innovation.

Quid des épistémologies et réconciliations. Travail avec les historiens et les anthropologues pour l’analyse des squelettes. Travail.

Si ne fait pas d’entreprenariat à intérêt social, quel bénéfice apporte.

Méthodes de preuve, prédiction crimes, etc.

Longtemps pouvait être bon dans les deux domaines. Mais au rythme actuel de la recherche et des évolutions techniques. Comment est-il possible de faire de la recherche multidisciplinaire dans des mondes aussi différents qui évoluent rapidement.

  • IA et personnes pas d’idée des textes historiques
  • prof qui

Culture de traiter les problème différente. Biologistes qui passent carrière à étudier une plante, alors qu’en informatique essaye de généraliser.

L’interdisciplinarité difficile. Toujours pensé que les DH pouvaient aider. Car dans une carrière barrières disciplinaires. Chaque fois que fait avec d’autres risque de se faire bloquer par cette monté discplinaire. Aimerait que les DH soient un espace sécurisé où l’on puisse expérimenter avec les autres disciplines et où les enjeux soient moins sérieux. Mais difficile car doit trouver des gens disponibles pour collaborer. En littérature forte résistance, mais aussi du côté des informaticiens. Une fois que les trouve, difficile. Parfois un peu trop comme l’informatique où l’innovation qui prime. Or, si un projet. Une bonne question de recherche, une approche informatique qui date d’il y a 10 ou 20 ans. Tout à fait valable. Mais ne sera pas publié en informatique. Forte pression à dire que Word2Vect 2012, qu’il faut faire avec rythme de recherche. Pas la capacité de suivre les développements de l’IA. Mais ne devrait pas car besoin d’établir un usage averti des outils existants.

Un enjeu de culture disciplinaire, et de reconnaissance du travail disciplinaire. Pb de reconnaissance. Aspects factoriels et multidisciplinaires pourtant très importants. Pour avancer


Isabelle

2 ans travaille sur un programme financé en collaboration. Bib nationale de Belgique et Louvain sur la littérature numérique.

Thèse littérature, text mining. Autres projets sur l’exhumation restes humain.

UC Louvain, analyse automatique du discours de presse et politique. Identification de mots clefs importants dont l’usage est très distincts selon les types de discours. Entités-nommées, ou emploi sémantiques controversée à travers plusieurs sous-corpus.

Méthode d’analyse de changement sémantique diachronique à la base. Mais qui peuvent s’appliquer de manière synchronique pour voir comment certains mots ou phrases sont employés de manière controversée.

Projet de 10 ans. Financé par le gvt 5 ans. 5 ans suivant 25% chaque institution mais hypothétique et pérennisation du poste.

En Flandres, statut d’assistant professor ce qui leur permet de candidater à des demandes de subvention.

Travail inscrit dans la mouvance de la Critical Discourse Analysis (CDA) au Royaume-Uni. Analyse du discours politique et social.

Milieu francophone, références très différentes qu’aux États-Unis.

1969, Michel Pécheux, étudiant d’Althuser qui a développé un projet d’analyse du discours pour repérer les idéologies. Travail paru au même moment que archéologie du savoir.

Pour identifier des mots-clefs potentiels, d’abord un travail de fouille. NGram. Mais pas utilisation de Topic Modeling. Bert Topics un modèle de Topics basé sur BERT. Intéressé car non supervisé. Ne donne pas des modèles à la machine. Topics, une distribution des mots basés sur les co-occurence. Pour nous lisible. Mais beaucoup d’arbitraire car basé sur un sampling aléatoire. Le danger c’est de dire que ce discours (utilisé par Glenn sur l’Encyclopédie). Discours sur les droits naturels. Doit déclarer le nombre de topics retenus 20 ou 200 alors tèrs différents. TEster et refaire. Même des algorithmes pour tester les paramétrage pour déterminer le bon nombre.

Actuellement se concentre sur le concept de segmantation sémantique. Terme sur-représentés pour identifier usage distinctif. Liste de mots ou de phrases contestées (par distance sémantique la plus longue), mais un travail de lecture. Retour aux exemples et interprétation. Parfois mots polysémiques, usage régional, etc.

Les corpus. Principalement CDM centre de documentation des mouvements armés. Latino-américains. Complété avec mouvement zapatistes, pour voir en quoi appartiennent à une rénovation du discours. Intéressant de voir comment la Révolution cubaine traverse comme symbole.

Yann Audin

Programme avec Marcello, corpus Anthologie grecque. 4134 épigrammes grecs ancien. Édition savante en ligne basée sur JSON. Bien documenté avec traduction multilingues.

Volonté de réconcilier langage naturel avec le langage formel. Phénomènes de variation. Longtemps ne citait pas mais variait. Trois types d’intervention : rhétorique, paradigmatique, ou stylistique.

Cybersémiotique et idéologie.

Herméneutique de l’IA. Modéliser ce qu’est une idéologie à partir de questions binaires.

Utilisation régression linéaire

  • Bag of word (fonctionne très bien même si personne n’aime ce type de représentation des textes), Tri-TDF
  • Bi-gram trigram sans effet, donc laissé tombé.
  • utilisation de méthodes de similarités (Distance Leveinstein, distance cosinus, coefficient Jacquard). Doit avoir des choses vérifiables. Approches des années 70 mais vérifiables.

Bag of words très efficace pour la recherche d’information. Très bon pour la stylistique par contre ne fonctionne pas du tout pour la rhétorique.

Heureusement de plus en plus de gens s’intéressent à l’interprétabilité des réseaux de neurones. Dominique Cardon la revanche des neurones.

Chacun de ces modèles à une base philosophique. Le mécanisme de l’attention, modélisation de la polysémie. Modélisation vectorielle du texte, modélisation de la...

Envisager i