FR EN

Detailed program

Cyril Labbé, Univ Grenoble, LIG

Flagging suspect scientific publications for post-publication reassessments.

Natural Language Generation has been used to produce fake scientific papers for more than a decade. Now more complex AI-powered generation techniques produce texts indistinguishable from that of humans and the generation of scientific texts starting from a few keywords used as input has been documented. Among other things, our study introduces the concept of tortured phrases: unexpected weird phrases in lieu of established ones, such as ‘counterfeit consciousness’ instead of ‘artificial intelligence.’ Hypothesising the use of advanced language models we ran a detector on the abstracts of recent articles and on several control sets. This will lead us to discuss various research avenues related to the processing of scientific texts: detection of meaning less texts, spotting factual errors, flagging mis-citations,...

Anastasia Bezerianos, Univ. Paris-Saclay, Inria, LISN

Visual Text Analytics in Data Journalism

Visual text analytics combines natural language processing with interactive visualizations, revealing patterns in individual text documents or document collections. I will briefly present the field of visual text analytics from a visualization perspective, with new and historical visualization examples. Next, I will then discuss three visual text analytics systems we designed within the iCODA project, in collaboration with journalists from OuestFrance and the LINKMEDIA team in Rennes. First, the Storyfier project, that focused on helping journalists conduct close reading of large document collections. And the HyperStorylines and GeoStorylines projects, providing high-level overviews of relationships between entities extracted from news articles.

Patrick Paroubek, CNRS, LISN

Du traitement automatique du langage naturel et de l'accès aux données expérimentales

L'exposé arbordera la problème de l'accès aux données d'expérimentation par le biais des publications scientifiques et
des entrepôts de données. Il traitera des apports du traitement automatique des langues. Tous les types de données seront pris
en compte, quantitatives, structurées, semi-structurées (mélant données numériques, discrètes et langage naturel),
donnée pour le traitement automatique des langues et données dans d'autres domaines. La présentation utilisera des retours
d'expérience de la collaboration "Données Covid-19" mise en place par le CNRS en 2020, du projet européen MIROR (Research
on research in clinical research, 2016-2020) et des travaux d'analyse bibliométrique autour du corpus NLP4NLP (étude des publications
scientifiques des principales conférence du domaine du TAL de 1965 à 2020).

Géraldine Damnati, Orange Innovation

Extraction d'information et gestion de la connaissance au sein d'une organisation. Comment mener des travaux de recherche ouverte sur des données "fermées" ?

List of demos and posters:

TITLE		AUTHORS
A Large-Scale Dataset for Biomedical Keyphrase Generation		Houbre Maël, Boudin Florian , Daille Béatrice
Abstract Meaning Representation pour l'extraction d'information		Heinecke Johannes
Active Learning for Interactive Relation Extraction in a French Newspaper's Articles		Mallart Cyrielle , Sébillot Pascale, Gravier Guillaume, Le Nouy Michel
Améliorer l'accès aux documents médicaux		Grabar Natalia
Approches supervisées et semi-supervisées pour améliorer la plausibilité dérivée des poids d'attention dans des tâches de classification		Nguyen Duc Hau, Gravier Guillaume, Sébillot Pascale
BioSTransformers: Nouveaux modèles de langage pour l'apprentissage sans exemple dans des textes biomédicaux		Menad Safaa, Abdeddaim Saïd, Soualmia Lina Fatima
Construction automatique d'ontologies à partir de textes : démonstration d'une approche par transduction sémantique		Lamercerie Aurélien Rouquet David
Création d'un corpus de questions et de réponses pour l'enseignement secondaire		Gerald Thomas, Vilnat Anne, Paroubek Patrick, Illouz Gabriel, Ettayeb Sofiane
Dynamic Named Entity Recognition		Luiggi Tristan
Émergence de sujets d'actualité dans les contenus journalistiques du groupe Ouest-France		Girault Thomas, Le Nouy Michel, Perron Julien
Empirical comparison of semantic similarity measures for technical question answering		Boukhatem Nabil, Liberti Leo, Buscaldi Davide
Exploration de la synonymie entre les termes multi-mots dans les modèles sémantiques distributionels		Wang Yizhe, Daille Béatrice, Hathout Nabil
Extraction dans des textes anciens d'entités nommées du type binômes de la classification linnéenne du vivant : une étude de cas dans les archives de la revue LA NATURE (1873-1960)		Ridoux Olivier, Morand Clément
Fouille d'interactions hôte-microbiome à l'aide du TAL : constitution d'un corpus annoté de relations dans le microbiote		El Khettari Oumaima, Quiniou Solen, Chaffron Samuel
From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective		Formal Thibault, Piwowarksi Benjamin, Clinchant Stéphane
Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models		Boualili Lila, Boughanem Mohand, Moreno Jose
Interactive query clarification and refinement via user simulation - Abstract		Erbacher Pierre, Soulier Laure, Denoyer Ludovic
IRnator: A Framework for Discovering Users Needs from Sets of Suggestions		Mustar Agnès, Lamprier Sylvain, Piwowarski Benjamin
Kartu-Verbs~: un système d'informations logiques de formes verbales fléchies pour contourner les problèmes de lemmatisation des verbes géorgiens		Ducassé Mireille
Knowledge Graph Construction from text with an explainable user-centric AI		Ayats Hugo
Le thésaurus INRAE une ressource terminologique pour l'interopérabilité sémantique		Aubin Sophie, Bernard Émilie, Bravo Sonia, Dupré Olivier, Girard Agnès, Martel Anne-Sophie, Weber Magalie
Measuring vagueness and subjectivity in texts: from symbolic to neural VAGO		Icard Benjamin, Atemezing Ghislain, Claveau Vincent, Égré Paul
Mixing Active and Deep Learning in Real Life : Relation Extraction on Ouest-France's Content		Mallart Cyrielle, Sébillot Pascale, Gravier Guillaume, Le Nouy Michel
Modèles hybrides pour l'identification, le redressement et le géocodage des adresses postales pour la livraison et la collecte du dernier kilomètre.		Faraoun El Moundir
Multimodal Inverse Cloze Task for Knowledge-based Visual Question Answering		Lerner Paul, Olivier Ferret, Guinaudeau Camille
NatACN: A natural language interaction system		Boudebs Julie
Personalized and Explainable Recommender System		Lebedeva Maria, Soulier Laure, Guigue Vincent
Quels embeddings pour représenter les requêtes d'une session de recherche d'information sur le Web ?		Ibarboure Claire, Tanguy Ludovic
QuickNorm, une méthode rapide et peu coûteuse pour la normalisation d'entité		Ferré Arnaud, Deléger Louise
Réseaux de neurones opérant sur des graphes dans l'espace hyperbolique pour la résolution de tâches définies sur le texte		Guille Adrien, Attali Hugo
Résolution des coréférences : études sur le corpus CALOR-COREF		Kang Hyun Jung, Damnati Géraldine
Synopsis des dernières recherches en TAL biomédical		Grouin Cyril, Grabar Natalia
Un générateur d'extension de documents non supervisé pour moteurs de recherche		Ayoub Oussama, Rodrigues Christophe, Travers Nicolas

RSS Feed | Privacy | Accessibility