******************************************************** DEFT2011 - Appel à participation Le défi DEFT est un atelier d'évaluation francophone en fouille de textes. L'édition 2011 portera, d'une part sur la variation diachronique en corpus de presse francophone et d'autre part sur l'appariement d'un article scientifique avec son résumé. Site web : http://deft2011.limsi.fr/ Comité d'organisation : - présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI, Université de Montréal) - contact : [log in to unmask] ******************************************************** Dates importantes : - Inscription : à partir du 25 janvier 2011 - Diffusion des corpus d'apprentissage : 1er mars 2011 - Test : 3 jours pris entre le 1er et le 7 mai 2011 - Atelier : le 1er juillet 2011 lors de la conférence TALN ******************************************************** DEFT2011 constitue la septième édition de la campagne d'évaluation en fouille de textes DEFT. L'atelier de clôture se tiendra à Montpellier dans le cadre de la conférence TALN. Pour cette nouvelle édition, nous proposons deux pistes distinctes : - la variation diachronique en corpus de presse ; - l'appariement d'articles scientifiques et de résumés. *** Piste 1. Dans la continuité de l'édition 2010 du défi, nous offrons de nouveau l'opportunité de travailler sur l'étude de la variation diachronique en corpus de presse. Cette piste sera ainsi l'occasion de mesurer les évolutions des systèmes depuis la précédente édition du défi. Le corpus se compose d'archives journalistiques parmi plusieurs titres français (dont "Le Journal des Débats", "Le Journal de l'Empire", "Le Journal des Débats politiques et littéraires", "Le Figaro", et "La Croix" ; des titres supplémentaires seront éventuellement ajoutés selon disponibilité) sur une période comprise entre 1800 et 1944. Les documents de travail sont le résultat d'une OCRisation Deux sous-pistes sont envisagées : - la première concerne des extraits de 300 mots semblables à ceux fournis dans les corpus de l'année passée. - la seconde se rapporte à des extraits plus larges intégrant 500 mots. Les participants devront identifier l'année de parution de l'extrait étudié (et non plus la décennie comme en 2010). Les résultats seront évalués au moyen d'une distance entre l'année fournie et l'année attendue (fenêtre d'évaluation autour de l'année de référence). Pour cette piste, les participants auront la possibilité d'utiliser des ressources externes (linguistiques, historiques, etc.) qu'ils devront obligatoirement déclarer lors de la soumission des résultats. Les ressources provenant de Gallica ne seront pas autorisées ! *** Piste 2. Nous proposons également une piste axée autour du résumé d'article scientifique. Plutôt que de se placer dans la perspective d'une génération automatique de résumé à partir d'un article (approche intéressante mais délicate à évaluer de manière automatique), nous adoptons l'approche inverse qui consiste à identifier à quel article scientifique correspond un résumé. Les méthodes qui seront utilisées pour effectuer ces appariements devraient permettre de mettre en évidence les éléments saillants qui doivent se retrouver dans le résumé et les techniques langagières utilisées pour produire de tels résumés. Cette seconde piste se composera de deux corpus d'articles scientifiques, le premier en français dans le domaine des sciences humaines et sociales, le second en anglais dans le domaine de la santé. Plusieurs sous-pistes ont été définies sur cette tâche : - identifier les couples résumé/article scientifique complet ; - identifier les couples résumé/article scientifique auquel on a enlevé l'introduction et la conclusion. ******************************************************** Les équipes participant à DEFT2011 devront s'inscrire à l'aide du formulaire en ligne, et signer les accords de restriction d'usage des corpus. Des corpus d'apprentissage seront fournis aux participants inscrits, à partir du 1er mars 2011. Ces corpus sont composés de 60% des corpus d'origine. Les 40% de corpus restants seront utilisés pour le test. Le test aura lieu sur la première semaine de mai. A partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises en oeuvre sur les corpus d'apprentissage.