{"id":48,"date":"2012-02-26T20:59:15","date_gmt":"2012-02-26T19:59:15","guid":{"rendered":"http:\/\/zighed.com\/blog\/?page_id=48"},"modified":"2021-10-16T10:22:13","modified_gmt":"2021-10-16T08:22:13","slug":"research","status":"publish","type":"page","link":"https:\/\/zighed.com\/?page_id=48","title":{"rendered":"Recherche"},"content":{"rendered":"<h1 style=\"text-align: justify;\">Recherche &#8211; activit\u00e9s r\u00e9centes<\/h1>\n<p style=\"text-align: justify;\">Mon activit\u00e9 de recherche se d\u00e9roule selon trois modalit\u00e9s\u00a0: des travaux \u00e0 caract\u00e8re th\u00e9orique ou fondamentaux, des conceptions et r\u00e9alisations de logiciels et enfin, des applications notamment dans les domaines des Sciences Humaines et Sociales et la Sant\u00e9.<\/p>\n<h2 style=\"text-align: justify;\">Travaux th\u00e9oriques<\/h2>\n<h3 style=\"text-align: justify;\">Graphes d&rsquo;induction<\/h3>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/graph_induction_Global1.jpg\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-204\" title=\"graph_induction_Global\" src=\"\/wp-content\/uploads\/2012\/02\/graph_induction_Global1-238x300.jpg\" alt=\"\" width=\"238\" height=\"300\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/graph_induction_Global1-238x300.jpg 238w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/graph_induction_Global1.jpg 360w\" sizes=\"(max-width: 238px) 100vw, 238px\" \/><\/a><\/p>\n<p style=\"text-align: justify;\">Les graphes d&rsquo;induction dont les arbres de d\u00e9cision constituent une forme particuli\u00e8re. Dans le prolongement de mes travaux th\u00e8se (1985), j\u2019ai propos\u00e9 de nouveaux algorithmes d\u2019induction de r\u00e8gles par des graphes latticiels et j\u2019ai propos\u00e9 une famille de mesures d\u2019entropie sensibles aux effectifs. La raison est que les arbres de d\u00e9cision classiques se construisent par un processus de partitionnement r\u00e9cursif, conduisant le plus souvent \u00e0 des sommets \u00e0 faibles effectifs et, par cons\u00e9quent, \u00e0 des r\u00e8gles de d\u00e9cision peu fiables, donc \u00e0 des mod\u00e8les qui g\u00e9n\u00e9ralisent mal. La premi\u00e8re r\u00e9ponse \u00e0 ce probl\u00e8me a \u00e9t\u00e9 apport\u00e9e, au milieu des ann\u00e9es 1980, par (Breiman et al.) avec les proc\u00e9dures d\u2019\u00e9lagage d\u2019arbre.<\/p>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/Assymetric-Entropie.png\"><img loading=\"lazy\" class=\"alignright size-medium wp-image-208\" title=\"Assymetric-Entropie\" src=\"\/wp-content\/uploads\/2012\/02\/Assymetric-Entropie-300x200.png\" alt=\"\" width=\"300\" height=\"200\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Assymetric-Entropie-300x200.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Assymetric-Entropie.png 883w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p style=\"text-align: justify;\">Notre proposition d\u2019introduire des structures latticielles, ainsi que de nouvelles mesures de partitionnement qui sont \u00e0 la fois sensibles aux tailles d\u2019\u00e9chantillon et asym\u00e9triques, permet d\u2019\u00e9viter ce sur-apprentissage qui n\u00e9cessite un \u00e9lagage. On peut ainsi voir cette contribution comme une sorte de pr\u00e9-\u00e9lagage par rapport au post-\u00e9lagage propos\u00e9 ant\u00e9rieurement.<\/p>\n<h3 style=\"text-align: justify;\">Discr\u00e9tisation<\/h3>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/Dicretisation.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-211\" title=\"Dicretisation\" src=\"\/wp-content\/uploads\/2012\/02\/Dicretisation-300x101.png\" alt=\"\" width=\"300\" height=\"101\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Dicretisation-300x101.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Dicretisation.png 849w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p style=\"text-align: justify;\">Le partitionnement r\u00e9cursif n\u00e9cessite une discr\u00e9tisation des attributs continus. Nous avons propos\u00e9 de nouvelles approches qui prennent en compte diff\u00e9rentes questions comme la complexit\u00e9 du d\u00e9coupage, l\u2019estimation statistique des points de coupure les plus probables, etc. Cette discr\u00e9tisation revient, d\u2019une certaine mani\u00e8re, \u00e0 r\u00e9duire le nombre de branches possibles pour un graphe d\u2019induction.\u00a0 Dans le prolongement, on s\u2019est pos\u00e9 la m\u00eame question sur les variables qualitatives qui peuvent aussi avoir beaucoup de modalit\u00e9s.\u00a0 Et au del\u00e0 m\u00eame, pourquoi ne pas \u00e9tendre ces questions \u00e9galement \u00e0 la variable cible (\u00e0 pr\u00e9dire) qui peut \u00eatre de toutes nature\u00a0?\u00a0<a href=\"\/wp-content\/uploads\/2012\/02\/arbogodai.png\"><img loading=\"lazy\" class=\"size-medium wp-image-213 alignright\" title=\"arbogodai\" src=\"\/wp-content\/uploads\/2012\/02\/arbogodai-300x170.png\" alt=\"\" width=\"300\" height=\"170\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/arbogodai-300x170.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/arbogodai-1024x580.png 1024w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/arbogodai.png 1259w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a>\u00a0Ce travail nous a conduit \u00e0 proposer une forme g\u00e9n\u00e9ralis\u00e9e du partitionnement r\u00e9cursif. Nous avons ainsi abouti \u00e0 un cadre g\u00e9n\u00e9rique qui permet de construire des graphes d\u2019induction dans un contexte supervis\u00e9 ou non supervis\u00e9, et cela, quel que soit le type et le nombre de variables pr\u00e9dictives ou \u00e0 pr\u00e9dire. Il s\u2019agit d\u2019une g\u00e9n\u00e9ralisation des arbres de d\u00e9cision. Derni\u00e8rement, dans le cadre de la th\u00e8se de Vincent Pisetta, nous avons d\u00e9velopp\u00e9 des travaux visant \u00e0 utiliser les for\u00eats al\u00e9atoires pour construire des fonctions Noyau conduisant \u00e0 des classifieurs plus performants que les SVM.<a href=\"\/wp-content\/uploads\/2012\/02\/arbre-abo.png\"><img loading=\"lazy\" class=\"alignnone size-medium wp-image-217\" title=\"arbre-abo\" src=\"\/wp-content\/uploads\/2012\/02\/arbre-abo-300x225.png\" alt=\"\" width=\"300\" height=\"225\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/arbre-abo-300x225.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/arbre-abo.png 351w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<h3 style=\"text-align: justify;\">Graphes topologiques et apprentissage<\/h3>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/delaunay-Voronoi.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-219\" title=\"delaunay-Voronoi\" src=\"\/wp-content\/uploads\/2012\/02\/delaunay-Voronoi-300x285.png\" alt=\"\" width=\"300\" height=\"285\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/delaunay-Voronoi-300x285.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/delaunay-Voronoi.png 747w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<ul style=\"text-align: justify;\">\n<li style=\"text-align: justify;\">Parmi les \u00ab\u00a0<em>classifieurs\u00a0\u00bb<\/em>\u00a0les plus connus, les \u00ab\u00a0<em>k-plus proches voisins\u00a0\u00bb<\/em>\u00a0(kppv) occupent une bonne place. Or, la relation binaire de voisinage, induite par les kppv, n\u2019est pas sym\u00e9trique, d\u2019o\u00f9 un graphe non connexe. Pour cette raison et bien d\u2019autres que je laisse de c\u00f4t\u00e9 par manque de place, il nous a paru int\u00e9ressant de rechercher des structures plus adapt\u00e9es. Pour cela, nous avons fait appel aux mod\u00e8les g\u00e9om\u00e9triques comme les poly\u00e8dres de Delaunay, les graphes de Gabriel ou des voisins relatifs qui rendent mieux compte de la topologie des points de l\u2019ensemble d\u2019apprentissage et qui produisent des graphes connexes o\u00f9 la relation de voisinage est toujours sym\u00e9trique. Partant de l\u00e0, nous avons pu r\u00e9pondre \u00e0 un probl\u00e8me cl\u00e9 en apprentissage, \u00e0 savoir la s\u00e9parabilit\u00e9 des classes. En effet, si les classes \u00e9taient distribu\u00e9es al\u00e9atoirement dans l\u2019espace de repr\u00e9sentation, il ne servirait alors \u00e0 rien de chercher un algorithme d\u2019apprentissage, car le seul mod\u00e8le qui serait induit serait soit trop sp\u00e9cifique \u00e0 cause du sur-apprentissage ou pas meilleur qu\u2019un oracle pr\u00e9disant selon la probabilit\u00e9 a priori des classes. Par l\u2019\u00e9tude de la structure de ces graphes g\u00e9om\u00e9triques, et en nous inspirant des travaux de la statistique spatiale, comme les travaux de Cliff et Ord, nous avons pu \u00e9tablir la loi exacte des ar\u00eates coup\u00e9es en cas de distribution al\u00e9atoire des classes. Une arr\u00eate du graphe est coup\u00e9e si elle relie deux points de classes diff\u00e9rentes. Nous avons propos\u00e9 un test statistique. Outre la r\u00e9ponse au probl\u00e8me de la s\u00e9parabilit\u00e9 des classes, nous poursuivons ces travaux pour trouver les meilleures fonctions noyau, celles qui conduisent \u00e0 une meilleure s\u00e9parabilit\u00e9 des classes. Cette piste nous para\u00eet particuli\u00e8rement int\u00e9ressante pour deux raisons\u00a0:\n<ul>\n<li style=\"text-align: justify;\">Elle propose extension aux m\u00e9thodes bas\u00e9es sur les SVM (Support Vector Machines)\u00a0notamment \u00e0 travers la construction de nouveaux types de fonction noyau<\/li>\n<li style=\"text-align: justify;\">Elle d\u00e9bouche sur une nouvelle vision de l\u2019apprentissage qui rend la structure topologique centrale dans tout algorithme d\u2019apprentissage<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<h3 style=\"text-align: justify;\"><strong style=\"text-align: justify;\">La fouille de donn\u00e9es complexes<\/strong><\/h3>\n<p style=\"text-align: justify;\"><span style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/architecture.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-238\" title=\"architecture\" src=\"\/wp-content\/uploads\/2012\/02\/architecture-300x179.png\" alt=\"\" width=\"300\" height=\"179\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/architecture-300x179.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/architecture.png 703w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a>Les techniques de fouille de donn\u00e9es, dont l\u2019objectif est d\u2019exploiter des donn\u00e9es massives en vue d\u2019extraire des connaissances ou des informations utiles pour l\u2019usager, sont bien adapt\u00e9es pour traiter des donn\u00e9es tabulaires d\u00e9crites par des couples \u00ab\u00a0attribut-valeur\u00a0\u00bb. Or, les donn\u00e9es accessibles dans ce format ne repr\u00e9sentent qu\u2019une faible part, situ\u00e9e entre 10% et 15%, des donn\u00e9es num\u00e9ris\u00e9es. Les vrais d\u00e9fis scientifiques et technologiques se situent dans la Fouille des Donn\u00e9es Complexes comme celles qui sont sur le web par exemple (textes, images, vid\u00e9os). Ces donn\u00e9es complexes se pr\u00eatent moins facilement \u00e0 la fouille et par cons\u00e9quent, n\u00e9cessitent des approches et des outils nouveaux. C\u2019est dans cette optique que, d\u00e8s le d\u00e9but des ann\u00e9es 2000, j\u2019ai engag\u00e9 des travaux autour de cette probl\u00e9matique o\u00f9 j\u2019ai explor\u00e9 deux voies :<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"text-align: justify;\">&#8211; Recherche par le contenu dans les donn\u00e9es complexes (Recherche d\u2019Information (RI), Organisation et Indexation). <\/span><a style=\"text-align: justify;\" href=\"\/wp-content\/uploads\/2012\/02\/Complexes.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-239\" title=\"Complexes\" src=\"\/wp-content\/uploads\/2012\/02\/Complexes-300x225.png\" alt=\"\" width=\"300\" height=\"225\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Complexes-300x225.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Complexes.png 797w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><span style=\"text-align: justify;\">\u00a0Il s\u2019agit de trouver des modes de repr\u00e9sentation pour les donn\u00e9es complexes afin de pouvoir les interroger et de naviguer \u00e0 l\u2019int\u00e9rieur. Le fait de recourir \u00e0 des graphes g\u00e9om\u00e9triques offre, une fois le graphe construit, un fort potentiel en termes de navigation et de recherche d\u2019information.<\/span> <span style=\"text-align: justify;\">&#8211; Prise en compte des connaissances du domaine dans la fouille de donn\u00e9es complexes\u00a0: <\/span><a style=\"text-align: justify;\" href=\"\/wp-content\/uploads\/2012\/02\/Ontologie.png\"><img loading=\"lazy\" class=\"size-medium wp-image-240 alignright\" title=\"Ontologie\" src=\"\/wp-content\/uploads\/2012\/02\/Ontologie-300x186.png\" alt=\"\" width=\"300\" height=\"186\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Ontologie-300x186.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Ontologie.png 681w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><span style=\"text-align: justify;\">Dans les premiers travaux, nous nous sommes vite aper\u00e7us que la fouille de corpus complexes pouvait \u00eatre am\u00e9lior\u00e9e par la prise en compte d\u2019informations externes. Cette id\u00e9e a \u00e9t\u00e9 exploit\u00e9e pour d\u00e9boucher sur des strat\u00e9gies de prise en compte des connaissances du domaine par le biais des ontologies.<\/span><\/p>\n<h2 style=\"text-align: justify;\"><strong style=\"text-align: justify;\">D\u00e9veloppement de logiciels<\/strong><\/h2>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/Lattice-Sipina.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-223\" title=\"Lattice-Sipina\" src=\"\/wp-content\/uploads\/2012\/02\/Lattice-Sipina-300x126.png\" alt=\"\" width=\"300\" height=\"126\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Lattice-Sipina-300x126.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Lattice-Sipina.png 821w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a> Depuis le d\u00e9but de ma carri\u00e8re universitaire, j\u2019ai choisi de diffuser librement mes logiciels.\u00a0Nous avons \u00e9t\u00e9 parmi les premiers au monde (1995) \u00e0 mettre un logiciel de fouille de donn\u00e9es sur Internet en t\u00e9l\u00e9chargement libre. SIPINA, qui est un logiciel de fouille de donn\u00e9es par les graphes d\u2019induction. Il a, depuis, connu de nombreuses versions et il a \u00e9t\u00e9 repris compl\u00e8tement au sein de la plate forme Tanagra par un chercheur de mon laboratoire. Tanagra<a href=\"http:\/\/eric.univ-lyon2.fr\/~ricco\/tanagra\/en\/tanagra.html\">[1]<\/a>est maintenant un des logiciels phare du domaine.<\/p>\n<h2 style=\"text-align: justify;\"><strong>Travaux appliqu\u00e9s<\/strong><\/h2>\n<p style=\"text-align: justify;\"><a href=\"\/wp-content\/uploads\/2012\/02\/Cycle-application.png\"><img loading=\"lazy\" class=\"alignleft size-medium wp-image-226\" title=\"Cycle-application\" src=\"\/wp-content\/uploads\/2012\/02\/Cycle-application-300x213.png\" alt=\"\" width=\"300\" height=\"213\" srcset=\"https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Cycle-application-300x213.png 300w, https:\/\/zighed.com\/wp-content\/uploads\/2012\/02\/Cycle-application.png 879w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a>Dans le cadre de contrats ou de collaborations ponctuelles, j\u2019ai conduit de nombreuses recherches appliqu\u00e9es essentiellement dans deux secteurs\u00a0:<\/p>\n<ul style=\"text-align: justify;\">\n<li style=\"text-align: justify;\">La sant\u00e9, dans le cadre de la fouille de donn\u00e9es complexes et son application pour l\u2019aide au diagnostic dans les cancers du sein avec le Centre L\u00e9on B\u00e9rard de Lyon, le Centre d\u2019Imagerie M\u00e9dicale de Clermont-Ferrand, la soci\u00e9t\u00e9 Fenics sas. Je coordonne actuellement un projet europ\u00e9en \u00ab\u00a0FLURESP\u00a0\u00bb destin\u00e9 \u00e0 mod\u00e9liser les ph\u00e9nom\u00e8nes de pand\u00e9mie grippales. Ce projet b\u00e9n\u00e9ficie d\u2019un financement europ\u00e9en (DG SANCO) global de 700 000 euro et implique 8 \u00e9quipes europ\u00e9ennes.<\/li>\n<li style=\"text-align: justify;\">Les sciences humaines et sociales \u00e0 travers de nombreuses collaborations sur des applications touchant notamment la fouille de texte avec notamment l\u2019Institut des Sciences de l\u2019Homme de Lyon. En ce moment, nous travaillons sur la fouille d&rsquo;opinion et les r\u00e9seaux sociaux comme tweeter.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Recherche &#8211; activit\u00e9s r\u00e9centes Mon activit\u00e9 de recherche se d\u00e9roule selon trois modalit\u00e9s\u00a0: des travaux \u00e0 caract\u00e8re th\u00e9orique ou fondamentaux, des conceptions et r\u00e9alisations de logiciels et enfin, des applications notamment dans les domaines des Sciences Humaines et Sociales et la Sant\u00e9. Travaux th\u00e9oriques Graphes d&rsquo;induction Les graphes d&rsquo;induction dont les arbres de d\u00e9cision constituent [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":3,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/pages\/48"}],"collection":[{"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/zighed.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=48"}],"version-history":[{"count":67,"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/pages\/48\/revisions"}],"predecessor-version":[{"id":709,"href":"https:\/\/zighed.com\/index.php?rest_route=\/wp\/v2\/pages\/48\/revisions\/709"}],"wp:attachment":[{"href":"https:\/\/zighed.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=48"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}