INTERVIEWS 
 
Iván Herman
Activity Lead
W3C
Iván Herman (W3C)
"Le Web sémantique ne tient plus de la science-fiction"
Nouveau coordinateur de l'activité Web Sémantique au W3C, Iván Herman nous retrace le chemin parcouru depuis l'origine du projet, et fait le point sur les possibilités d'utilisation qui commencent à se concrétiser.
09/06/2006
 
JDN Développeurs. Quelle est l'idée motrice derrière le Web Sémantique ?
  En savoir plus
Dossier Numériser, gérer et publier ses contenus
  Le site
W3C Semantic Web
Iván Herman L'idée première est simple : donner les moyens d'avoir une connexion qualifiée entre données. Quand les gens utilisent le Web, ils sautent d'une information à l'autre avec les liens HTML. Avec RDF, on peut créer des connexions entre les données du Web, avec un nom et des caractéristiques logiques, et les traiter à la demande, par des moyens automatiques, en imitant, en quelque sorte, ce que l'humain fait déjà en utilisant le Web.

Quels délais semblent réalistes pour une mise en place globale du Web Sémantique ?
Ce genre de prospective est un peu dangereux, mais je peux dire que le Web Sémantique commence à être en place, et que très souvent il ne se voit pas. Les gens s'attendent à voir la sémantique, mais le plus souvent elle travaille derrière le rideau. Nombre de sites commerciaux stockent leurs données en RDF, et proposent à l'utilisateur de nouveaux choix selon ses manipulations. L'utilisateur lambda n'en a cure, mais c'est bien là. Difficile alors de parler de déploiement.

Vous êtes récemment passé lead de l'activité Sémantique au W3C. En quoi va consister votre travail désormais ?
Les documents du W3C sont avant tout faits par les groupes de travail, qui développent des technologies. Il y a un besoin de coordination entre les travaux des différents groupes, et le lead s'occupe de diriger sans forcément intervenir dans les questions technologiques. Le rôle du lead est également de représenter l'activité et les technologies pour le monde extérieur : rencontrer des sociétés, faire des conférences, afin que les gens s'intéressent à nos travaux.

Le lead dispose cependant d'une influence auprès des groupes : en effet, l'équipe de permanents du W3C est représentée au sein de tous les groupes, et une des tâches de ces représentants, ou contact staff, est de faire en sorte que le travail du groupe suive les directions générales du W3C, respecte les principes architecturaux du Web, adhère aux principes tels que l'internationalisation, etc. Le lead s'occupe de ces permanents du W3C.

RDF et OWL sont aujourd'hui stables et bien conçues."
L'ambition première de Tim Berners-Lee était de parvenir à un Web "intelligent", où l'information deviendrait accessible à tous. Qu'est-ce qui reste à l'état de science-fiction de cette vision, et qu'est-ce qui devient réalité ?
Les choses ont énormément changé et évolué. Certaines technologies de base sont définies, stables et bien conçues, comme RDF et maintenant OWL. Il y a une acceptation générale de ces technologies, beaucoup d'applications sont certes créées par des geeks, mais également par de grosses sociétés maintenant, parfois même sans qu'on le sache. La sémantique n'est pas forcément visible au premier coup d'oeil. Adobe, par exemple, a adopté le format RDF pour stocker les informations d'un fichier image - PSD, JPEG, EPS... - au sein même de celui-ci. Les entreprises s'y intéressent, cela va maintenant au-delà de la science-fiction. Notamment, les entreprises de biotechnologies sont particulièrement intéressées par la sémantique, cela leur donne des moyens très intéressants.

L'impression générale de complexité a donc disparu ?
Il y a quatre ans, l'impression que les gens avaient du Web Sémantique était que pour avoir une application sémantique, il fallait utiliser tous les outils : ontologies, qualification, moteurs de raisonnement... Donc les gens avaient une impression de complexité, c'est certain. Ce qui est devenu clair depuis lors, c'est que les applications peuvent utiliser des moyens beaucoup plus simples, par exemple RDF et RDFS, et déjà donner des résultats intéressants.

Cela se reflète-t-il dans les applications créées ?
Les développements actuels se font dans deux directions. Tout d'abord, les développements qui ajoutent des technologies comme OWL, par exemple des possibilités logiques, moteurs de règles... Et puis, des projets plus simples d'utilisation directe, comme extraire des données RDF de fichiers HTML ou de bases de données relationnelles. Accéder aux données, les relier entre elles, la base de RDF en somme.

Côté W3C, la technologie la plus importante en ce moment est assurément SPARQL (langage de requête RDF). Elle n'est pas encore achevée, mais on voit déjà, tous les jours, de nouvelles implémentations ou démonstrations l'utilisant. C'est un projet extrêmement intéressant, et son rôle sera déterminant. Nous attendons sa recommandation pour la fin de l'année.

SPARQL vient s'ajouter aux fondements technologiques du Web Sémantique, aux côtés de RDF, RDF Schema et OWL. Dans quelques mois, nous aurons SPARQL. Nous travaillons également sur les règles d'usage (RIF Use Cases and Requirements), et espérons avoir les premiers résultats dans ce domaine en 2007. D'autres éléments seront mis en développement si les membres acceptent les propositions, mais techniquement, en ce qui concerne SPARQL, nous sommes prêts.

Nous voulons faire disparaître cette fausse image de complexité."
Les spécifications RDF et OWL ont mûri, et sont aujourd'hui des recommandations. Quelles sont les prochains obstacles à l'accomplissement d'un Web sémantique ?
L'un des obstacles techniques est d'avoir les moyens d'accéder aux données déjà sur le Web, et de les connecter en RDF. Beaucoup de recherches tentent d'implémenter des ponts entre SQL et RDF. Ce n'est pas évident, mais très important. Le monde médical y porte une attention particulière : la plupart des organismes disposent de silos disjoints de données ; connecter une base à une autre peut révéler de nouvelles informations. Les ponts sont donc le noyau manquant. Ce n'est pas pour rien qu'Oracle s'est lancé dans le stockage de données RDF (ndlr : depuis Oracle 10g), ils ont compris qu'il y avait des sous à faire.

Côté non technologique, le W3C doit mettre plus d'énergie pour faire connaître le Web Sémantique, et surtout faire disparaître cette fausse image de complexité, créée malheureusement par nous. Il faut faire comprendre qu'il s'agit de choses simples, qui peuvent devenir compliquées si le projet en a besoin, mais pas forcément.

Peut-on dire que toutes les spécifications actuellement en développement au W3C, par exemple XHTML ou SVG, tendent à soutenir le Web Sémantique ?
Pour la plupart, oui. XHTML est un bon exemple, car ce format cherche à définir plus strictement et de manière plus évolutive les idées proposées par les gens des microformats. Nous espérons améliorer XHTML pour ajouter des attributs, donc extraire des informations en RDF. Il y a très clairement un pont entre les deux activités. SVG dispose de possibilités semblables, mais c'est un autre problème qui se pose : comment d'écrire une image de manière textuelle et cohérente.

Par ailleurs, on découvre le problème de Web services sémantiques. Un groupe de travail vient d'être lancé, il y a toute une coordination à faire.

La vision du Web Sémantique du W3C est-elle la seule en la matière ?
Tout d'abord, le W3C n'est pas tant un lieu de recherche qu'un corps de standardisation. Nous cherchons avant tout à fédérer. D'autres recherches se font bien sûr ailleurs, de manières plus ou moins rapprochées des approches du W3C. Ainsi, certains utilisent RDF ou OWL pour aller au-delà. Par exemple, à ce jour, on ne peut ajouter de notion de temps ou de probabilité. Il est difficile d'ajouter ce genre d'informations au modèle RDF actuel. Des recherches sont en cours, et quand les choses seront mûres, on espère que ça reviendra vers le W3C.

Y'a-t-il conflit ou convergence de vision ?
Les conflits peuvent arriver. Par exemple, les Topic Maps ont été créées par des communautés très différentes du Web, et sont utilisées en dehors. Pendant très longtemps on a eu l'impression d'un conflit entre ces visions, mais aujourd'hui des documents tentent de créer des ponts entre celles-ci. L'idée est de rester ouvert à toute avancée.

Une fois cette vision du Web Sémantique établie au quotidien, quel sera le "plein potentiel du Web" ?
Les anciens exemples de Tim Berners-Lee sont encore vrais et à faire : le Web sera capable de faire beaucoup de choses, plus facilement qu'aujourd'hui.

  En savoir plus
Dossier Numériser, gérer et publier ses contenus
  Le site
W3C Semantic Web
Ainsi, si j'ai des données dans un calendrier, et d'autres informations de préférences culinaires ou de limitations médicales stockées dans une autre source, le Web Sémantique pourrait bientôt pouvoir connecter ces informations de manière optimale en vue d'un projet de voyage par exemple.

Il faudra ainsi un système pour détecter les conflits de dates et autres. Il y a déjà des éléments qui peuvent être fait avec RDF et SPARQL, mais nous n'en sommes pas encore là... Il faut juste le temps que ces idées soient adoptées. Quand on y pense, CSS1 a été défini en 1998, et n'a vraiment pris de l'ampleur que ces dernières années. Avec beaucoup de patience et d'ouverture, on devrait faire de la science-fiction une réalité.
 
Propos recueillis par Xavier Borderie, JDN Développeurs

PARCOURS
 
 
Iván Herman, 50 ans, est coordinateur de l'activité Web Sémantique du W3C

2006 W3C, Semantic Web Activity Lead
2001 W3C, Head of Offices
1988 CWI, chef de projet et chercheur
1986 Insotec Consult GmbH, ingénieur
1983 SzTAKI, chercheur

Et aussi en parrallèle à ses activités au W3C, il reste en poste au CWI.