Escola de Redes

Table des matières

Publications 2011

Pierre Lévy La sphère publique du 21e siècle

Pierre Lévy La sphère sémantique. Computation, cognition, économie de l’informa...

Articles 2010

Pierre Lévy IEML Semantic Topology

Heung Nam Kim, Andrew Roczniak, Pierre Lévy, Abudulmotaleb El-Saddik Social recommander Systems on IEML Semantic Space

Articles 2009

Pierre Lévy Vers une science de l’intelligence collective

Candide Kemmler An IEML dictionary powered semantic navigation widget

Pierre Lévy From Social Computing to Reflexive Collective Intelligence

Pierre Lévy The IEML Research program, paper published in Information Sciences, special issue on Collective Intelligence.

Samuel Szoniecky Les perspectives du tagging sémantique

Articles 2008

Pierre Lévy La mutation inachevée de la sphère publique

Pierre Lévy IEML, bilan et perspectives

Michel Biezunski, Steve Newcomb Binary IEML

Pierre Lévy, Internet, de quel séisme parle-t-on ?

Andrew Roczniak, IEML Initiative Service Oriented Architecture

Pierre Lévy, Architecture of a Semantic Networking Language

Articles 2007

Pierre Lévy, IEML Syntax

Pierre Lévy, société du savoir et développement humain

Pierre Lévy, l’intelligence possible du XXIème siècle

Michel Biezunski et Steve Newcomb Vers un Protocole de l’Intelligence Collective (en anglais)

Articles 2006

Pierre Lévy, L’initiative IEML et les fondements de la sémantique computationnelle

Pierre Lévy, IEML : Métalangage de l’économie de l’information

Pierre Lévy, Un programme de recherche pour l’économie de l’information

Daniel Memmi, Le modèle vectoriel pour le traitement de documents

Pierre Lévy, Interprétation des chiffres sémantiques (en anglais)

Pierre Lévy, Séries, arbres et matrices sémantiques (en anglais)

Pierre Lévy, avec l’aide de Andrew Roczniak, Formal Representation of the Information Economy Meta Language : IEML (en anglais)

June 29 2011

Social Recommender Systems Based on IEML Tags

In this new technical report of the Collective Intelligence Lab, two social tagging recommendation methods are presented. One method of semantic collaborative filtering is user-based and the other method is item-based. Both methods use IEML semantic tags. We analyze some potential benefits of methods based on IEML for social recommender systems in order to solve polysemy, synonymy and semantic interoperability problems, which are notable challenges in information filtering.

Experimental results show that our methods offer significant advantages both in terms of improving the recommendation quality and in dealing with polysemy, synonymy, and interoperability issues.

The Authors

Heung-Nam Kim is researcher at the MCR-Lab at the university of Ottawa, Abdulmotaleb El Saddik is the head of the MCR Lab.

Andrew Roczniak is researcher at the Collective Intelligence Lab and Pierre Lévy is the head of the CI-Lab.

IEML-Social-Recommender
CI-Lab Technical Report March 2010

juin 29 2011

La sphère publique du XXIe siècle

Une réflexion sur les transformations politiques liées à la domination du médium numérique. Article de Pierre Lévy (Twitter : @plevy) à paraître dans La Revue Médium

Le médium numérique du début du XXIe siècle se caractérise par une possibilité d’expression publique, d’interconnexion sans frontières et d’accès à l’information sans précédent dans l’histoire humaine. Ce médium est en train de remplacer, tout en l’absorbant, l’ancien système des médias structuré par l’édition papier, le cinéma, les journaux, la radio et la télévision. Dès le début des années 2000, il m’apparaissait que la croissance du médium numérique se traduirait par une transformation radicale de la sphère publique qui aurait de profondes et durables conséquences politiques . Déjà, en 1999, des collectifs de militants s’organisaient en ligne de manière souple et décentralisée pour manifester contre l’OMC et le FMI à Seattle. Bien mieux, grâce l’outil techno-social Indymedia , ils témoignaient de leur action en temps réel et à l’échelle mondiale sans passer par les médias unidirectionnels traditionnels. En utilisant à fond les nouveaux vecteurs de communication, la victorieuse campagne d’Obama en 2008 a montré dans quel médium se jouait désormais l’opinion publique. Wikileaks et ses émules sont devenus des acteurs majeurs du jeu politico-diplomatique mondial. Les révoltes arabes de 2010-2011 se sont organisées en ligne par Facebook et Twitter et leurs acteurs ont tous à la main un téléphone intelligent qui enregistre et diffuse en temps réel les événements auxquels ils participent. Isolé dans ma cabane au Canada, je lis quotidiennement les titres de dizaines de journaux et de blogs de partout dans le monde, et je reçois chaque jour des centaines de tweets qui m’informent de mes sujets d’intérêts favoris.

Avant d’aborder les conséquences de l’éclosion de la nouvelle sphère publique pour la pensée politique, qui est l’objet principal de cet article, je voudrais évoquer brièvement ses déterminants techniques et démographiques... pour lire la suite, télécharger le pdf.

La Sphère publique du 21e siècle

janvier 21 2010

Vers une science de l’intelligence collective

Comment exploiter pleinement les ressources ubiquitaires de communication et de calcul du cyberespace pour modéliser et augmenter l’intelligence collective humaine ? Telle est la question où s’origine ma recherche. L’expression “ intelligence collective ” peut avoir beaucoup de sens différents, mais tous ces sens sont plus ou moins liés à la conjonction de deux notions : la cognition (“ l’intelligence ”) et la société ou la communauté (“ collective ”). La cognition est ici très classiquement l’activité de percevoir, de se souvenir, de résoudre des problèmes, d’apprendre, etc. “ L’intelligence collective ” réfère donc aux capacité cognitives d’une société, d’une communauté ou d’une collection d’individus.

A partir de cette approche très générale, l’intelligence collective peut être considérée selon quatre points de vue différents, mais interdépendants : premièrement, l’intelligence collective des sociétés animales ; deuxièmement, celle des sociétés humaines en général ; troisièmement, l’intelligence collective dont le perfectionnement constitue un objectif explicite dans les sociétés du savoir qui cultivent une nouvelle “ économie de l’information ” ; quatrièmement, l’intelligence collective des communautés qui s’auto-organisent par l’intermédiaire du cyberespace. Il sera surtout question dans ce texte de l’intégration des trois derniers points de vue grâce à un modèle scientifique de l’intelligence collective : la noosphère IEML. Une science de l’intelligence collective basée sur ce modèle permettrait non seulement d’élucider les mécanismes de la cognition symbolique mais encore de perfectionner notre gestion collective des connaissances et donc en fin de compte de soutenir le développement humain.

La première partie de ce texte examine la nature de la cognition symbolique, qui est intrinsèquement sociale et culturelle. La seconde partie explore les problèmes liés à la gestion des savoirs et à l’entretien de ce “ bien commun ” qu’est la connaissance humaine à l’échelle mondiale. La troisième partie décrit les grandes lignes de la noosphère IEML, un modèle linguistico-mathématique du terrain de jeu fondamental de l’intelligence collective. Cette noosphère se présente comme un immense graphe sémantique dont les sommets et les arrêtes sont des variables du même groupe de transformations symétriques. La quatrième et dernière partie évoque l’achèvement de la révolution scientifique du XVII° siècle que représenterait une mathématisation (qualitative et quantitative) de la vie de l’esprit et invite le lecteur à contempler le cosmos unifié et anthropocentrique d’une future civilisation de l’intelligence collective.

Vers une science de l’intelligence collective
Vers une science de l’intelligence collective

novembre 1er 2009

The IEML Research Program

"The IEML Research Program. From Social Computing to Reflexive Collective Intelligence", Information Sciences, special issue on collective intelligence, ed Epaminondas Kapetanios & Georgia Koutrika, vol 180, issue 1, Elsevier, Amsterdam, 2 Jan 2010, p. 71-94

IEML in "Information Sciences"

juin 10 2009

What is IEML ?

Six responses to the question : From your point of view of engineers, what is IEML ?

By Andrew Roczniak, Christian Desjardins, Candide Kemmler, Michel Biezunski, Steve Newcomb and Samuel Szoniecky

To read the full text, go to the PDF document

[ABSTRACT]

- Andrew Roczniak. Receive "your" information from any Web 2.0 site that uses tags

- Christian Desjardins. IEML makes the implicit, explicit.

- Candide Kemmler. IEML is a bridging technology for humans to collaborate accross disciplinary boundaries and language barriers.

- Michel Biezunski. IEML is like a map representing all semantics of the world

- Steve Newcomb. IEML research program wants to answer this question : "How can organizations and civilizations look into a kind of mirror, and see themselves accurately ?"

- Samuel Szoniecky. Thank to IEML, we can not only model meaning but also the mechanisms that process meaning.

Disclosure : The authors of the following short texts are all involved in IEML research.

IEML Definitions

mai 12 2009

An IEML dictionary powered semantic navigation widget

By Candide Kemmler

The software widget presented in this paper is a first attempt at providing end-users with a means to navigate an IEML space both for content annotation (USL notation) and for content navigation through their semantics. It was first presented at IEML’s international seminar in Ottawa on May 2d, 2009.

IEML semantic widget
By Candide Kemmler

April 8 2009

From Social Computing to Reflexive Collective Intelligence

The IEML research program promotes a radical innovation in the notation and processing of semantics. IEML (Information Economy MetaLanguage) is a regular language that provides new methods for semantic interoperability, semantic navigation, collective categorization and self-referential collective intelligence. This research program is compatible with the major standards of the Web of data and is in tune with the current trends in social computing.

The paper explains the philosophical relevance of this new language, expounds its syntactic and semantic structures and ponders its possible implications for the growth of collective intelligence in cyberspace.

This paper is a fusion of two publications in scientific journals:

"The IEML Research Program. From Social Computing to Reflexive Collective Intelligence", Information Sciences, special issue on collective intelligence, ed Epaminondas Kapetanios & Georgia Koutrika, vol 180, issue 1, Elsevier, Amsterdam, 2 Jan 2010, p. 71-94

This paper can be found for free here.

”Toward a Self-referential Collective Intelligence: Some Philosophical Background of the IEML Research Program” in Nguyen Ngoc Than, Kowalczyk Ryszard, Chen Shyi-Ming (Eds.), Computational Collective Intelligence, Semantic Web, Social Networks and Multi-agent Systems. First International Conference, ICCCI 2009, Wroclaw, Poland, Oct 2009, Proceedings. Springer, Berlin-Heidelberg-NY, 2009, pp 22-35.

This paper can be bought here.


IEML-August-2009

janvier 26 2009

Les perspectives du tagging sémantique

par Samuel Szoniecky

L’article de Samuel Szoniecky, travaillant au laboratoire Paragraphe de Paris-8, sous la direction de Imad Saleh, analyse les problèmes liés au tagging sémantique et présente une application beta utilisant IEML.

Tagging sémantique
L’article analyse les problèmes liés au tagging sémantique et présente une application beta utilisant IEML.

décembre 6 2008

IEML Semantic Topology

The Mathematical Foundations of IEML

We propose in this article a formal description of IEML, a novel language designed to be used within computational intelligence and collective intelligence domains. Its target applications are :

- collaborative semantic tagging (`balisage’) of any idea or concept available on the Web (blogs, images, software, documents, data in general) ;

- collaborative semantic search, including comparison, merging and navigation ;

- interoperable modeling and simulation in social sciences, management, design, gaming and digital storytelling.

The emphasis is put on the operations that can be performed on IEML expressions. The combination of these operations leads to automatic generation and transformation of IEML expressions and to automatic generation and transformation of IEML semantic circuits.

IEML has been designed with two goals in mind : provide a practically unlimited method of semantic expression while remaining well within the limits of modern computation.

In the task of formalizing IEML Pierre Lévy has benefited from the invaluable help of Andrew Roczniak, PhD. Nick Soveiko, PhD, is the main contributor of the chapter on quantitative criteria for structural similarity and shortetst path between semantic circuits.

IEML Semantic Topology

septembre 30 2008

La mutation inachevée de la sphère publique

Mon propos est ici d’analyser la mutation contemporaine de la sphère publique sous l’effet de l’extention du cyberespace et d’envisager les nouvelles possibilités de développement que cette mutation ouvre à la démocratie, et tout particulièrement à la délibération collective.

Pour lire l’article, téléchargez le PDF

La nouvelle sphère publique

septembre 30 2008

IEML, Bilan et perspectives

Ce rapport technique résume les recherches effectuées à la Chaire de Recherche du Canada en Intelligence Collective de l’Université d’Ottawa depuis 2002 et explique le programme de recherche basé sur IEML pour les années à venir.

Comment surmonter la diversité des langues et l’incompatibilité des systèmes de classification utilisés par les bases de données et réseaux sociaux en ligne afin d’étudier scientifiquement l’intelligence collective humaine et de lui permettre de se réfléchir dans le cyberespace ? Pour résoudre ce problème, j’ai inventé un système de notation sémantique, baptisé métalangage de l’économie de l’information (IEML). IEML est original par rapport aux normes du "Web sémantique", mais compatibles avec elles. Ce nouveau langage formel autorise la cartographie et la calculabilité des processus de cognition sociale dans un espace sémantique pratiquement infini. Son utilisation comme outil d’échange de métadonnées sur le Web aidera à construire des ponts entre langues, ontologies et univers de discours différents. Un dictionnaire IEML multilingue et des outils à sources ouvertes seront mis à la disposition du public en 2009. Sur la base des résultats obtenus, un réseau international de recherche et développement sur le balisage sémantique en IEML sera lancé en 2009. Ce réseau vise trois objectifs principaux :

- augmenter les unités lexicales et les langues naturelles du dictionnaire IEML ;

- développer une société d’agents sémantiques open source permettant à ses utilisateurs d’échanger des informations balisées en IEML et de produire des cartes dynamiques de leur intelligence collective ;

- initier des spécialistes à l’utilisation du métalangage dans le cadre d’une école internationale de balisage sémantique.

Pierre Lévy

Pour lire la suite du texte, téléchargez le pdf

PDF - 797.7 ko
IEML-bilan-perspectives

mai 1er 2008

IEML binaire

Steve Newcomb et Michel Biezunski proposent une représentation d’IEML en binaire, qui se prête facilement au calcul automatique.

Cliquez sur l’icône ci-dessous

HTML - 20 ko
BINARY IEML

janvier 10 2008

Internet, de quel séisme parle-t-on ?

Les téléchargements gratuits, la propriété intellectuelle et l’intelligence collective...

Le récent livre de Marc Le Glatin, "Internet, un séisme dans la culture ?", accomplit au moins trois gestes intellectuels. Premièrement, il résume les principaux faits concernant l’évolution des pratiques culturelles sur Internet, et tout particulièrement la multiplication et la banalisation des téléchargements « gratuits » d’oeuvres protégées en principe par la propriété intellectuelle. Deuxièmement, il interroge les notions de propriété intellectuelle et de diversité culturelle à lumière des nouveaux possibles ouverts par Internet. Troisièmement, il propose quelques pistes de solutions aux problèmes économiques et juridiques (et notamment la rémunération des artistes) que soulève la transformation en cours dans l’univers de la communication. Autant les faits me semblent correctement cernés et les questions dignes d’être posées, autant les solutions proposées, inspirées d’un mixte de jacobinisme centralisateur, de socialisme et de post-modernisme, me paraissent trompeuses, parce qu’elles s’appuient sur des présupposés philosophiques et politiques contraires à l’esprit de la mutation culturelle en cours. Je discute les thèses principales de l’auteur et propose des pistes de réflexion alternatives faisant appel à la philosophie de l’intelligence collective, plus propres à tirer le meilleur parti des nouvelles possibilités techniques au service de l’émancipation et du développement humain.

Lire l’article au complet

décembre 18 2007

Société du savoir et développement humain

Prof. Pierre Lévy, CRC, MSRC

Résumé

Cet article part d’une approche théorique dans laquelle société du savoir et développement humain sont profondément liés l’un à l’autre. En simplifiant : le développement humain constitue le but et l’objet principal de la société du savoir tandis que la société du savoir offre au développement humain l’environnement et le cadre général le plus favorable à sa croissance. Une fois posée cette relation symbiotique fondamentale, le cyberespace, c’est-à-dire en fin de compte la nouvelle matrice technique de la communication et de la mémoire humaine, est envisagée comme un instrument de médiation entre le savoir collectif et la société humaine en développement. Après avoir diagnostiqué les difficultés - essentiellement de nature symbolique - auxquelles la construction inachevée du cyberespace fait face aujourd’hui pour remplir adéquatement ce rôle de médiation, je propose une solution possible - elle aussi symbolique - sous la forme d’un système d’adressage sémantique. Le métalangage IEML, dont j’esquisse ici la structure de base, a été conçu pour coordonner le travail des intelligences collectives travailant dans la perspective de la société du savoir et transformer la multitude hétérogène des informations disponibles en ligne en mémoire multi-centrée du développement humain.

Ce texte doit être cité ainsi :

"Société du savoir et développement humain", in Le Canada et la société des savoirs, sous la direction de Patrick Imbert, Chaire de Recherche de l’Université d’Ottawa, Canada : enjeux sociaux et culturels dans une société du savoir, 2007, p. 115-175

Site de la Chaire de Recherche de Patrick Imbert, éditeur du volume.

TELECHARGEZ L’ARTICLE ICI

juin 21 2007

Vers un protocole de l’intelligence collective

Michel Biezunski et Steve Newcomb, spécialistes mondialement reconnus des normes et systèmes de gestion de données, se prononcent sur les avantages d’un protocole de l’intelligence collective (CIP) pour l’échange des métadonnées sémantiques notées en IEML.

Collective Intelligence Protocol

mai 1er 2007

L’intelligence possible du XXIème siècle

La numérisation des documents, leur interconnexion dans un espace virtuel ubiquitaire et les possibilité de traitement de ces documents par des robots logiciels annoncent une mutation culturelle de grande ampleur, qui se déroulera forcément sur plusieurs générations. Plutôt que d’assister de l’extérieur à cette mutation, les intellectuels doivent à mon sens en prendre la tête. En effet, l’informatique, qu’on peut définir simplement comme l’art et la science de la construction d’automates manipulateurs de symboles, se trouve encore dans sa préhistoire au début du XXI° siècle. La communauté des chercheurs en sciences humaines, quelque soit la diversité de ses disciplines et de ses racines culturelles, peut faire bénéficier l’informatique naissante de sa compréhension des processus symboliques et de ses traditions multiséculaires de réflexion sur le sens et sa complexité. Elle contribuerait ainsi à la naissance d’une informatique sémantique au service d’une nouvelle intelligence possible, capable non seulement d’automatiser les opérations arithmétiques et logiques mais également (moyennant codage) l’éventail indéfiniment ouvert des procédures herméneutiques qui permettent de donner sens à la mémoire collective.

Le texte complet en format PDF

L’intelligence possible

octobre 27 2006

UN PROGRAMME DE RECHERCHE POUR L’ÉCONOMIE DE L’INFORMATION

Prof. Pierre Lévy, CRC, MSRC, Université d’Ottawa

Les agents de l’économie de l’information sont des communautés de chercheurs qui alimentent et exploitent ce bien commun qu’est la mémoire numérique. Un des principaux problème des communautés de chercheurs est de disposer d’outils logico-symboliques leur permettant d’extraire le maximum d’information de la mémoire. Mon hypothèse est qu’un système d’adressage sémantique des concepts - conçu pour se prêter au traitement automatique plus facilement que les langues naturelles - ferait franchir un seuil décisif à la puissance des outils de recherche d’information. Pour traduire la diversité des significations exprimables en langues naturelles, ce système doit pouvoir adresser un espace conceptuel varié à l’infini. Pour satisfaire les plus exigeantes des communautés de chercheurs dans les sciences de l’homme et de la société, il doit autoriser le test de théories complexes sur la signification des documents, selon des méthodes reproductibles et avec des instruments de mesure mathématiques. L’hypothèse selon laquelle un système d’adressage universel des concepts répondant à ces contraintes multiplierait la puissance des outils de recherche d’information aujourd’hui disponibles peut être testée sur le métalangage de l’économie de l’information (IEML) décrit dans cet article et sur le site www.ieml.org. Le programme de recherche que je propose s’articule en deux volets : 
- premièrement, entreprendre la construction coopérative d’un moteur de recherche sémantique à sources ouvertes basé sur IEML ; 
- deuxièmement, initier, au moyen de ce nouvel instrument d’observation, une exploration coordonnée de la mémoire numérique au service des sciences de l’homme et de la société.

article publié dans la revue scientifique ISDM

Introduction

Opacité de la mémoire numérique

Depuis l’apparition du Web au début des années 1990, les fondations techniques d’une économie globale de l’information ouverte et dynamique ont été posées. La mémoire numérique désormais accessible en ligne constitue le capital - ou le bien commun - de l’économie de l’information. Ce bien commun est alimenté par la création de documents numériques et il est exploité par des opérations de recherche : indexation des documents, formulation de requêtes et extraction d’information. Or l’exploitation optimale du nouveau bien commun au bénéfice des communautés de chercheurs se heurte à d’importants obstacles dont les principaux sont : 
- la fragmentation linguistique, 
- l’incompatibilité mutuelle et l’inadaptation des nombreux systèmes d’indexation et de catalogage hérités de l’ère de l’imprimerie, 
- les difficultés rencontrées par l’ingénierie informatique à prendre en compte la signification des documents au moyen de méthode générales, 
- l’absence de transparence des méthodes employées par les moteurs de recherche commerciaux contemporains. Deux grands programmes de recherche, le Web 2 et le Web sémantique, tentent de répondre aujourd’hui, chacun à leur manière, au problème de l’opacité de la mémoire numérique.

Le Web 2

Le projet du Web 2 est porté par une nébuleuse informelle de communautés qui s’activent principalement à multiplier les outils collaboratifs, bien souvent dans un cadre open source et P2P. Le Web 2 a tendance à considérer le Web comme une sorte de système d’exploitation pour des applications collaboratives en ligne. Cela se marque notamment par l’usage croissant des wikis, par la multiplication des processus de partage d’information tels qu’on peut notamment les expérimenter sur del.icio.us (partage de signets) et flickr.com (partage de photos) et par le succès des logiciels sociaux et des services tendant à accroître le capital social de leurs usagers (myplace.com est à cet égard emblématique). Le succès mérité de Wikipedia, la vogue des modes de communication P2P, la montée continue des systèmes d’exploitation et des logiciels à sources ouvertes, la pression pour desserrer les freins que pose la propriété intellectuelle classique sur l’économie de l’information numérique peuvent également être considérés comme des tendances liées au Web 2. Tout cela manifeste une exploration sociale des diverses formes d’intelligence collective rendues possibles par le Web et représente donc une évolution très positive. Mais, en fin de compte, il s’agit d’une exploitation par et pour le plus grand nombre de potentialités qui étaient techniquement et philosophiquement déjà présentes dès l’apparition du Web au début des années 90. Je vois dans le Web 2 une maturation culturelle et sociale du Web (qui a été conçu dès l’origine par Tim Berners Lee pour favoriser les processus collaboratifs) plutôt qu’un saut épistémologique majeur.

Le Web sémantique

Quant au Web sémantique, contrairement à ce que laisse supposer son nom, il propose essentiellement des normes de codage logique des informations. Rejoignant certaines tendances du Web 2, l’ambition du Web sémantique est de constituer une sorte de système d’exploitation des données du Web au service des moteurs de recherche et des « agents intelligents ». Les principaux outils symboliques de cette nouvelle couche du cyberespace sont : 
- XML (eXtended Mark-up Language), dérivé du langage SGML de Charles Goldfarb, qui permet de décrire de manière universelle la structure des données ; 
- RDF (Ressource Description Framework) qui permet de cataloguer les données du Web et le langage Sparkl qui permet d’interroger les ressources ainsi cataloguées ; 
- OWL (Ontology Web Language), qui permet de décrire les « ontologies » c’est-à-dire la structure conceptuelle des divers domaines de connaissances. Cet appareillage de descripteurs et de marqueurs a pour principale fonction de favoriser l’automatisation des traitements dans la recherche des données et l’exécution des opérations confiées aux agents intelligents ou robots logiciels.

Le programme open search

Les deux orientations intellectuelles qui viennent d’être évoquées proposent des solutions certes utiles, mais partielles, aux difficultés de fond mentionnées plus haut. Le Web 2 définit plutôt un certain esprit, une orientation vers la croissance de l’intelligence collective. Le Web sémantique, pour sa part, se spécialise dans la définition consensuelle de normes favorisant l’interopérabilité en ligne. Je propose ici un troisième programme de recherche au service de l’économie de l’information. Ce programme, baptisé open search, que je développe depuis 2002 au laboratoire d’intelligence collective de l’Université d’Ottawa, n’est nullement opposé, mais plutôt complémentaire à ceux du Web 2 et du Web sémantique. En effet, la réalisation d’un moteur de recherche ouvert capable de dissiper l’opacité sémantique ne peut que bénéficier aux outils collaboratifs - du côté du Web 2 - et aux normes d’inférences automatiques et de services informationnels - du côté du Web sémantique. Le programme de recherche open search veut surmonter les problèmes auxquels est confronté l’économie de l’information en s’attaquant à leur cause : l’absence d’un système d’adressage sémantique universel (indépendant des langues et des cultures) capable d’optimiser la puissance et la portée de la recherche automatisée d’information. On peut supposer, en effet, qu’un tel système d’adressage, s’il était utilisé, résoudrait une grande partie des problèmes liés - je le répète - (1) à la fragmentation linguistique, (2) à l’incompatibilité des multiples systèmes d’indexation, (3) à leur inadéquation au traitement automatique à grande échelle, (4) à l’absence d’une approche systématique de la signification par l’ingénierie informatique contemporaine et (5) à l’opacité des méthodes et algorithmes utilisés par les moteurs de recherche commerciaux. Une première version du système d’adressage sémantique dont a besoin l’économie d’information pour franchir un seuil décisif existe déjà : c’est IEML (pour Information Economy Meta Language). On en trouvera le noyau lexical et syntaxique sur le site www.ieml.org. Ce métalangage, développé au laboratoire d’intelligence collective de l’Université d’Ottawa , n’a pas vocation à devenir une langue parlée ou écrite d’usage courant au même titre que les langues naturelles comme le français, l’anglais ou le mandarin : ses fonctions sont d’indexer - ou d’adresser - les documents numériques rédigés en langue naturelle et de représenter des connaissances complexes à des fins de traitement automatique. IEML (ou n’importe quel autre métalangage ayant les mêmes caractéristiques) peut jouer ce rôle de système d’adressage sémantique et permettre ainsi à l’économie de l’information de franchir les obstacles mentionnés plus haut parce qu’il réunit deux propriétés généralement séparées : 
- d’un côté, il est capable de traduire de manière distincte l’ensemble ouvert des concepts explicitables dans des langues naturelles ; 
- d’un autre côté, contrairement aux langues naturelles, il peut être traité de manière optimale par les ordinateurs : c’est un système mathématique permettant des calculs puissants (mesures de distances sémantique, rangement sur critères sémantiques, inférences automatiques).

JPG - 75.2 ko

Plan de l’article

Avant d’expliquer la solution que je propose au problème de l’économie de l’information, il est nécessaire d’en poser les termes le plus clairement possible. C’est pourquoi le premier chapitre définit les concepts principaux et les grandes fonctions de cette économie. Le second chapitre analyse les difficultés rencontrées aujourd’hui par la recherche d’information dans la mémoire numérique en ligne et esquisse les plans d’un moteur de recherche sémantique ouvert capable de résoudre ces difficultés. Comme le moteur de recherche sémantique ne peut fonctionner qu’au moyen d’un système d’adressage sémantique universel, le troisième chapitre décrit la structure syntaxico-sémantique du métalangage de l’économie de l’information. Ce chapitre explique comment IEML est capable d’adresser la signification des documents de façon mathématique tout en permettant la plus grande liberté et une variété virtuellement infinie dans l’expression des nuances sémantiques. Le quatrième chapitre, le plus long, analyse les possibilités de recherche scientifique dans la mémoire numérique offertes par le moteur de recherche sémantique. Ce quatrième chapitre est centré sur la description des graphes conceptuels IEML, qui peuvent exprimer aussi bien les données que les hypothèses au sujet des données.L’article se conclut par une discussion des thèmes du cerveau global et de la conscience réflexive de l’intelligence collective ainsi que par l’évocation de nouvelles perspectives de développement pour l’informatique et les sciences de l’homme.

téléchargez le texte complet

Programme IE

septembre 1er 2006

Le modèle vectoriel pour le traitement de documents

Prof. Daniel Memmi, UQAM, Montréal, CANADA

Abstract : we describe the main notions underlying the vector space model for natural language processing and information retrieval. Fundamental concepts of vector space theory will be defined and basic clustering methods will be explained. We show how to apply the vector space model to the most common document processing tasks. We then discuss the problems of the approach, which we finally try to evaluate.

Résumé : nous allons exposer les notions principales du modèle vectoriel pour le traitement du langage naturel et la recherche d’information. Nous décrirons notamment les concepts de base sur les espaces vectoriels et la classification des données, ainsi que les grandes applications du modèle vectoriel au traitement de documents. On discutera aussi des problèmes posés et de la validité de l’approche.

Introduction

Depuis le début des travaux en Traitement Automatique du Langage Naturel (TALN) on a poursuivi des directions de recherche diverses. On peut notamment distinguer des approches numériques s’appuyant sur probabilités et statistique et des approches syntaxiques liées à la théorie des langages formels. On remarque aussi que l’éventail de recherche va de l’analyse détaillée de phrases isolées à des approches plus globales d’un texte dans son ensemble. L’approche dominante en TALN a suivi la tradition linguistique en prenant la phrase comme unité fondamentale d’analyse et de traitement. L’analyse syntaxique de la phrase (en utilisant grammaires formelles et automates) a été le plus souvent considérée comme un préliminaire indispensable à l’interprétation sémantique (voir par exemple Winograd 83 ; Sabah 90 ; Abeillé & Blache 97). Les efforts ultérieurs pour traiter des textes dans leur ensemble se sont heurtés à la somme d’efforts nécessaires dans cette approche pour l’analyse des phrases puis leur intégration en un ensemble cohérent. Dans le même temps se développait une direction de travail relativement indépendante du TALN syntaxique, mais davantage liée aux statistiques et à la recherche documentaire. Elle partait plutôt des nécessités de la classification et recherche de documents (Salton & McGill 83) (Salton & Buckley 94) (Leloup 97), mais aussi de motivations plus générales (Lebart & Salem 94) (Yang 98). D’autre part le renouveau actuel des méthodes de traitement de corpus (T.A.L. 95) (Habert et al. 97) favorise les méthodes numériques. Cette direction numérique est plus proche des mathématiques, et en particulier des probabilités. Plutôt que de construire des structures syntaxiques, on cherche à calculer les probabilités de cooccurrences entre mots ou expressions. Mais on utilise aussi souvent le "modèle vectoriel". C’est ce modèle que nous allons présenter ici, tout en essayant ensuite de le replacer dans le cadre plus large du TALN et de la linguistique. On peut appliquer des modèles numériques à l’analyse de phrases individuelles (Charniak 93) (Manning & Schütze 99). Ainsi les grammaires probabilistes et les modèles de Markov reprennent les notions de grammaires formelles et d’automates, en y rajoutant des probabilités de transition associées aux règles ou aux graphes des automates. Ces modèles sont tout à fait efficaces (notamment en reconnaissance de parole), mais nous ne les détaillerons pas ici. Nous parlerons uniquement de modèles numériques s’appliquant à l’ensemble d’un texte choisi. Dans l’approche vectorielle en effet, on traite non pas des phrases, mais des textes ou des documents dans leur ensemble, en passant par une représentation numérique très différente d’une analyse structurale, mais permettant des traitements globaux rapides et efficaces. L’idée de base consiste à représenter un texte par un vecteur dans un espace approprié, puis à lui appliquer toute une gamme de traitements vectoriels. Pour donner un exemple, une application typique consiste à représenter des documents par des vecteurs calculés à partir des mots les plus significatifs présents dans chaque document. Ces vecteurs sont ensuite regroupés par similarité de manière à classer ensemble les documents traitant des thèmes similaires. Cette classification peut alors servir à l’indexation et à la recherche des documents, mais aussi à l’extraction d’informations plus élaborées. Les notions de vecteur et d’espace vectoriel sont donc fondamentales dans ces méthodes, et nous allons d’abord les préciser. Puis nous passerons aux processus de traitement, et en particulier aux techniques de classification, avant de décrire les grands types d’application. Enfin nous tenterons de discuter et d’évaluer la pertinence de cette approche.

Traitement Vectoriel

mai 12 2006

IEML : Métalangage de l’économie de l’information

finalités et structure

Par Pierre Lévy
Prof. à l’Université d’Ottawa (dept Communications)
Chaire de Recherche du Canada en Intelligence Collective
Membre de l’Académie des Sciences (Société Royale) du Canada

I Introduction

ieml (Information Economy Meta Language) est une langue artificielle conçue pour être simultanément manipulable de manière optimale par les ordinateurs et capable d’exprimer les nuances sémantiques et pragmatiques des langues naturelles. Sa conception a répondu à trois problèmes interdépendants : celui de l’adressage sémantique des données du cyberespace, celui de la coordination des recherches en sciences de l’homme et de la société, et enfin celui de la gouvernance distribuée de l’intelligence collective au service du développement humain. L’adressage sémantique du flot océanique des documents numériques et la coordination des sciences sociales ne prennent d’ailleurs tout leur sens qu’en fonction de l’objectif ultime d’ieml, qui est de contribuer à la gouvernance bien informée du développement humain. Puisqu’ieml est un métalangage de description de l’économie de l’information, j’exposerai d’abord ce qu’il faut entendre par « économie de l’information », puis ce que signifie dans le cas présent le terme de « métalangage ».

L’économie de l’information

L’économie de l’information est un concept inclusif qui déborde largement le cadre de l’économie monétaire. Il désigne l’écosystème métastable et évolutif des flux de données significatives qui sont produits, entretenus et transformés au sein d’une population humaine. On peut employer le terme d’intelligence collective pour désigner cet objet, à condition de comprendre l’intelligence - non pas comme le contraire de la sottise - mais comme une dynamique auto-entretenue et interdépendante de fonctions cognitives (perception, mémoire, apprentissage, communication, coordination des actions...) à l’échelle d’une communauté. Puisque les informations produites, stockées, échangées et interprétées par les sociétés humaines sont de plus en plus codées sous forme numérique et que leur circulation tend à converger dans le même réseau interconnecté, il devient possible d’observer l’économie de l’information de manière beaucoup plus fine et intégrée que cela n’était possible avant l’existence des ordinateurs. Mais une mesure simplement quantitative des flux d’information (ou même de leur valeur monétaire) est évidemment insuffisante pour autoriser une pleine compréhension de l’économie de l’information. La communauté des chercheurs doit donc disposer d’instruments d’observation et d’analyse propres à identifier (1) les qualités sémantiques des données entreposées sur les serveurs et échangées dans les réseaux - ce que les données représentent - ainsi que (2) leur pertinence pragmatique - l’effet et l’usage des données en contexte. ieml veut précisément remplir cette fonction de repérage et d’analyse scientifique de la signification et des effets contextuels de l’information.

Le métalangage Une écriture idéographique de type scientifique

Le mot « métalangage » contenu dans le nom « ieml » condense plusieurs sens. ieml appartient d’abord à la catégorie très générale des systèmes de signes culturels, ou des systèmes de symboles. Il s’agit donc d’une convention - ou d’un artefact - et non d’un objet naturel.

C’est un méta-langage : un langage sur le langage, ou au sujet du langage. Il est spécialement conçu pour indexer et qualifier des données et des phénomènes qui sont déjà de nature symbolique.

Parmi tous les métalangages possibles, il s’agit d’un système de notation scientifique de la signification dont la structure combinatoire autorise une vaste gamme de manipulations automatiques. Bien que ses expressions puissent être prononcées (puisqu’elles sont notées au moyen de caractères alphabétiques), ieml n’est pas une langue naturelle et n’a pas vocation à remplacer ou à simuler les langues naturelles telles que le français, l’anglais, le russe, le mandarin ou l’arabe. C’est une écriture scientifique, ou un système de notation raisonné, élaboré en vue de maximiser les possibilités de calcul par les ordinateurs.

ieml est une écriture idéographique dont chaque symbole représente un concept. Il faut savoir que, pendant la quinzaine d’années que j’ai consacrée à ce projet avant sa publication, j’ai travaillé en manipulant des icônes afin d’être influencé le moins possible par les langues naturelles que je connaissais. Ce n’est qu’au cours des derniers mois de ma recherche que j’ai remplacé les icônes par des lettres de l’alphabet latin afin de faciliter la saisie par le clavier des ordinateurs. ieml est donc - en principe - indépendant des langues naturelles.

Structure combinatoire et articulée

Comme de nombreux autres systèmes de signes, ieml est structuré par plusieurs niveaux d’articulation. Pour bien saisir le système d’articulation d’ieml, il peut être utile de le comparer à celui des langues naturelles. Je vais donc commencer par rappeler l’articulation des langues naturelles avant d’exposer celle d’ieml.

Niveaux d’articulation des langues naturelles

Le premier niveau d’articulation des langues naturelles est le phonème (les phonèmes sont les sons élémentaires des langues). Généralement, les phonèmes n’ont pas de signification en eux-mêmes.

Le deuxième niveau d’articulation est le morphème (racines des mots et marqueurs de cas, de genre, de nombre, etc.). Les morphèmes sont composés de phonèmes. Ils constituent la première unité d’articulation signifiante des langues.

Le troisième niveau d’articulation est celui du mot, composé de morphèmes. Les mots ne sont perceptibles que dans l’écriture. Pour une culture sans écriture, la distinction entre mot et morphème n’aurait pas de sens.

Le quatrième niveau d’articulation est la phrase, composée de mots. La phrase est le premier niveau d’articulation à comporter, outre une signification, une référence. Le mot « arbre » n’est ni vrai ni faux, il ne fait qu’indiquer un concept. Seule la phrase « l’arbre a poussé » se réfère à un événement actuel et possède donc la capacité d’être vraie ou fausse (puissance sémantique) et d’intervenir activement dans un contexte (puissance pragmatique).

Le cinquième niveau d’articulation est le discours, ou le texte, qui est composé de phrases, etc.

Examinons maintenant les niveaux d’articulation successifs d’ieml.

Niveaux d’articulation et structure combinatoire d’ieml

1) Cinq éléments primitifs constituent le premier niveau d’articulation. Il s’agit du virtuel U, de l’actuel A, du signe S, de l’être B et de la chose T, dont les sens seront détaillés et expliqués dans la dernière partie de ce texte. Les cinq éléments sont regroupés en deux ensembles premiers ou pôles : 
- le pôle pragmatique de l’action, qui comprend les éléments virtuel et actuel 
- le pôle sémantique de la représentation, qui comprend les éléments signe, être et chose.

JPG - 127.4 ko

Contrairement au cas des langues naturelles, le premier niveau d’articulation d’ieml est déjà signifiant.

2) Le second niveau d’articulation, celui des événements, est formé de 25 (soit 52 ) couples orientés d’éléments, ou flux d’information entre éléments. Contrairement au cas des langues naturelles, toutes les combinaisons deux à deux entre les premières unités d’articulation sont des unités valides et signifiantes du deuxième niveau d’articulation. Comme on le verra plus loin en détail, la signification d’une combinaison d’éléments résulte de la combinaison de la signification de ces éléments. Par exemple, la relation orientée U ? U (virtuel vers virtuel) signifie « réfléchir », la relation orientée U ? A (virtuel vers actuel) signifie « agir », la relation orientée A ? U (actuel vers virtuel) signifie « percevoir », etc. L’explication complète se trouve dans la troisième partie de ce texte.

Alphabet des événements ieml

JPG - 66.5 ko

3) Le troisième niveau d’articulation, celui des relations, est formé de 625 (soit 252) couples orientés d’événements, ou flux d’information entre éléments. Ici encore, toutes les combinaisons sont valides et signifiantes. De plus, comme cela a déjà été signalé, la signification des relations résulte en principe de la signification des événements qui les composent.

4) Le quatrième niveau d’articulation, celui des idées, est formé par des relations simples, ainsi que par des paires orientées ou des triplets ordonnés de relations. Il existe 240 millions d’idées possibles (soit 625 + 6252 + 6253). Un peu plus d’un millier seulement ont été décrites et identifiées au 1er mai 2006. Le chantier de construction, nécessairement collectif, est donc ouvert.

5) Finalement, le cinquième niveau d’articulation, celui des phrases est formé par des idées simples ou par des paires ou encore par des triplets ordonnés d’idées. Il existe un nombre astronomique de phrases possibles, de l’ordre de 1025. Voir ci-dessous un diagramme mettant en évidence la structure d’une phrase ieml, avec l’exemple bo soko, qui signifie en ieml « langage de l’intelligence collective ». Dans ce diagramme, les étoiles * marquent les rôles vides au sein d’une structure qui est exactement la même pour toutes les phrases ieml. Chaque phrase remplit plus ou moins cette structure selon sa composition particulière.

JPG - 135.9 ko

En somme, les éléments (1er niveau), événements (2ème niveau), relations (3ème niveau), idées (4ème niveau) et phrases (5ème niveau) d’ieml sont des idéogrammes de cinq niveaux de complexité emboîtés, tous construits de manière régulière et combinatoire.

Afin d’éviter toute confusion avec le niveau particulier des idées, je propose d’appeler les idéogrammes d’ieml : des glyphes. Le mot « glyphe » connote évidemment les hiéroglyphes de l’ancienne écriture égyptienne (qui étaient d’ailleurs de nature mixte, partiellement idéographiques et phonétiques).

En règle générale

- Tous les symboles d’ieml sont composés à partir de symboles d’un niveau d’articulation inférieur, jusqu’aux symboles simples, ou non composés, que sont les éléments. 
- La signification d’une combinaison de symboles résulte de la combinaison des significations des symboles combinés.

Adressage numérique

Chaque glyphe ieml est associé de manière fixe à un ensemble de nombres qui constitue son adresse numérique particulière. L’adresse numérique des glyphes est formée de degrés sur des échelles. Le principe des échelles d’ieml est expliqué plus en détail dans la dernière partie de ce texte, mais il me faut le mentionner dès maintenant afin de justifier la prétention d’ieml à rendre la signification mesurable et les distances sémantiques calculables. Un élément, par exemple, est associé à deux degrés, chacun des deux degrés marquant une position particulière sur une échelle différente. Une phrase est associée à une combinaison de 200 degrés situés sur 200 échelles distinctes distribuées sur 5 niveaux. Chaque échelle représente une dimension d’analyse particulière de la signification du glyphe.

Primitives, glyphes et graphes

JPG - 60.4 ko

Finalement, les glyphes (ou idéogrammes) d’ieml peuvent être assemblés en « textes » de quantité innombrable, appelés graphes. Les graphes d’ieml peuvent prendre trois formes principales, elles-mêmes combinables : les séries (ordres linéaires de glyphes), les arbres (ordres hiérarchiques ou généalogiques de glyphes) et les matrices (ordres cartésiens de glyphes croisant des rangées et des colonnes). Les graphes peuvent servir à décrire ou à indexer des documents et des phénomènes de toutes sortes, à exprimer des idées, des théories, des classifications, etc.

Propriétés dynamiques

La cohérence systématique d’ieml, son adressage numérique et son support informatique en font une écriture dynamique aux propriétés remarquables. Les graphes ieml pourront notamment servir de « briques » élémentaires pour la modélisation et la simulation d’économies de l’information aux règles variées.

- A partir de la sélection et de la combinaison de critères simples, il est facile de générer et de réordonner automatiquement des graphes complexes.

- Des « distances sémantiques » entre des graphes peuvent être calculées automatiquement à partir de leur adresse numérique selon une large palette de critères et une quantité indéfinie de points de vue.

- Chaque graphe ou ensemble de graphes peut jouer alternativement trois rôles distincts.

1) Un graphe ieml peut d’abord jouer le rôle d’objet à analyser, de texte à lire et à interpréter.  ?2) Ensuite, un graphe ieml peut jouer le rôle de grille de lecture, d’outil d’interprétation ou d’analyse. En d’autres termes, un graphe ieml est capable d’afficher des données sur d’autres graphes selon la perspective cognitive qu’il représente. Le fait capital que chaque graphe puisse se poser comme un centre de référence et de contrôle de l’espace sémantique reflète un des principes fondateurs de ce métalangage : à un même niveau de composition, aucun concept n’est plus important qu’un autre et tous peuvent être considérés comme des centres virtuels. ?3) Un graphe ieml peut encore jouer le rôle d’instrument de composition d’autres graphes. Les matrices peuvent servir de claviers. Les listes ordonnées et les arbres peuvent servir de dictionnaires ou de classifications permettant de sélectionner judicieusement des concepts.

Des premières intuitions à ieml.org

Dès la fin des années 70 du XX° siècle, je pressentais que les ordinateurs deviendraient le support de technologies intellectuelles qui allaient profondément transformer et augmenter nos manières de penser et de communiquer. Ma formation initiale est en philosophie, en histoire et plus généralement en sciences humaines, que j’ai étudiées à Paris entre 1975 et 1985. J’ai subi particulièrement l’influence des écoles historique et anthropologique française et j’ai certainement été marqué par l’effervescence philosophique qui régnait à Paris au tournant des années 70 et 80 du XX° siècle. Cela ne m’a pas empêché de m’abreuver aussi à d’autres sources (positivistes, analytiques, anglo-saxonnes, orientales...). Parallèlement, je me suis intéressé aux débuts de l’informatique et de l’intelligence artificielle ainsi qu’aux rapports entre théorie de l’information, sciences cognitives et biologie. J’ai dépouillé les conférences Macy, lu les travaux de Turing, Shannon, Wiener, Von Neuman, McCulloch et Von Foerster. J’ai suivi à la trace les pionniers de l’intelligence augmentée que furent Douglas Engelbart, Joseph Licklidder ou Theodore Nelson. J’ai observé avec passion la naissance de l’informatique personnelle et de l’Internet. En 1990, soit trois ans avant que le Web ne devienne chose publique grâce au génie de Tim Berners Lee, je publiais un livre, Les Technologies de l’intelligence, qui analysait la signification philosophique et culturelle de la convergence des réseaux d’ordinateurs avec les réseaux hypertextuels. Mon travail sur l’hypothèse d’une Idéographie Dynamique (ouvrage publié en 1991) et l’invention avec Michel Authier d’un système informatisé de visualisation des dynamiques collectives de savoir (les Arbres de connaissances, 1992) manifestaient déjà certaines des intuitions fondamentales qui allaient mener à la conception d’ieml. Dès la fin des années 80 je pensais que, pour exploiter pleinement les possibilités inédites de manipulation de symboles ouvertes par le cyberespace, nous avions besoin d’une technologie intellectuelle qui relie hypertextuellement tous les concepts possibles dans un réseau calculable... mais sans accorder de privilège particulier à aucun d’entre eux. En d’autres termes, il fallait étendre la forme « P2P » (dont on ne parlait pas encore à l’époque, mais qui était implicite dans la structure de l’Internet et des hypertextes) aux relations entre les concepts. Afin de respecter cette neutralité et cette « égalité des droits » conceptuelle, le moteur génératif du nouvel instrument de pensée à support numérique ne pouvait être que l’analyse logique de la signification elle-même. De la sorte, aucun concept ne pourrait être exclu ou marginalisé. La lecture d’un article de François Rastier m’a mis alors sur la voie de la triade sémiotique (signe S, être B , chose T) comme fondement possible du métalangage à venir. Mes travaux ultérieurs sur l’intelligence collective (1994) et le virtuel (1995) m’ont permis de raffiner mes premières hypothèses et de complexifier la triade sémiotique par la dyade pragmatique (virtuel U, actuel A). Mais ce n’est que grâce à l’obtention d’une Chaire de Recherche du Canada à l’Université d’Ottawa que j’ai pu me consacrer à temps plein, entre 2002 et 2006, aux plans détaillés et à la fondation d’ieml.

Le site http://www.ieml.org publiera les différentes versions augmentées et successives du métalangage. Il proposera également de télécharger les logiciels à source ouverte qui l’instrumentalisent et publiera des comptes rendus et des études scientifiques de son utilisation. Avec le temps, une communauté de développeurs et d’utilisateurs pourra s’organiser et se doter des moyens de collaboration adéquats (wikis, partage de données P2P en temps réel...).

Mais au moment où s’inaugure ce site, en mai 2006, seul existe le noyau du langage ieml. Son dictionnaire permet certes déjà de décrire une vaste gamme d’idées et de phénomènes, mais il est limité à quelques centaines d’unités lexicales. Les outils d’édition et d’indexation automatique qui permettent de l’utiliser sont à l’état de prototypes ou de projets. En 2006, ieml n’est donc encore qu’un programme de recherche scientifique. Sa croissance et ses succès futurs dépendent de l’engagement et de la collaboration d’un grand nombre de partenaires : laboratoires de recherche publics et privés, gouvernements, agences internationales, entreprises et communautés utilisatrices.

Je vais maintenant développer les raisons qui m’ont poussé à la conception d’ieml, puis décrire plus en détail dans la troisième partie de ce texte la structure fondamentale esquissée dans l’introduction.

téléchargez le texte complet

Exibições: 146

© 2017   Criado por Augusto de Franco.   Ativado por

Badges  |  Relatar um incidente  |  Termos de serviço