 |
Selon
les psychologues, nous utilisons des stratégies visuelles. Les chercheurs
du Laboratoire de statistique et probabilités1
et du Centre de mathématiques et de leurs applications2
s’intéressent à la vision artificielle et à sa modélisation. Les points
de fixation du regard sur une image dépendraient de la tâche à accomplir
et du contenu de l'image. Ils ne seraient pas les mêmes quand nous souhaitons
par exemple être capables de mémoriser une scène, de vérifier si un objet
donné figure dans une image ou de lire un texte. Tout se passe comme si
nous interrogions l'image, par fixations successives, par saccades. Et
la durée des saccades (entre un dixième et une demi seconde), ainsi que
le pointage de l'il, seraient optimisés en fonction du but à atteindre.
Nos stratégies visuelles
intriguent les chercheurs en vision artificielle. Ils ont bien du mal
à se rapprocher des performances humaines en reconnaissance de formes
avec des rétines artificielles dont les qualités optiques sont pourtant
au moins aussi bonnes que celles d'un il.
Considérons le jeu
des 20 questions ou jeu des personnages célèbres. Alice choisit un personnage
célèbre. Bob doit deviner de quel personnage il s'agit en posant des questions
comme «Est-ce un tel ?» ou encore «Est-il vivant ?». Auxquelles Alice
répond sans mentir par «oui» ou par «non». Si Bob trouve en moins de 20
questions, il gagne. Il perd dans le cas contraire. Le problème mathématique
sous-jacent est de déterminer la stratégie optimale pour Bob, c'est-à-dire,
quelles questions poser, et dans quel ordre, pour gagner en posant un
minimum de questions.
Le nombre moyen de
questions que doit poser Bob est toujours au moins égal à une quantité
fondamentale que l'on nomme l'entropie du choix d'Alice. C'est
une mesure de l'incertitude dans laquelle est Bob ou encore de la quantité
d'informations contenues dans le choix d'Alice.
Si, au lieu d'un personnage,
Alice choisit un nombre entier compris entre 1 et 16 et que tous les nombres
sont équiprobables, alors en moyenne 4 questions3
seront nécessaires à Bob, c'est la valeur de l'entropie. C'est aussi une
valeur suffisante pour Bob. En effet, il peut procéder de la manière suivante
: la première question est «inférieur ou égal à 4 ?». Si Alice répond
oui, alors Bob demande «inférieur ou égal à 2 ?». Si la réponse est «non»,
alors Bob demande «inférieur ou égal à 6 ?», et ainsi de suite. Si maintenant,
Alice a des nombres préférés, et que Bob le sait, alors il peut espérer
être plus rapide en moyenne, l'entropie est plus faible. La stratégie
optimale pour Bob est connue sous le nom de code d'Hoffman. Le
nombre moyen de questions ne dépasse l'entropie que d'au plus une question.
Et si les réponses d'Alice n'étaient plus uniquement «oui» ou «non» mais,
«oui avec probabilité 3/5», «non avec probabilité 2/3»..., le pro-blème
est plus compliqué. Il existe beaucoup de variantes, il faut définir précisément
le modèle probabiliste sous-jacent mais dans tous les cas, il est naturel
de s'intéresser à une stratégie simple pour Bob, la stratégie dite
à 1 coup : à chaque instant, choisir la question qui réduit le plus,
en moyenne, l'incertitude sur le choix d'Alice. Cette stratégie coïncide
avec la stratégie optimale dans certains cas et en particulier dans l'exemple
très simple présenté ci-dessus.
De manière surprenante,
il existe des situations simples où cette stratégie est mise en défaut.
En voici un exemple en vision artificielle. Soit une image numérique en
niveaux de gris qui contient ou ne contient pas un visage. Une fois sur
1 000, elle en contient un, et 999 fois sur 1 000, elle n'en contient
pas. Nous disposons de deux types de questions. Poser une question consiste
à calculer une fonction, à valeur binaire (0 ou 1), des niveaux de gris
de l'image. Le premier type, type A, prend la valeur 1, chaque fois qu'il
y a un visage, mais une fois sur deux quand il n'y en a pas. Le second
type de question, le type B, prend la valeur 1, chaque fois qu'il n'y
a pas de visage, mais une fois sur deux quand il y en a un. Il y a autant
de questions que nécessaire de type A et de type B. Imaginons un instant
que nous ayons à jouer à ce jeu de nombreuses fois, il est clair que la
première question doit être de type A, afin de ne pas laisser passer un
visage les rares fois où il y en a un. Nous pouvons montrer que c'est
effectivement la meilleure chose à faire même dans le cas où l'on ne joue
qu'une seule fois. En revanche, la stratégie à 1 coup consiste à choisir
pour première question une question de type B. En effet, 9 995 fois sur
10 000, celle-ci permet de diviser par 2 la probabilité que l'image contienne
un visage.
En vision artificielle,
les résultats obtenus par l'étude des jeux de Bob et Alice ont permis
d'accélérer des algorithmes. Par exemple, pour extraire les routes dans
les images de la Terre acquises par un satellite de télédétection ou encore
pour localiser des visages dans des images.
Références
:
•
Model-Based Classification Trees. Donald Geman4,
Bruno Jedynak. À paraître dans IEEE Transactions on Information Theory.
•
An Active Testing Model for Tracking Roads in Satellite Images. Donald
Geman, Bruno Jedynak. IEEE Transactions on Pattern Analysis and Machine
Intelligence. Janvier 1996.
•
Efficient Focusing and Face Detection. Yali Amit, Donald Geman
et Bruno Jedynak. Face recognition : from theory to applications, ed.
H. Wechsler et al. NATO Asi Series F. Springer Verlag, Berlin, 1997.
Pour
en savoir plus :
Consulter le site à l’adresse suivante :
http://www.inria.fr/multimedia/Videotheque-fra.html
(taper jedynak).
1
CNRS-Université Lille 1.
2
CNRS-ENS Cachan.
3
= log 216 ou logarithme en base 2 de 16.
4
Donald Geman est chercheur associé au Centre de mathéma-tiques et de leurs
applications (CMLA) de l’ENS de Cachan (geman@cmla.ens-cachan.fr).
|