La Réalité augmentée, comment ça marche?

Notions de base :

La réalité augmentée est la superposition du virtuel au réel. Les scènes réelles sont capturées par une caméra et elles sont mélangées à des images virtuelles.
Elle offre la possibilité d’être immergé dans un environnement virtuel avec des perceptions aussi bien tactiles, auditives et pourquoi pas olfactives. ET bien sûr en temps réel.

La technique :

La première difficulté pour faire de la Réalité Augmentée est de localiser le réel dans le virtuel avec le même point de vue.

–       Le plus simple est de placer dans la scène réelle des marqueurs qui permettent de calculer les coordonnées 3D à partir de 3 points spécifiques reconnus par le système.  Cette technologie peut être utilisé avec une simple webcam ou un téléphone portable. Le marqueur est une forme relativement simple.

–       Le deuxième niveau est une combinaison entre le marqueur et de la géolocalisation. Cette méthode est de plus en plus fréquente, par exemple l’application MétroParis permettant de localiser et guider vers la station de métro la proche. De telles applications ajoutent des informations supplémentaires sur la scène filmée par la caméra en fonction de la position déterminée par le GPS et la direction calculée par le gyroscope d’un appareil mobile.

–       Pour finir les programmes de RA reconnaissent des formes, des lieux ou des visages. A ce stade nous parlons de vision augmentée permettant de se déplacer dans un environnement réel sans ajouter de marqueur.

Photo : University of Washington

La deuxième difficulté est l’affichage. Pour ce qui est des smartphones ou les ordinateurs aucun problème, ils sont équipés d’écran. Mais pour des applications plus techniques, comme la formation, le post-développement, la maintenance ou la téléassistance, l’utilisateur doit disposer d’un cube immersif, un casque ou des lunettes équipées de caméra. Les deux premières solutions sont très lourdes à mettre en œuvre. Actuellement de nombreuses sociétés commencent à proposer des équipements relativement légers et discrets. Le summum est l’utilisation de lentilles de contact équipées de nanotechnologies devraient permettre d’afficher les images directement devant les yeux, se superposant à l’environnement réel.

Mise à jour le 18/10/2010

Site Web | Plus de publications

J’ai une formation technique et je suis passionné par les nouvelles technologies et tout ce qui s’en approche.

Aujourd’hui je participe,à l’animation du blog http://augmented-reality.fr. En 2011, nous avons créé avec Gregory Maubon, l’association de promotion de la réalité augmentée RA’pro dont je suis le président. Dans le cadre des activités de RA’pro, je co-organise les ARuseCamp (http://ARuseCamp.org) et j'interviens pour des conférences, des ateliers ou du conseil et de l'accompagnement.

Vous pouvez me joindre à cette adresse olivier@augmented-reality.fr ou via skype olivier.schimpf

Linkedin ; http://www.linkedin.com/profil.....rk=tab_pro

3 comments for “La Réalité augmentée, comment ça marche?

  1. Salut,

    La réalité augmentée est la superposition du virtuel au réel.

    Ce n’est pas aussi simple que cela. Tu ne peux pas réduire la RA à ces 3 mots (superposition, virtuel et réel) alors que de nombreux chercheurs émérites s’évertuent à essayer de lui trouver une vraie définition. Bien qu’incomplète, la RA est un ensemble de techniques permettant d’associer des éléments du monde physique avec des éléments du monde numérique dont le degré d’association est définit par le lien sémantique entre entités réelles et entités virtuelles.

    Les scènes réelles sont capturées pour une caméra et elles sont mélangées à des images virtuelles.

    En terme de RA, on aime pas trop le terme « mélanger », question d’égo peut être. C’est peut être bon pour la peinture et la cuisine mais ici, c’est une association choisie, déterminée et réfléchie, ce n’est pas un simple « mélange » 🙂

    Elle offre la possibilité d’être immergé dans un environnement virtuel avec des perceptions aussi bien tactiles, auditives et pourquoi pas olfactives.

    Je ne suis pas trop calé en immersion mais elle est créée au travers d’interfaces sensori-motrices : des dispositifs technologiques ce qui est évidement très différent du concept de Présence (le sentiment d’être là) à ne pas confondre avec l’immersion. Et c’est justement là l’intérêt de la RA : de proposer des interfaces peu immersives permettant à l’individu de ne pas être présent dans un monde virtuel à la différence de la réalité virtuelle, mais d’être toujours présent dans « sa réalité » afin de faciliter la tâche qu’il doit accomplir. Donc au contraire, la RA limite l’immersion tout en favorisant la présence. En revanche, et c’est bien de le dire, que la RA englobe aussi les interfaces tactiles, auditives et olfactives et d’autres encore.

    ET bien sûr en temps réel.

    Il est vrai qu’Azuma [1], en 1997, à définit la RA comme ceci :

    1) Combines real and virtual (combiner des objets réels et virtuels dans un environnement réel)
    2) Interactive in real time (être temps-réel et interactifs)
    3) Registered in 3-D (recaler (aligner) les objets réels et virtuels)

    Cependant, le troisième point n’a pas nécessairement besoin d’être respecté pour être en présence d’un système de réalité augmentée. Les propriétés 1) et 3) pourraient être reformulées en termes d’associations entre le réel et le virtuel. Ceci dit, cette définition à quand même 13 ans… Ceci fait dire à J-Y Didier [2] que la définition de Fuchs et Moreau [3] (quelques années de moins) semble la plus équilibrée (que je crois avoir déjà cité quelque part).

    La technique : La première difficulté pour faire de la Réalité Augmentée est de localiser le réel dans le virtuel avec le même point de vue.

    Autrement dit, de calculer la pose (3 paramètres d’orientation, 3 paramètres de position) de la caméra réelle pour la faire « coïncider » avec la caméra virtuelle (celle qui est utilisée pour le point de vue du rendu 3D).

    Le plus simple est de placer dans la scène réelle des marqueurs qui permettent de calculer les coordonnées 3D à partir de 3 points spécifiques reconnus par le système. Cette technologie peut être utilisé avec une simple webcam ou un téléphone portable. Le marqueur est une forme relativement simple.

    Ce n’est pas forcément le plus simple mais le plus utilisé pour les applications de RA en intérieur car cette technique nécessite un environnement préparé, donc une connaissance à priori de l’environnement dans lequel l’utilisateur va évoluer.

    Le deuxième niveau est une combinaison entre le marqueur et de la géolocalisation. Cette méthode est de plus en plus fréquente, par exemple l’application MétroParis permettant de localiser et guider vers la station de métro la proche.

    L’application MétroParis ne se base pas du tout sur le concept des marqueurs (comme ARToolKit avec des marqueurs carrés, mais il existe aussi des marqueurs circulaires par exemple), car l’environnement n’est pas du tout préparé (il n’y a pas de marqueur sur les trains et sur les entrées de métro et sur….) c’est impossible de tout « marquer » ! Cette application fonctionne simplement depuis que l’iPhone dispose d’une boussole (autrement dit, d’un magnétomètre). En effet, c’est une combinaison du récepteur GPS (qui donne la position), de l’accéléromètre (qui donne une composante de l’orientation) et du magnétomètre (qui donne une autre composante de l’orientation) et du gyroscope (encore une autre composante) qui permet de calculer la pose de la caméra et donc, de recaler les informations numériques. C’est pour ces mêmes raisons que la WiiMote c’est vue équipée d’un WiiMotionPlus qui n’est rien d’autre qu’un gyroscope 2 axes qui s’ajoute aux accéléromètres déjà disponibles dans la WiiMote.

    De telles ajoutent des informations supplémentaires sur scène filmée par la caméra en fonction de la position déterminée par le GPS et la direction calculée par le gyroscope d’un appareil mobile.

    Pour finir les programmes de RA reconnaissent des formes, des lieux ou des visages. A ce stade nous parlons de vision augmentée permettant de se déplacer dans un environnement réel sans ajouter de marqueur.

    Les systèmes précédemment cités étaient déjà des systèmes de vision augmentée (bien que je ne sois pas d’accord avec cette appellation).

    La deuxième difficulté est l’affichage. Pour ce qui est des smartphones ou les ordinateurs aucun problème, ils sont équipés d’écran.

    Aucun problème ? Il existe trois principaux modes d’affichage de la RA et je fais parti de ceux qui pense que le premier est quand même de la RA (jeunesse oblige) alors que certains chercheurs en doute encore. Le premier mode, le plus dégradé est le mode dit en vision « indirect ». C’est le fait d’afficher l’association des informations numériques et physiques sur un écran fixe déporté de la vision de l’utilisateur. Le point de vue proposé par cet écran dépend de l’orientation et de la position de la caméra qui lui fournit les informations physiques. Le deuxième mode est la vision « indirecte » dont l’écran est mobile (téléphone portable, tabletPC, …). Le point de vue proposé par cet écran dépend de l’orientation et de la position du dispositif d’affichage lui-même.

    Il n’y a pas « aucun problèmes » pour ces applications. Percevoir le monde au travers d’un écran de téléphone est-il naturel ? De plus, l’utilisateur demande à son oeil une auto-collimation qui n’est pas naturelle (adaptation de l’oeil à la vision de choses proches (écran du téléphone) ou lointaines (monde physique)) ce qui implique une fatigue visuelle importante. Il existe aussi un coût cognitif d’utilisation de ces application car l’individu doit faire un mapping entre ce qu’il voit grâce à l’écran et ce qui « existe » vraiment. Ce n’est qu’un petit exemple des problèmes rencontrés dans ce genre d’applications.

    Le troisième mode est le mode d’affichage en vision « directe ». Le plus souvent, l’utilisateur perçoit le monde physique au travers d’un écran transparent apposé devant son oeil (ou les deux yeux) sur lequel sont projetés les informations numériques grâce à un picoprojecteur. D’autres systèmes permettent aussi de projeter les informations numériques directement sur la rétine de l’utilisateur, mais sont encore en développement (de même que les lentilles de contact). Et dans ce cas, un des problèmes les plus important et la latence d’affichage des informations car l’oeil est capable de déceler un décalage temporel vraiment très faible. Pour contrer cela, certaines équipes on décider de combiner le mode deux et trois, c’est à dire de concevoir des lunettes non pas avec des écrans transparent mais avec des écrans classiques. Une caméra est posée juste derrière cet écran (ces écrans en cas de vision stéréo-scopique) pour récupérer le point de vue de l’utilisateur. Le flux vidéo est ensuite « augmenté » puis proposé dans l’écran(s) ce qui permet de « contrôler » la latence puisque le concepteur peut « retarder » l’affichage du flux vidéo en fonction de la latence provoqué par la collecte, génération et l’affichage des informations numériques.


    Mais pour des applications plus techniques, comme la formation, le post-développement, la maintenance ou la téléassistance, l’utilisateur doit disposer d’un cube immersif, un casque ou des lunettes équipées de caméra.

    Le « cube immersif », un CAVE, n’est pas de la RA mais bien de la RV puisqu’on parle d’immersion (voir plus haut, la RA n’est pas immersive bien qu’elle permette à l’individu d’être présent dans ce monde mixte).

    [1] R. Azuma. A Survey of Augmented Reality. Presence: Teleoperators and Virtual Environments, pages 355–385, August 1997.
    [2] J.-Y. Didier. Contribution à la dextérité d’un système de réalité augmentée mobile appliqué à la maintenance industrielle. PhD thesis, Université d’Evry, Décembre 2005.
    [3] P. Fuchs and G. Moreau. Le Traité de la Réalité Virtuelle, 2001, 2003, 2006, 2009. Presse de l’Ecole des Mines de Paris, Troisième Edition. Mars 2001.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *