Le dernier iPhone et Siri, son assistant personnel à commande vocale, la Kinect de Microsoft pilotable à la voix et au geste... L’intelligence artificielle n’est plus tout à fait de la science-fiction. Et le marketing n'est pas loin.

«Appelle Sandra… Envoie un e-mail à Florence… Quel temps fera-t-il demain?… Programme une réunion à 9 heures… Quel est le cours de Bourse d'Apple?… Trouve la définition de la notion du rire chez Aristote sur le Web…» Un assistant personnel à commande vocale qui obéit au doigt et à l'œil, et surtout à la voix: c'est Siri, qui permet à l'utilisateur de «dialoguer» avec l'iPhone dernière génération en langage naturel – autrement dit par phrases entières – pour lui demander d'effectuer toutes sortes de tâches.

Pour cela, il s'interface avec les services ou applications du smartphone, effectue des recherches dans des bases de données ou sur Internet via le moteur de recherche Google. Depuis le lancement de l'Iphone 4S en octobre dernier, Siri en est le principal argument de vente, à longueur de campagnes publicitaires. Pour les fêtes de fin d'année, Apple montrait carrément le Père Noël en train d'utiliser Siri pour géolocaliser ses lieux de livraison.

Apple n'est pas seul sur ce créneau et d'autres systèmes de ce type sortent de l'ombre qui pourraient eux aussi bouleverser nos usages en hautes technologies. Après la révolution du tactile et du pilotage par la gestuelle, voici celle de la commande d'appareils par la voix. Certes, Android, le système d'exploitation mobile de Google, propose depuis belle lurette la reconnaissance vocale pour dicter des messages ou lancer une recherche, tout comme Windows Phone. Et l'application Vlingo pour Android permet, elle aussi, de lancer des tâches oralement, comme ouvrir des applications, ajouter des amis sur Facebook et dicter des messages.

Mais Siri, bien qu'encore aléatoire (il est en version test en France), va déjà plus loin. Il mémorise les questions et les centres d'intérêt… au fur et à mesure des requêtes de l'utilisateur. «C'est là la véritable innovation de rupture de Siri: en plus de la commande vocale, il dispose d'un système d'interaction. Et il reconnaît notre voix, nos intonations», souligne David Bianic, rédacteur en chef de Geek le mag.

Il s'agit en somme des prémices d'interfaces dotées d'intelligence artificielle – capacités intellectuelles comparables à celles des êtres humains, telles que la mémorisation, l'apprentissage, et la capacité à imiter certains comportements humains – dont nombre de doux dingues fans de science-fiction rêvaient depuis longtemps (lire l'encadré). Sans compter que, quand Apple s'empare d'une innovation technologique, il a l'art et la manière de la rendre «désirable» auprès du grand public.

Un autre mastodonte de l'univers high-tech veut rendre la commande vocale désirable: Microsoft, avec sa console Kinect. Lors de son lancement en novembre 2010, le géant américain a «vendu» une nouvelle façon d'interagir avec la machine par le mouvement du corps, sans manette. Depuis le 7 décembre dernier, une mise à jour de la Kinect permet de piloter la console de jeux Xbox 360... par la voix. En prononçant les mots-clés, on peut naviguer dans les services de musique et de vidéo (Zune), demander une avance ou marche arrière dans un film, effectuer une recherche via Bing, commander un film ou un jeu vidéo précis – à condition que leurs titres soient simples.

Depuis Siri, on attend désormais plus d'une interface vocale, même si certains jeux (comme Kinect Sports 2) intègrent déjà des commandes vocales basiques. De là à discuter un jour avec des personnages dans un jeu vidéo…

Siri et la Kinect annoncent ce qui entrera peut-être dans les usages de demain. La technologie de reconnaissance vocale étant désormais opérationnelle, tout semble prêt pour sa démocratisation, à commencer par le «cloud computing» (stockage de données sur des serveurs distants) offrant une puissance de calcul suffisante et la 3G (bientôt la 4G), garante d'une connexion permanente pour les smartphones, tablettes et autres objets nomades.

D'autres constructeurs ou start-up s'apprêtent à se lancer dans la bataille avec des systèmes similaires, concurrents à Siri. Selon le site Forbes.com, Google travaillerait sur un service «Siri-like» (similaire à Siri), sous le nom de code «Majel». Les geeks apprécieront la référence à Majel Barrett, la voix de l'ordinateur de la Fédération dans la série Star Trek... Contacté par Stratégies, Google France n'a pas souhaité commenter cette information.

Majel serait une évolution des actions vocales de Google Voice, et comprendrait le langage naturel. Il disposerait d'une diction humaine et fluide conçue par Phonetics Arts acquis par Google en 2010. Et permettrait donc de lancer des tâches (appels, géolocalisation...) sur Android par des commandes en langage naturel.

L'éditeur de logiciels de reconnaissance vocale Nuance plante lui-même ses banderilles. Il a lancé en juillet 2011, aux Etats-Unis, Dragon Go, une application pour Iphone dotée elle aussi d'une technologie de recherche en langage naturel. Si elle ne va pas chercher des services natifs dans l'Iphone (impossible de lui demander d'émettre un appel par exemple), elle permet en revanche d'accéder à une série de services extérieurs via Internet, et par géolocalisation. Le 20 décembre dernier, Nuance est passé à la vitesse supérieure avec l'acquisition de Vlingo, disponible sur Android. L'éditeur compte bien en faire le concurrent de Siri, quitte à renoncer à lancer Dragon Go en Europe.

En France, la start-up Telisma avait déjà développé une technologie de reconnaissance vocale, TeliSpeech, adoptée en 2007 par Violet pour le lapin Nabaztag. Las, «alors qu'elle avait essaimé dans les laboratoires France Télécom, Telisma a été rachetée en 2008 par une société indienne, On Mobile», regrette Jean-Michel Planche, un ancien de France Télécom qui a fondé depuis la société Witbe. Reste à voir ce que va faire On Mobile de ce trésor de guere.

En revanche, la start-up française Xbrainsoft (groupe Uselink) a développé un SDK (Software Developer Kit, outils de développement) pour Iphone, Android et Windows Phone, qui sera commercialisé courant 2012.

Tout cela ne restera sans doute pas longtemps réservé aux «geeks». «Les développeurs – et les marques – pourront créer eux-mêmes des services Internet intelligents, avec une commande vocale. On peut tout à fait imaginer qu'une marque sponsorise un agent conversationnel, par exemple une marque de bière qui voudrait recommander des lieux de sortie», prédit Grégory Renard, cofondateur de X-Brainsoft.

C'est en effet là l'enjeu: comment les marques vont-elles s'emparer de ces innovations? Chez Microsoft, «on a rendu le SDK de la Kinect disponible pour des applications non-commerciales. Mais il sera aussi proposé aux entreprises et aux marques à partir de début 2012», précise David Faure, directeur marketing Xbox chez Microsoft France.

Outre-Atlantique, Apple a noué des partenariats, comme «avec Yelp [un site de recommandations], dont les restaurants figurent au catalogue et sont référencés dans les services liés aux points d'intérêt», précise Alexandre Lenoir, rédacteur en chef de I Create. Nuance, pour sa part, a intégré des marques et des fournisseurs de services à son application Dragon Go, autour de Yelp, Amazon ou Pandora.

La commande vocale ou gestuelle peut s'appliquer à de nombreux domaines: la voiture, la domotique, le secteur médical... «Ces technologies, très ludiques, vont s'étendre à des usages universels, comme en domotique», estime David Bianic, de Geek le mag. Dans un spot TV événementiel diffusé en novembre dernier, Microsoft mettait ainsi en scène les possibles usages futurs de la Kinect: pour un chef d'orchestre, un chirurgien... «Et vous, qu'allez-vous inventer avec?» s'interrogeait la marque en guise de conclusion.

Dans un premier temps, cette technologie est en tout cas l'occasion rêvée pour les marques technologiques – un des rares secteurs dont l'activité est en croissance constante – de conquérir de nouveaux publics. «C'est grâce à la Kinect et sa commande gestuelle que Microsoft a conquis des acheteurs qui n'étaient pas adeptes des jeux vidéos», rappelle Stéphane Hugon, sociologue et chercheur au Centre d'études sur l'actuel et le quotidien (La Sorbonne). «Une illustration parfaite de la théorie de l' “affordance”», où l'objet peut être pris en main de manière intuitive par l'utilisateur novice, sans devoir lire un mode d'emploi.

C'est pour cette raison que Microsoft et Apple ne luttent pas contre les détournements d'usages de Siri et de la Kinect. Ainsi Mercedes Benz utilise-t-il la Kinect pour une démo. Et récemment une vidéo montrait un «hacker» créant un «proxy» (programme intermédiaire) pour détourner les commandes envoyées par Siri sur une autre machine, l'Iphone pouvant ainsi contrôler d'autres objets ou services, comme le thermostat.

Côté automobile, on pourra bientôt régler la température de la climatisation ou choisir la station de radio par la voix. Au printemps 2012, Ford commercialisera ses premières Focus dotées de Dragon Dictation. «Cela permettra de commander par la voix des fonctionnalités de la voiture ou d'effectuer des recherches par points d'intérêt sur notre parcours, tout en conduisant», précise Joël Drakes, responsable avant-ventes chez Nuance communications.

En ligne de mire de cette révolution: la fin des objets intermédiaires. Une séquence du film AI de Steven Spielberg, en 2001, représentait un ordinateur sans clavier ni souris, entièrement piloté par la voix. La future Apple TV, annoncée pour fin 2012, comporterait, elle aussi, Siri. Le constructeur sud-coréen LG prévoit également la commande vocale dans ses prochains téléviseurs. Il devrait dévoiler au Consumers Electronic Show, qui se tient à Las Vegas du 10 au 13 janvier, une nouvelle version de sa télécommande LG Magic Motion dotée d'un micro.

Evidemment, les perspectives sont vertigineuses. Tout autant que les questions éthiques et de protection de la vie privée que soulèvent ces innovations. Prenez Siri, qui va emmagasiner notre mémoire vocale. Chacune de nos requêtes passe par les serveurs d'Apple, qui cherchent la réponse appropriée et l'envoient sur l'Iphone. Mais «cela constituera une base de donnée personnelles qui grandira sur un “cloud”: la base de données ultime», qui pose des questions inédites, souligne David Bianic. Après tout, Siri a déjà été «cracké», en novembre dernier, par la société Applidium.
La Commission nationale informatique et libertés s'est déjà emparée du sujet, via son récent laboratoire de tests de produits. Fin 2011, elle devait adresser un courrier à Apple en ce sens. «Certaines questions restent en suspens, comme le devenir des échantillons de voix récupérés lors des échanges avec le serveur Apple, et le traitement des bases de données», résume Yann Padova, secrétaire général de la Cnil.

 

Encadré

 

Intelligence artificielle et science-fiction

 

De l'intelligence artificielle associée à la reconnaissance vocale aux robots qui obéissent à la voix, il n'y a qu'un pas. Un sujet longtemps fantasmé dans les films de science-fiction. Etrangement, dans la filmographie occidentale, le robot se retourne souvent contre son créateur, l'homme, conformément au mythe du Golem. En témoignent les classiques Mondwest (Michael Crichton, 1973), Planète hurlante (Christian Duguay, 1995), Terminator (James Cameron, 1984), Blade Runner (Ridley Scott, 1982), AI (Steven Spielberg, 2001), I, Robot (Alex Proyas, 2004)... Logique: «Nous avons un rapport judéo-chrétien au robot, qui plus est s'il a une forme humanoïde : seul Dieu peut créer à image de l'homme», souligne le sociologue Stéphane Hugon. Une vision diamétralement opposée à celle de la production asiatique. Hayao Miyazaki, par exemple, représente dans ses dessins animés (comme Princesse Mononoke, 1999) des robots pacifiques. Précisément, les robots androïdes s'y vendent bien mieux qu'en Europe.

Suivez dans Mon Stratégies les thématiques associées.

Vous pouvez sélectionner un tag en cliquant sur le drapeau.