Start-up
Durant son voyage de formation aux États-Unis, le master Medias & Tech Leadership Program de l’IMM a rencontré la start-up Soundhound, entreprise californienne d’interface vocale.

Il est 17 h à San Francisco, et Katie McMahon, directrice générale de Soundhound Inc. accueille toute la délégation du master Medias & Tech Leadership Program de l’IMM Paris. C’est la start-up « star » du voyage. Celle que l’on ne connaît pas mais qu’il faut découvrir. Soundhound n’est pas une énième jeune pousse qui a misé sur le vocal. Sa technologie, cela fait plus de dix ans qu’elle la travaille, bien avant qu’Alexa, Siri ou Google Home n’apprennent à parler. Elle a été fondée par Keyvan Mohajer en 2005, et Katie McMahon a rejoint l’aventure en 2010, après quatre ans passés chez Shazam, le concurrent de l’époque. Car au départ, Soundhound était une application de reconnaissance vocale. Mais aujourd’hui, lors de la démonstration, la quarantaine de Français restent bouche bée devant le spectacle.

Hound, plus fort que Siri

« Hound, quel temps fait-il à Tokyo et Paris quand il est 17 heures ici ? » Et la voix de répondre, à travers le smartphone de Katie McMahon, avec précision, en prenant en compte le décalage horaire. Idem, une deuxième question : « Hound ? Peux-tu me montrer tous les restaurants dans un rayon de moins de 5 kilomètres, ouverts à cette heure-ci, avec une terrasse, et qui ne soient pas un des restaurants chinois ». Et l’application de répondre instantanément, et de proposer une réservation ou un Uber. À l’inverse, quand elle pose la même question à Siri, la voix lui propose de réserver un restaurant chinois… Tout l’inverse de ce qu’on lui demande !

« Derrière l'effet wahou des démonstrations, il y'a beaucoup d’innovations, note Hicham Tahiri, sacré « Alexa Champion » et cofondateur de Smartly.AI une start-up spécialisée dans l'IA conversationnelle. Notamment celle de traiter des requêtes complexes rapidement. » Les « requêtes complexes » sont des questions qui contiennent plusieurs paramètres. Pour cela, la start-up doit se connecter à plusieurs sources de données pour trouver les réponses. « Mais la principale innovation réside dans le fait que le sens est extrait directement de l'audio, alors qu'habituellement on réalise les analyses sémantiques sur le texte issu de la transcription audio », détaille Hicham Tahiri. Cette rapidité d’exécution permet d’assurer une fluidité incroyable. Et c’est elle qui assurera le succès du vocal auprès du grand public.

Parler naturellement à un robot

Mais alors, pourquoi une telle avance ? Et pourquoi les Gafa ne rachètent pas la technologie ? « Je ne pense pas que nous ayons de “recettes secrètes”, s’amuse Katie McMahon. Le fait que Soundhound soit arrivé à développer cette technologie, que d’autres sociétés n’ont pas encore, vient surtout de notre CEO, qui a eu la bonne analyse stratégique très tôt. Il avait compris que les humains devaient parler naturellement à un robot. » Car oui, tout ce que fait Soundhound est déjà en chantier chez les géants du digital. « Mais heureusement pour elle, son positionnement B-to-B indépendant et en marque blanche la met à l'abri de la bataille de géants qui fait actuellement rage sur le grand public », analyse Hicham Tahiri. La start-up permet ainsi à une marque d’avoir sa technologie du nom de sa marque, sans passer par Alexa ou Ok Google. Ce qui est très avantageux pour les industriels, car il permet une personnalisation totale de l'assistant vocal et une intégration profonde ». De s’adresser directement à Mercedes, par exemple… Hound a signé avec bon nombre de fabricants de voiture. Mais la techno a un coût. Comptez 100 000 euros pour un assistant en marque blanche chez Soundhound, contre 20 000 euros pour développer votre produit sur Alexa ou Google Home.

Suivez dans Mon Stratégies les thématiques associées.

Vous pouvez sélectionner un tag en cliquant sur le drapeau.