Les premiers assistants à commandes vocales sont apparus sur les smartphones en 2011. Initialement cantonnée au smartphone, cette application logicielle basée sur la reconnaissance vocale du langage naturel et la restitution d’informations par synthèse vocale, se déploie désormais dans d’autres univers : enceintes connectées, casques audio, habitacle des véhicules, voire d'autres objets de la vie quotidienne, qui voient ainsi leurs possibilités d’interaction renouvelées.
Couplée à de l'intelligence artificielle, cette technologie, déjà ancienne, arrive ainsi à maturité. Les assistants vocaux comprendraient en moyenne 90 % des requêtes qui leur sont adressées. Selon le cabinet spécialisé comScore, la moitié des recherches sur Internet pourraient être vocales d'ici à 2020. Pour être massivement adoptée, la reconnaissance vocale devra néanmoins encore surmonter quelques difficultés.
A en juger par toute une série d’enquêtes et de sondages, la commande vocale serait massivement entrée dans les usages. Julia Velkovska et Moustafa Zouinar, qui mènent depuis 2015 des enquêtes sur les usages réels des assistants vocaux, observent, toutefois. « un véritable fossé entre les discours promotionnels qui vantent les capacités conversationnelles des assistants et la réalité des usages ».
Un Français sur deux utiliserait un assistant vocal, 19 % régulièrement
Selon une enquête réalisée par YouGov, 56 % de la population française déclare posséder un appareil doté d’un assistant vocal : 74 % des 18-35 ans et 45 % des 55 ans et plus.19 % d’entre eux déclarent utiliser régulièrement un assistant vocal : 8 % quotidiennement et 11 % « souvent ».
- 42 % des utilisateurs (réguliers ou occasionnels) feraient ainsi confiance à leur assistant vocal pour faire des recherches sur internet
- 30 % feraient appel à leur assistant vocal pour trouver une adresse ou un itinéraire
- 28 % utiliseraient leur assistant vocal pour envoyer un message ou passer un appel, 17 % pour demander la météo et 16 % pour écouter de la musique
- 57 % des possesseurs d'assistants vocaux se déclareraient satisfaits des réponses apportées par leur assistant vocal et 11 % d’entre eux en sont même très satisfaits.
- 19 % des utilisateurs les sollicitent « souvent », 42 % « occasionnellement », 34 % « plus rarement » encore que rarement.
- Quand ils le font, c’est pour des requêtes simples sur Internet (86 %), des demandes d’information météo (69 %), le pilotage de la musique (58 %), la rédaction d’un message (58 %) ou le réglage d’une alarme (50 %).
- Les actions plus impliquantes (achats, réserver un taxi, domotique) semblent nécessiter encore une phase d’apprentissage et/ou d’équipements complémentaires.
- 51 % des répondants pensent ne pas maîtriser l’information collectée par ces assistants vocaux et près d’un tiers craint d’avoir moins de choix de résultats proposés.
Pour fonctionner, la commande vocale requiert un « véritable travail » de la part des utilisateurs
Deux chercheurs du Laboratoire SENSE (Sociology and Economics of Networks and Services) d’Orange Labs, Julia Velkovska et Moustafa Zouinar, ont entrepris, sur la base d’observations vidéo et d’entretiens, de comprendre « comment les personnes s’approprient ou non ces nouveaux systèmes, la manière dont elles interagissent avec eux, le sens qu'elles donnent à ces pratiques, ou encore la place qu’elles sont prêtes à leur aménager chez eux, dans leur vie de tous les jours ». Ils observent « un véritable fossé entre les discours promotionnels qui vantent les capacités conversationnelles des assistants et la réalité des usages. Dans la pratique il n’est pas aussi simple de leur parler, cela demande souvent un effort de la part des utilisateurs quel que soit le système ».Selon ces deux chercheurs, la reconnaissance vocale n’est pas toujours efficace. « Les utilisateurs doivent parfois répéter leurs énoncés plusieurs fois pour se faire comprendre, ce qui peut les conduire dans certains cas à abandonner l’usage du système. Dans les cas où ils persévèrent, ils s’engagent dans un véritable « travail de l’utilisateur », lié à la gestion de l’interaction et à son sens. Ce travail peut se traduire par une variété d’actions telles que reformuler les énoncés en les raccourcissant ou en les développant pour apporter des précisions, s’approcher de l’objet ou parler plus fort … L’efficacité du travail d’adaptation est variable selon les personnes, selon leurs façons de s’exprimer, selon leurs prononciations, accent, débit de parole, etc. Alors que les assistants vocaux sont destinés à un usage collectif et familial, les membres du foyer ne sont pas tous égaux face au « travail de l’utilisateur » requis pour une interaction réussie ».
Ils observent, par exemple, que « certains jeunes enfants ont beaucoup de mal à se faire comprendre, ce qui crée un sentiment de frustration collective qui touche également les parents et peut conduire à une situation d’exclusion. Mais cela peut également concerner des adultes qui s’expriment par exemple avec un accent particulier. Pour faire face à cette situation, les personnes tentent de s’entraider, par exemple en se donnant des conseils sur la manière de parler à l’assistant ».
Selon Moustafa Zouinar, « de nombreuses questions restent ouvertes, notamment celles de savoir comment les utilisateurs vont se les approprier sur le long terme (est-ce qu’ils vont s’inscrire durablement dans la vie quotidienne des foyers ?), si les assistants vocaux vont transformer (ou pas) les activités domestiques des familles et comment, quels types de relation et d’attachement les utilisateurs vont développer avec eux ».
Des défis qui restent à surmonter
La technologie de reconnaissance vocale sur laquelle s’appuient les assistants à commande vocale n’est pas nouvelle. IBM développait déjà les premiers outils de ce type dans les années 70. Couplée à de l'intelligence artificielle, cette technologie arrive cependant à maturité. Pour être massivement adoptée, la reconnaissance vocale devra néanmoins encore surmonter quelques difficultés, constate l’Usine digitale.Les assistants ne comprennent pas la question ou se trompent dans la réponse apportée : il leur est difficile de distinguer la voix humaine dans un environnement bruyant ou de reconnaître une phrase prononcée avec un accent. Des problèmes surgissent aussi lorsque les utilisateurs emploient un registre spécifique. Les assistants vocaux « comprennent » des phrases types (par exemple, des requêtes autour de la météo) mais rencontrent des difficultés quand on les sollicite avec un vocabulaire spécialisé (vocabulaire métier, noms de marques…).
Les assistants vocaux comprendraient aujourd’hui, en moyenne, 90 % des requêtes qui leur sont adressées. Le cap des 95 % pourrait être franchi en 2020. Les concepteurs des assistants vocaux redoublent d’efforts pour atteindre un taux final d’erreur de 1 %.
De sérieuses interrogations concernant la protection de la vie privée
Perçus comme des boîtes noires, au fonctionnement opaque, les assistants vocaux cristallisent des interrogations importantes concernant la protection de la vie privée. Appelés à prendre une place centrale dans les échanges et les interactions, y compris les plus intimes, ils ont, de surcroît, la particularité d’être en « écoute » permanente pour détecter le mot qui les active. Plusieurs études ont montré que des messages inaudibles par l’oreille humaine peuvent être envoyés à des assistants vocaux, qui non seulement les entendent, mais leur obéissent. Les personnes ne disposent d’aucun moyen pour savoir ce qui est réellement écouté, traité et stocké. La CNIL vient de consacrer un dossier très complet aux enjeux de vie privée que soulèvent ces assistants vocaux.Références :
Sources
- 1. Yougov 2018 : Les assistants vocaux : les Français sont-ils convaincus ?
- 2. Search Foresight et Mymedia : Les assistants vocaux sont utilisés à 44 % sur mobile
- 3. Assistants vocaux : quelques défis à surmonter afin d'être massivement adoptés
- 4. Les assistants vocaux bientôt plus nombreux que les humains
- 5. Dossier de la Cnil sur les assistants vocaux