Rory Bremner vs logiciel de reconnaissance vocale : on sait désormais qui gagnerait

Rory Bremner vs logiciel de reconnaissance vocale : on sait désormais qui gagnerait

Quel Film Voir?
 

Le comédien et impressionniste imite les gens pour s'amuser. Mais il affirme que la science derrière la reconnaissance vocale est extrêmement sérieuse.





disney plus harry potter

L’une de mes histoires théâtrales préférées concerne l’actrice Edith Evans, surtout connue pour sa prononciation exagérée (pensez à elle comme à Lady Bracknell, prononçant l’expression « un sac à main ? »). Lorsqu'on lui a demandé une fois si elle connaissait l'acteur Kenneth Williams, elle a crié, d'une manière typiquement excentrique : Ah oui ! Je me souviens! Voix très particulière !



Des casseroles et des bouilloires, pourrait-on dire. Mais nos voix sont-elles vraiment uniques ? Ma voix est mon mot de passe est une phrase que l’on entend de plus en plus ces derniers temps, alors que les banques commencent à perfectionner les logiciels de reconnaissance vocale et la biométrie. Mais peut-on vraiment dire que chaque voix est unique ? Il y a certainement eu des voix emblématiques à travers l’histoire – Winston Churchill, Morgan Freeman, Margaret Thatcher, pour n’en nommer que quelques-unes – mais sont-elles totalement exclusives et individuelles, au même titre que nous pensons aux empreintes digitales ou à l’ADN ? Peut-on désormais parler de personnes ayant une empreinte vocale unique ?

J’aime penser que j’ai une oreille raisonnable pour les voix. Après tout, ma carrière d’impressionniste repose en grande partie sur ma capacité à différencier les accents, les types de voix et les caractéristiques. J'ai tendance à considérer cette capacité comme instinctive ; un cadeau, un truc de fête, même. C'était avant que je rencontre les phonéticiens légistes pour mon documentaire sur Radio 4.

Les phonéticiens légistes sont des linguistes et des analystes de la parole dont l’étude de la voix des gens fait honte à mon oreille instinctive, notamment parce qu’elle est aussi légiste. Alors que mes impressions et caricatures (car c’est ce qu’elles sont, elles ne sont pas une reproduction exacte) sont réalisées dans un but comique ou satirique, l’analyse des professionnels, impliquant l’identification ou le profilage du locuteur, est souvent utilisée comme preuve dans des affaires pénales. Dans la lutte contre le terrorisme également, l’analyse vocale est un outil essentiel, car les services de sécurité analysent des milliers d’heures d’enregistrements vocaux.



Plus fascinantes que de se demander si mon Donald Trump est proche de l'original, et assez drôles (voire les deux), sont les questions qui constituent le travail des phonéticiens : la voix du suspect est-elle la même que celle qui murmure une alerte à la bombe sur son téléphone ? un enregistrement de la police ? De quelle région du Pays de Galles est originaire la personne qui a lancé l'appel de chantage ? Le pilote était-il sous l'influence de l'alcool alors qu'il parlait au contrôle aérien juste avant l'accident d'avion ?

Dès qu’une affaire pénale implique de la parole humaine ou des indices acoustiques de quelque nature que ce soit, l’expertise d’un phonéticien légiste est requise, et c’est le genre de questions auxquelles un expert en reconnaissance du locuteur est confronté quotidiennement. En fait, il y a chaque année entre 500 et 600 affaires pénales au Royaume-Uni dans lesquelles des données vocales sont utilisées comme preuve. Et, comme toute autre preuve d’expert, elle est réglementée par le régulateur des sciences médico-légales du ministère de l’Intérieur et reconnue par le Parlement comme un domaine d’expertise.

serie dr foster saison 3

C’est une spécialité qui couvre un large éventail de domaines : le profilage du locuteur (qui est ce locuteur ? Quelles informations peut-on tirer de la voix ?) ; des comparaisons vocales, où un échantillon connu d’une voix est comparé à celui du suspect (un échantillon connu de la voix du prédicateur Abu Hamza a été comparé à des cassettes enregistrées secrètement d’autres sermons de haine raciale pour déterminer si l’orateur était la même personne) ; Amélioration du discours; authentification sur bande ; et aider la police à réaliser des files d'attente vocales : l'équivalent sonore d'une parade d'identité.



Tous ces travaux sont réalisés en combinant les compétences de phonéticiens qualifiés avec des systèmes de reconnaissance automatisée du locuteur (ASRS) de plus en plus sophistiqués, qui ont désormais le pouvoir d'analyser la voix humaine à un degré sans précédent.

chaîne de liverpool leicester

Mais il est révélateur que c’est toujours l’analyste humain – le phonéticien individuel – dont l’expertise fait toute la différence. En effet, l’un des cas les plus remarquables en phonétique médico-légale était celui où aucun type de machine n’était utilisé. Le dialectologue et phonéticien Stanley Ellis a analysé la bande de Wearside Jack qui a fait dérailler l'enquête sur le Yorkshire Ripper. En recherchant et en analysant minutieusement le discours des gens ordinaires du nord de l'Angleterre, Ellis a pu identifier l'accent du canular jusqu'à quelques kilomètres au nord de Wear à Sunderland.

Cette remarquable expertise humaine est une chose à laquelle les Britanniques s’accrochent encore. Alors que la plupart des autres pays européens reconnaissent la validité juridique des logiciels de reconnaissance automatique du locuteur, la tradition britannique a toujours été de faire appel à un dialecticien compétent qui analyserait une à une le son des voyelles, la montée et la descente de la voix, sa mélodie, grâce au système de notation de l’alphabet phonétique international.

Mais ce n’est pas une science exacte : la communauté scientifique est divisée quant à la méthode la plus efficace pour identifier les voix, que ce soit via des systèmes automatisés ou via l’expertise du phonéticien ou, comme semble être la meilleure pratique actuelle, les deux.

De plus, nos voix varient : si nous avons un rhume ; si nous sommes ivres ; si nous sommes nerveux. En tant que preuve, l’analyse vocale n’est donc encore qu’une corroboration plutôt qu’une conclusion en soi.

Mais qu’en est-il des impressionnistes ? Il semble que nous puissions parfois tromper certaines personnes. Mais nous ne pouvons pas tromper l’équipement. Nous nous sommes amusés dans l’émission à comparer mon impression de la voix de Trump à l’originale. Cela amuse les scientifiques, mais ne trompe pas la technologie.

spiderman ordre de visionnage

Non pas que la technologie soit parfaite. Plus tôt cette année, un journaliste de la BBC a réussi à tromper le logiciel de sécurité de HSBC en obligeant son jumeau à imiter sa voix. Mais il n’en a pas tiré profit. Je suppose que je vais devoir m'en tenir à la comédie.

La course à l'empreinte digitale de la voix humaine aura lieu mercredi à 21h Radio 4