Les livres audio prospèrent, mais l’IA pourrait-elle prendre le relais ?


Les estomacs gargouillent. C’est normal. Parfois, s’il y a un micro à proximité, ces bourdonnements et ces gargouillis sont captés.

Les narrateurs de livres audio IA n’ont pas à s’inquiéter des bruits gastro-intestinaux étranges, mais Leah Allers et l’ingénieur Craig Hinkle ne sont pas des robots. Ce sont des êtres humains, enregistrant pour Nashville Audio Productions à la mi-janvier, s’inquiétant des gargouillis, discutant de l’endroit où mettre l’accent sur le mot « augmenter » et s’occupant du travail minutieux consistant à donner une « vraie » voix à un livre sur comment les couples communiquent.

Le studio de NAP se trouve à The Rukkus Room à Nashville, Tennessee, au même endroit où Taylor Swift a enregistré son premier album éponyme sept fois platine. L’odeur du café imprègne la salle d’attente. Hinkle est à l’écoute de chaque mot qui sort de la bouche d’Aller, regardant d’un iPad avec le texte du livre à un grand moniteur assis sur la table d’harmonie du studio.

« Je veux avoir plus d’émotions dans ces questions », dit Allers à Hinkle avant de recommencer une section d’un chapitre.

Les livres audio sont en plein essor. Le marché devrait atteindre 33,5 milliards de dollars d’ici 2030, contre environ 4,2 milliards de dollars en 2021, selon Acumen Research and Consulting. Qu’il s’agisse d’une conséquence de la popularité croissante des podcasts, d’une question de commodité d’écoute ou d’un sous-produit de la pandémie, cela n’a pas échappé à l’attention des entreprises technologiques et à l’inévitable progression de l’intelligence artificielle.

En 2023, l’enthousiasme suscité par le potentiel de l’IA est élevé, mais l’anxiété à l’idée de voler des emplois à des créatifs en difficulté l’est tout autant. ChatGPT peut écrire n’importe quoi, des lettres de pré-autorisation d’assurance aux biographies d’applications de rencontres, avec plus ou moins de succès. Des plateformes d’IA comme Objectif IA et Dall-E d’OpenAI cracher de l’art généré par l’IA, laissant beaucoup de ceux qui gagnent leur vie en créant de l’art numérique s’inquiéter de leur avenir.

Des entreprises technologiques telles qu’Apple et Google travaillent depuis un certain temps déjà sur la narration de livres audio par IA. En 2022, Google a déployé ses services auprès d’éditeurs dans six pays, dont les États-Unis et le Canada. Les narrateurs IA de Google ont des noms comme Archie, qui parle britannique, et Santiago, qui parle espagnol. Début janvier, Apple a introduit une écurie de voix AI avec des noms comme Madison et Jackson, que les auteurs et les éditeurs indépendants vendant leurs livres sur Apple Books peuvent utiliser pour lire des genres allant de la non-fiction à la romance.

La présence croissante de l’IA dans la narration de livres audio a des narrateurs humains comme Tanya Eby à divers stades de stress.

331347199-1190718441807713-4240875121857799363-n

La narratrice primée Tanya Eby.

Tanya Eby

« Je ne sais pas si dans cinq ans, ce sera encore mon concert à plein temps », a déclaré Eby, un narrateur basé à Grand Rapids, dans le Michigan, qui a enregistré plus de 1 000 livres au cours des 21 dernières années.

Des narrateurs comme Eby disent que leur humanité est exactement ce qui les aide à faire leur travail. En particulier avec la fiction, les narrateurs prennent des décisions sur tout, de la voix d’un personnage à la façon de communiquer les nuances et les émotions d’une manière qui reflète l’histoire.

« Si un personnage sanglote après la mort de son père, je dois transmettre ces larmes et ces halètements dans son discours », a déclaré Kathleen Li, une narratrice basée à Austin, au Texas.

Les narrateurs décrivent l’intimité d’être une voix dans l’oreille d’un auditeur et se demandent si même l’IA la plus réaliste tombera dans l’étrange vallée. Le danger, s’inquiètent-ils, est de perturber l’expérience.

Les voix de l’IA peuvent aller de guindées à assez convaincantes. Mais même les plus fluides peuvent déclencher ces étranges fils-pièges de la vallée avec une livraison ou un rythme qui sonne.

« Tout ce qui concerne la consommation de médias, c’est que nous voulons être enveloppés dedans », a déclaré Jonathan Sleep, un narrateur qui vit à l’extérieur d’Atlanta, en Géorgie.

L’argent parle

Les inconditionnels des livres audio pourraient avoir du mal à comprendre pourquoi quelqu’un opterait pour une voix synthétique plutôt qu’une voix humaine. Mais pour les petits éditeurs et auteurs, le temps et l’argent peuvent constituer un argument plus puissant que le caractère sacré d’une performance créative.

Les livres audio ne rapportent pas beaucoup d’argent à l’University of Michigan Press. L’éditeur publie environ 100 livres académiques par an – par des universitaires pour des universitaires ou des étudiants.

Il pourrait en coûter jusqu’à 6 000 $ pour embaucher un narrateur pour un livre qui pourrait ne rapporter que quelques centaines. Et cela sans parler du processus de production intensif. Cela peut prendre environ six heures pour produire une heure finie d’un livre audio, selon ACX, Audiobook Creation Exchange d’Amazon.

« La réalité est qu’à moins d’avoir une sorte de best-seller, l’économie ne fonctionne pas », a déclaré Charles Watkinson, directeur de l’University of Michigan Press et bibliothécaire universitaire associé pour l’édition à la University of Michigan Library. Il est également président de l’Association of University Presses, une organisation professionnelle d’éditeurs dans le domaine universitaire.

Pour les petits auteurs et éditeurs, le temps et le coût de production d’un livre audio peuvent être hors de portée. L’IA pourrait changer cela.

Il y a environ deux ans, Google a demandé à University of Michigan Press de participer à un programme pilote. La presse a pu utiliser l’outil de Google pour créer environ 100 livres audio produits numériquement. Il y a encore un certain degré d’intervention humaine nécessaire. Watkinson a déclaré que certains professeurs qui ont utilisé Google demanderaient aux étudiants d’écouter l’enregistrement pour le comparer au texte. Les petites presses peuvent encore avoir des problèmes de personnel, malgré l’accélération du processus d’enregistrement avec l’IA.

Watkinson a déclaré que l’Université du Michigan était intéressée par la manière dont l’IA pourrait potentiellement augmenter l’accessibilité de livres qui, autrement, ne seraient peut-être pas disponibles sous forme audio.

Au début du projet pilote, ils ont contacté environ 900 auteurs avec un échantillon de la narration, et la réponse générale a été que la narration de l’IA n’était qu’un peu meilleure que ce qu’un lecteur d’écran pouvait offrir à une personne malvoyante. Cependant, pour ceux qui ont des problèmes de vision et qui n’ont peut-être pas de lecteur d’écran ou autre, l’IA pourrait peut-être aider à combler une lacune d’accès.

Dans d’autres cas, les auditeurs peuvent simplement être heureux d’avoir un livre enregistré sous n’importe quelle forme. Une stagiaire de Watkinson utilisait des livres audio pour continuer à étudier dans les moments où elle ne pouvait pas avoir un livre ouvert devant elle, comme dans le bus ou à pied pour aller en classe. Elle l’appelait « l’écoute interstitielle ».

L’essor des voix numériques

En plus de grands noms comme Apple et Google, il y a un groupe en plein essor de petites entreprises qui entrent dans l’espace vocal de l’IA.

deepzen.png deepzen.png

DeepZen essaie de rendre la narration audio de l’IA plus naturelle.

DeepZen

DeepZen en fait partie. Fondée en 2018 et inspirée par le film Her de 2013, sur un homme qui tombe amoureux de son assistant virtuel IA, DeepZen a construit un système de traitement du langage naturel qui peut s’inspirer du texte et qui utilise des voix IA construites à partir de narrateurs humains sous licence, étiquetés de manière pseudonyme .

L’un des plus grands défis a été de créer une plate-forme qui ne reproduirait pas catégoriquement le texte, mais lui donnerait plutôt du ton, a déclaré le PDG et cofondateur Taylan Kamis.

Il a fallu quelques années pour arriver sur le marché, mais maintenant DeepZen permet aux clients de télécharger un manuscrit et, selon leur plan tarifaire, de sélectionner un service automatisé ou géré. Les deux sont livrés avec des niveaux de contrôle de la qualité, comme une vérification de la prononciation, mais l’option gérée comprend une vérification par des éditeurs humains et deux séries de corrections.

Le service automatisé exécutera un client 69 $ par heure finie contre 129 $ pour l’option gérée. DeepZen a produit près de 3 000 livres à ce jour, à la fois de fiction et de non-fiction.

Sur son site Web, vous pouvez écouter des échantillons de 10 voix, avec des noms comme Todd, Dahlia et Alice.

Quelque part dans le monde, Todd, Dahlia et Alice sont de vraies personnes. Kamis pense que les licences vocales pourraient être un moyen pour les narrateurs de coexister avec l’IA dans la narration.

« Ce narrateur gagnera de l’argent pendant son sommeil et sa voix gagnera des royalties au Japon [or] la Chine ou l’Afrique du Sud », a-t-il dit.

DeepZen travaille également sur un moyen d’amener les voix de l’IA à parler d’autres langues, afin d’augmenter la portée du marché.

Et peu importe de surmonter les défis de ne parler qu’une seule langue – la mort n’a même pas besoin de se mettre en travers du chemin. DeepZen a approché la famille du célèbre acteur et narrateur Edward Hermann, décédé en 2014, au sujet de la licence de sa voix. Ils ont signé. Dans un sens, Hermann travaille toujours, à titre posthume.

Répondre

Kamis n’est pas le seul à penser qu’il existe un moyen pour l’IA et les humains de s’entendre dans la narration vocale.

Watkinson, de l’Université du Michigan, veut utiliser l’IA pour tester quels livres mériteraient d’être enregistrés par un humain. Si l’on se vend particulièrement bien, le succès pourrait justifier le coût. Il est lui-même fan de livres audio.

« C’est une rampe d’accès pour nous pour obtenir des narrateurs humains », a-t-il déclaré.

Tout le monde n’est pas optimiste. Certains dans l’industrie craignent qu’il y ait moins d’emplois pour les narrateurs qui ne sont pas célèbres ou qui n’ont pas de suite.

« Tous ces narrateurs de niveau intermédiaire et vraiment solides … font un excellent travail et c’est leur gagne-pain – mais ils ne seront pas nécessairement un tirage au sort », a déclaré Andrea Fleck-Nisbet, PDG de l’Independent Book Publishers Association.

Après deux décennies dans l’entreprise, Eby a déclaré qu’elle se demandait ce qui se passerait si elle ne trouvait finalement pas le travail pour raconter à plein temps.

« Quelles sont mes compétences compétitives ? ​​Et comment pourrais-je entrer dans un bureau, et qu’est-ce que j’offrirais ? » elle a demandé.

Le narrateur Jonathan Sleep a déclaré qu’il savait qu’il avait des devoirs à faire – et qu’il était très attentif aux contrats qu’il signait et aux droits qu’il cède concernant sa voix.

D’autres, comme le narrateur Andy Garcia-Ruse, veulent jouer sur leurs atouts : « Tout ce que nous pourrions faire, c’est les faire tomber amoureux de nos performances et continuer à travailler. »

Certains auteurs refusent d’utiliser une voix numérique.

« J’ai l’impression que le but de la fiction est d’évoquer les émotions du lecteur ou de l’auditeur, et la fiction concerne ce que cela signifie d’être humain. Et une machine ne peut pas reproduire cela », a déclaré l’auteur Elizabeth Bell.

L’auteur Chris Stokel-Walker a utilisé Google pour raconter son livre de non-fiction de 2021 TikTok Boom, sur l’application vidéo populaire, et a écrit sur le résultat dans Inverse.

« Ce qui est revenu était un livre audio qui, bien qu’il manquait une partie de l’émotion et du drame que vous espériez, avait un son décent », a écrit Stokel-Walker.

Pourtant, de nombreuses questions demeurent. Dans un monde où les gens entendent déjà tous les jours des voix numériques comme Siri et Alexa, les humains cesseront-ils de se soucier si une voix numérique ne sonne pas parfaitement humaine ? Pour Fleck-Nisbet, la narration par IA n’est qu’une des nombreuses questions auxquelles l’industrie de l’édition sera confrontée. Il existe d’autres incertitudes concernant l’IA et le droit d’auteur ou la propriété intellectuelle.

En d’autres termes, ce n’est que le début.

Prendre la parole

Rien de tout cela ne veut dire que les narrateurs seront au chômage la semaine prochaine.

John Behrens, propriétaire de Nashville Audio Productions, a travaillé avec deux livres générés par l’IA au cours des dernières années, assurant essentiellement le contrôle de la qualité. L’IA rencontrait toujours des problèmes. Il ne pouvait pas prononcer les versets bibliques et se débattait avec des questions rhétoriques dans le texte.

Un mauvais livre audio peut produire 50 à 100 entrées pour des problèmes qui doivent être résolus, a déclaré Behrens. L’IA en a produit des centaines. Cela l’amène à croire que les narrateurs humains ne vont nulle part – pendant un certain temps au moins. Il déconseille de paniquer.

« Si vous allez vivre dans la peur… pourquoi continueriez-vous à investir dans cette carrière si vous pensez qu’elle va se tarir ? » il a dit.

De retour à la salle Rukkus, Allers et Hinkle font une pause pour discuter des robots.

C’est la première fois qu’Aller raconte un livre audio, bien qu’elle ait fait beaucoup de travail de voix off et de doublage, y compris pour Netflix.

Hinkle n’est pas impressionné par l’IA.

« Un robot lisant un livre », a-t-il dit. « Je pense toujours que ça va prendre beaucoup de temps avant que ça sonne naturel et doué. »

Ne le dites pas à Madison et Jackson.

Note des éditeurs : CNET utilise un moteur d’IA pour créer des explications sur les finances personnelles qui sont éditées et vérifiées par nos éditeurs. Pour en savoir plus, voir ce post.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*