Descript : transcription, montage audio et traitement de texte ne font plus qu'un

Stéphane Moussie |

Descript est une nouvelle application Mac qui devrait parler aux podcasteurs, aux journalistes et de manière plus générale à tous ceux qui ont à exploiter des fichiers audio. Descript a plusieurs facettes. Pour commencer, l’application transcrit automatiquement en texte les fichiers audio qu’on lui soumet.

Elle exploite pour cela la technologie Cloud Speech de Google, et demande donc une connexion internet pendant l’opération. Bien que Google Cloud Speech comprenne le français, ce n’est pas le cas de Descript qui se limite à l’anglais pour le moment.

Quand le fichier est transcrit, Descript lie automatiquement le texte à la piste audio : tous les mots reconnus apparaissent au-dessus de l’onde.

Pour monter le fichier audio, on n’agit pas sur la piste comme on le ferait avec un éditeur classique, mais sur le texte transcrit. Supprimer un mot ou une phrase efface automatiquement la partie audio correspondante. De la même manière, on peut déplacer des paroles d’un simple copier-coller dans le texte. C’est comme si Word était jumelé à Audacity.

Cliquer pour agrandir

Ça fonctionne tellement bien qu’on imagine pendant un instant que les mots supplémentaires que l’on saisit vont être ajoutés au fichier audio, ce qui n’est évidemment pas le cas… pour l'instant, car Adobe travaille sur une technologie, Project VoCo, capable de synthétiser un texte avec n’importe quelle voix enregistrée.

Descript dispose d’un autre mode d’utilisation plus classique qui permet de corriger les erreurs de transcription, car Google Cloud Speech a beau tirer parti de techniques d’apprentissage automatique, les résultats ne sont pas encore parfaits.

Transcription d’une interview de Jonathan Ive. Cliquer pour agrandir

L’éditeur prévoit plusieurs évolutions, dont une version Windows dès janvier 2018, la prise en charge d’autres langues que l’anglais, la gestion du multipiste et la possibilité d’enregistrer l’audio directement depuis l’app.

Deux formules sont disponibles. Pour 20 $/mois (promotion à 10 $ actuellement), on dispose de toutes les fonctions de Descript et la transcription automatique coûte 0,07 $/min. Sans abonnement, on dispose juste de la fonction de correction de texte et la transcription coûte 0,15 $/min. 30 minutes de transcription sont offertes. Vous pouvez essayer gratuitement Descript à condition d’enregistrer une carte bancaire.

avatar dscreve | 

Pas de français et un business model à la noix...vivement les concurrents

avatar ovea | 

@dscreve

Rhaaa !

Ça fait du bien du bien …

une machine à transcription
pourrr la réécriture sur/à partir,
d'un truc à base de bruit
qui écoute/retranscrit,
les vibrations d'ue machine à écrire du sens …

Ça s'appelle comment ? ^^

Ouiii
un périphérique,
pour retransmettre l'information !
On peut lire/écrire avec un périphérique.
Y'a même un périphérique près de chez vous,
puisque c'est comme ça qu'on fait tout un monde.

avatar R5555 | 

C'est un peu flippant cette idée a terme de pouvoir retoucher les paroles de n'importe qui :)

avatar reborn | 

@R5555

D’où la presence d’un watermark

avatar ovea | 

@R5555

En fait les ingés son faisait déjà ça très bien (pour les meilleurs) avec des bandes magnétique, une paire de ciseaux et du scotch sans que ça s'entende le moins du monde ;)

avatar reborn | 

@ovea

Ils pouvaient faire dire des choses à des gens qui n’avaient jamais prononcé ces paroles aussi ?

avatar ovea | 

@reborn

Ha ! Ça … ça devait demander énormément plus de travail.
Mais occasionnellement, c'est certain !

Toute la difficulté réside dans une écoute (encore inaccessible au grand publique) du rythme, du phrasé, de l'intonation, … du locuteur.

avatar C1rc3@0rc | 

@R5555
Mais non, pour ça y a deja Adobe qui le promet avec son Photoshop du son...

Ici, il y a un element important que peu ont remarqué:
«C’est comme si Word était jumelé à Audacity.»

On est en fait face a un logiciel de cryptographie: avec le niveau de performances de Word, il va etre totalement impossible de dechiffrer la bande son resultante, meme avec un ordinateur quantique...
Le probleme c'est que l'auteur et le destinataires risquent aussi, comme avec Word, de ne pas etre capable de dechiffré le document. ;)

Sinon, avec Dragon Speaking et Garage Band on doit arriver a faire aussi bien, un peu moins automatique, mais sûrement plus fiable.

avatar bunam | 

Sur iOS c'est gratuit et ça marche dans toutes les applications, il faut activer "Énoncer le contenu de l'écran" . Par exemple avec l'app Reeder je me mets sur l'article que je veux et je balaye avec deux doigts le haut de l'écran vers le bas et hop ça cause...

https://support.apple.com/fr-fr/HT202362

Du coup en voiture j'ai un podcast audio instantané

Le seul pb c'est la détection de la langue, car je suis abonné à des sites anglais et le ça ne marche pas...

avatar Pieromanu | 

@bunam

Il me semble que tu parles du procédé opposé, puisqu'il s'agit dans le cas de Descript de transcrire un fichier audio en texte plutôt que de faire lire un texte par iOS.

avatar bunam | 

@Pieromanu

Ok j’ai lu trop vite

avatar kubernan | 

@bunam : Sans blague ?

avatar ovea | 

@bunam

En fait c'est bien gratuit et sans connexion avec la dictée vocale … en français sur Mac (seulement en enflais sur iOS) :
reconnaissance vocale avec transcription en texte.
Après sur le texte transcrit depuis le podcast la méthode est correcte quelque soit la langue :
synthèse vocale pour la lecture du texte.

Ce que laisse supposer cet outil ressemble à une intégration et un automatisme plus poussé. Ça reste à tester pour savoir jusqu'où ça va (transcription et lecture d'équations mathématiques, entre autres)

Le côté montage correspondance à l'utilisation du TimeCode qui peut être très simple à mettre en œuvre … jusqu'à être non destructif et être possible même en streaming pour une classique sur des podcasts ;)

avatar zoubi2 | 

Faut-il en conclure que Jony Ive est imbittable ?

CONNEXION UTILISATEUR