Le son numérique : hertz, bits, et toute cette sorte de choses

Arnaud de la Grandière |
waveform

Apple serait donc actuellement en négociation avec les éditeurs de musique pour proposer un encodage sur 24 bits des titres vendus sur l'iTunes Store (lire iTunes Music Store : Apple veut passer en 24 bits). L'occasion pour nous de vous expliquer par le menu ce qu'est un son numérique, et en quoi cela change les choses.

Commençons par définir l'objet du délit : un son est une vibration de l'air. On peut en faire une représentation graphique avec en abscisse le temps et en ordonnée l'amplitude de la vibration : une onde plus grande aura un volume plus élevé, une courbe "tassée" en largeur représente un son aigu. Car c'est la fréquence de la vibration qui déterminera la hauteur de la tonalité. L'unité de mesure des fréquences est le hertz : 1 hertz correspond à une oscillation par seconde. Comme on le verra, nombre de paramètres concernant le son se mesurent en hertz, mais ne s'appliquent pas aux mêmes choses. Le la du diapason (ou de la tonalité du téléphone) a une fréquence de 440 Hz (la fréquence des notes de musique suit une augmentation logarithmique, le doublement d'une fréquence passe la note à l'octave supérieure). Bien que l'acuité auditive varie d'une personne à l'autre, il est généralement admis que l'oreille humaine est capable de percevoir des fréquences comprises entre 20 Hz et 20.000 Hz, avec une perte dans les aigus à mesure que l'on vieillit.



Physique amusante : un haut parleur diffuse une fréquence de 120 Hz dont les vibrations font danser ce liquide non-newtonien


L'enregistrement analogique d'un son est susceptible de stocker tout son spectre dans ses plus infimes détails, mais finit par s'altérer avec le temps et le nombre de copies successives. A l'inverse, un enregistrement numérique se limite à une résolution donnée qui perd par essence des subtilités, mais conservera son intégrité d'une copie à l'autre. Pour numériser un son, on applique une "grille" qui permet de stocker une valeur numérique : à un instant T correspond une amplitude sonore que l'on peut stocker sous forme de nombre.

http%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2F9%2F9a%2FDigital.signal.svg


On procède de la sorte plusieurs fois par seconde, cela s'appelle l'échantillonnage. Mais puisqu'il est également ici question de fréquence d'échantillonnage, c'est à dire du nombre d'échantillons que l'on prélève par seconde, là aussi la mesure se donne en hertz, bien qu'elle n'ai pas de rapport direct avec la fréquence du son (c'est à dire la hauteur de la note). Ainsi, un la (440 Hz) pourra par exemple être échantillonné 1000 fois par secondes (et donc à 1 KiloHertz).

Toutefois, il existe bien une relation entre la fréquence sonore et la fréquence d'échantillonnage : le théorème de Nyquist-Shannon stipule que la fréquence d'échantillonnage doit être égale à au moins deux fois la fréquence maximale du signal. La raison en est simple : la période d'une onde passe par un point haut et un point bas, et il faut donc pouvoir capter ces deux extrêmes, soit prendre deux mesures par oscillation. Comme il est établi que l'oreille humaine peut percevoir des fréquences s'élevant jusqu'à 20.000 Hz, pour enregistrer la fréquence la plus haute il faudra donc l'échantillonner au moins 40.000 fois par seconde (et donc à 40 KHz). De fait, la fréquence d'échantillonnage sur CD audio est légèrement supérieure (44.100 Hz), afin de conserver correctement les fréquences non-harmoniques, sachant d'autre part que cette fréquence a été choisie pour sa compatibilité avec les systèmes vidéo (dans les premiers temps le signal était converti en signal vidéo pour être stocké sur cassettes u-matic pour l'envoi du master). Le son sur DVD est échantillonné à 48 KHz.

skitched

A noter toutefois qu'en environnement professionnel, on monte la fréquence d'échantillonnage à 96 KHz : cette meilleure définition offre une plus grande souplesse pour la manipulation du son avant le mixage définitif. C'est également la fréquence d'échantillonnage du son sur Blu-ray. On pourrait donc y enregistrer un ultrason d'une fréquence d'oscillation de 48 KHz, qui sera entendu par votre chien, mais pas par vous.

Voilà pour l'échelle temporelle, reste la mesure de l'amplitude en elle-même. Le nombre auquel correspond l'amplitude sonore à un instant T est encodé sur un nombre de bits donné. Il s'agit là d'une notion purement informatique : en fonction de cet encodage, l'amplitude sera numérisée plus ou moins finement. Ainsi, un encodage sur 8 bits permettra d'utiliser 256 valeurs différentes (soit 28, un bit ayant une valeur de 1 ou 0). Le standard pour le CD Audio est de 16 bits, soit 65.536 valeurs différentes possibles pour l'amplitude sonore. Sur un CD, chaque valeur de l'amplitude sera donc stockée sur 16 bits, soit deux octets, multipliés par 44.100 échantillons par seconde : une seconde de son stéréo sur CD occupe donc un peu plus de 172 Ko (rappelons que le son sur CD audio n'est pas compressé).

On affine donc la définition du son numérique en augmentant la valeur d'encodage (bitrate) et la fréquence d'échantillonnage. Une plus grande valeur d'encodage donnera une meilleure réponse dynamique du son, et une plus grande finesse dans les sons de faible amplitude. Une plus grande fréquence d'échantillonnage captera plus finement les variations de tonalité et d'harmoniques du son.

En passant le bitrate à 24 bits, l'amplitude du son serait ainsi plus fidèlement reproduite, sachant que les valeurs sont arrondies à l'unité la plus proche comme illustré plus haut : on passerait ainsi de 65.536 à 16.777.216 valeurs différentes possibles pour l'amplitude du son. Un grain 256 fois plus fin, permettant un écart plus grand entre l'onde la plus forte et la plus douce.

CD%20with%20vinyl%20effect%20print%20%7C%20Flickr%20-%20Photo%20Sharing%21

Mais la numérisation du son présente bien d'autres avantages que la seule fidélité de sa reproduction. Le traitement du signal numérique offre évidemment bien plus de liberté que sa contrepartie analogique, puisque l'avantage des nombres, c'est qu'ils se soumettent facilement aux mathématiques. Et c'est heureux, puisqu'un son en qualité CD prend une quantité de stockage dispendieuse (il faudrait une connexion internet d'au moins 1400 Kbps pour diffuser du son de cette qualité), un inconvénient facilement compensé par la compression de données. En supprimant les données redondantes ou superflues, en adaptant l'encodage en fonction du signal, ou encore en faisant appel à la psychoacoustique (l'étude scientifique de la perception sonore chez l'être humain), on peut ainsi conserver une qualité sonore apparemment similaire tout en utilisant un espace de stockage bien moindre.

Il existe différents systèmes de compression : certains sont non-destructifs, c'est à dire qu'ils restituent l'intégralité du signal après décompression, sans perte de données, mais au prix d'une moindre compression. Le célèbre MP3 (en réalité MPEG-1 Audio Layer 3), mis au point par l'institut allemand Fronhofer en 1993, est sans doute le codec destructif le plus connu. Il permet de diviser par 11 le volume de données sans que la perte de qualité induite ne soit trop gênante à l'écoute : ainsi, au lieu de 1400 Kilo-bits par seconde comme sur CD, le même son en MP3 n'utilisera plus que 128 Kilo-bits par seconde. Pour une musique donnée, c'est donc onze fois moins de stockage utilisé, ou encore onze fois moins de temps pour la télécharger, et à l'inverse, onze fois plus de musique à volume égal. A l'époque où le haut débit n'était encore qu'un rêve lointain et que les disques durs moyens n'alignaient encore péniblement que quelques centaines de méga-octets, l'économie s'avéra hautement appréciable.

En réalité ce taux de 128 Kbps est arbitraire et on peut choisir un taux de compression moindre au moment de la création du fichier MP3. D'autre part, la qualité sonore qui en résultera dépendra beaucoup du logiciel d'encodage, tous n'étant pas égaux sur les résultats obtenus. De fait, au fil des ans la musique a été encodée avec un taux de compression moindre (256 kbps), et iTunes ne propose sa musique qu'au format AAC, qui à taille égale avec le MP3 offre une meilleure qualité sonore, quoi que toujours dégradée par rapport à un signal non compressé.

Image Une
Tags
avatar Anonyme (non vérifié) | 
Bonne idée, mais Apple pourrait commencer par améliorer la qualité sonore de ses iPod et iPhone, en ajoutant un equalizer personnalisable par exemple! :)
avatar Damtux | 
Super intéressant l'article.
avatar Seccotine | 
Les 16bit et 24bit, ce n'est pas le bitrate... Bit rate c'est le nombre de bit par seconde. Par exemple un CD audio a un bitrate de 1 411 200 bit/sec que vous dites plus tard dans l'article.
avatar EliasOnComments | 
(soit 28...) => soit 2^8
avatar apow | 
Le 24 Bit n'a pas vraiment d'intérêt sur des formats avec perte/
avatar Anonyme (non vérifié) | 
Je ne vais pas tomber dans le pinaillage mais : L'illustration "Echantillonnage" est visiblement un cas typique de mauvais échantillonnage et il doit illustrer l'apparition d'une fréquence indésirable (basse fréquence) quand on échantillonne "haute fréquence" avec une fréquence d'échantillonnage trop basse. Pour éviter ce problème, on applique un filtre pour éliminer les fréquences trop élevées qui ne pourront pas être échantillonnées correctement, cf le le théorème de Nyquist-Shannon mentionné dans ce même article. La "valeur d'encodage (bitrate)" dont il est question dans l'article est en fait la résolution. On parle de bitrate pour des flux (les kbps du MP3...).
avatar Anonyme (non vérifié) | 
apow [quote]Le 24 Bit n'a pas vraiment d'intérêt sur des formats avec perte/[/quote] bien sûr que si : diminuer le taux de compression = besoin de plus d'espace disque = vente d'appareils avec des capacités plus importantes et sur lesquelles les marges sont meilleures pour Apple. ;-)
avatar Anonyme (non vérifié) | 
24 Bits > 16.777.216 valeurs différentes possibles. 16 millions (seuls les points sont mal placés).
avatar iDanny | 
24 bits c'est sympa, mais faudrait qu'ils repartent de masters analogiques pour tout réencoder, et j'y crois pas trop :)
avatar Anonyme (non vérifié) | 
24 bits, c'est pour nous les enfoncer encore plus profond ? Pourrat-on lire ces fichiers dans itunes 9 (tiger), après les avoir acheté sous itunes 10 ?
avatar Kubusiu | 
Je n'ai rien compris, dommage ça avait l'air intéressant ;-)
avatar icharlie | 
Génial! Merci beaucoup!
avatar badmonkeyman | 
Article agréable à lire ;) Merci.
avatar BennyLaMalice | 
Joli synthèse pour ceux qui ne sont pas à l'aise avec ces notions. Juste un petit regret que vous n'évoquiez pas le format 1bit. L'article peut sous entendre que plus on dispose de valeurs sur l'axe vertical, est meilleure sera la reproduction du son. Ce qui est faux car la conversion numérique -> analogique n'étant pas parfaite, une limite de taille d'encodage est vite atteinte. Recréer un son à partir de valeur numériques, consiste à piloter un générateur de courant (courant qui via la bobine du haut-parleur va faire bouger la membrane qui déplacera l'air jusqu'à vos oreilles), et ça on sait pas trop bien faire des composants très précis (des millions de valeurs possible). La solution consiste donc à augmenter la fréquence d'échantillonnage - on passe de quelques dizaines de kHz à quelques dizaines de MHz; et ça on maitrise bien... Y'a qu'à voir les fréquences de nos processeurs - et diminuer la granularité des mesures (les bits). Au final on se contente de mesurer si le courant augmente ou diminue (0 ou 1) à raison de quelques millions de fois à la seconde (= 1bit avec échantillonnage à 2,8Mhz). Et ça se nomme SuperAudio-CD pour le format "grand public" breveté par Sony/Philips. Mais pour que ça se démocratise il faudrait des entrées (convertisseur A>N) et des sorties (conv. N>A) compatible 1bit sur une majorité d'appareils... Ce que je crains fort n'arrivera pas de sitôt. Et assez peu d'artistes sortent leurs Albums dans ce format :-( Pourtant c'est vraiment un son incroyable !
avatar Lateralus | 
Une obsolescence programmée de plus. Pour vendre plus de matos... Ça filera du taffe aux studios de mastering et ça forcera le public a réacheter sa collection en HD.... Mais force est de constaté que l'audio a stagné et pire reculé avec les compressions, en terme de qualité depuis des années.
avatar normafnor | 
très bon article pour un néophyte merci
avatar Thierry6 | 
plein de choses intéressantes et très bien expliquées dans cet article mais je n'ai pas compris ce que vous vouliez démontrer ? pourquoi faire un lien entre l'encodage sous 24 bits et les formats de compression destructifs ? Au contraire, non ? si on encode sur 24 bits, ce n'est pas pour faire ensuite du mp3 ou du aac ? mais des formats non destructifs comme le Flac ? et un autre point, comme les CD sont en 16 bits, traiter des fichiers sons sous 24 bits n'est pas simple et oblige à du dithering comme en photo pour ceux qui veulent graver des CDs ensuite (si il y en a encore).
avatar Mad Max | 
Super article, merci.
avatar mastrouz | 
"Un grain 256 fois plus fin"... Mouais... 256 fois plus de valeurs ne veut absolument pas dire "un grain 256 fois plus fin". Le problème aujourd'hui, c'est que la plupart des gens, tellement habitués au MP3 et aux systèmes d'écoute grand public bien moins performants qu'il y a 20 ans (ah, la chaîne JVC de chez mes parents, achetée en 1990 et toujours au top...) ne savent pas apprécier ou critiquer le son. Alors à quoi bon ? Le formats CD (16 bits/ 44,1kHz) reste largement suffisant. Le combat a mener est peut-être contre les mauvais encodages (avec cette particularité insupportable du scintillement synthétique sur le haut su spectre, audible sur les cymbales ou le Hi-Hat). Et puis si c'est pour écouter du Christophe Maé ou du Céline Dion, on peut passer au 8bits à 10kHz, ça fera peut-être comprendre aux gens que la musicalité et les nuances sont à chercher ailleurs.
avatar mastrouz | 
@iDanny Quand les studios ou les majors ont numérisé leurs catalogues, ils ne l'ont pas fait en 16 bits, mais au minimum en 24 bits 96kHz. Mais le format prioritaire restant le format CD, c'est les versions 16bits 44,1kHz qui tournent. Apple a déjà changé une fois de format sur iTunes, et faisait payer si on avait déjà le morceau avant. Je sens l'arnaque arriver gros comme un iPad.
avatar Armas | 
Excellent article, merci.
avatar 406 | 
Si on prend le DAC musical fidelity ou le pure i20, ils peuvent sortir du 24/192. on peut donc espérer que çà sera compatible :-)
avatar Le principe ignoto | 
@ Aurel01 : ce n'est pas tellement la qualité sonore des iPods qui est en cause, que celle du casque livré avec ! Il suffit de remplacer ce dernier par un simple casque intra-auriculaire à 30 € pour entendre la différence...
avatar Anonyme (non vérifié) | 
mastrouz : en plus du mauvais encodage*, il faudrait aussi revoir les techniques de mastering actuelles consistant bien souvent à booster à fond à grand coup de compression, et qui conduisent (pour schématiser grossièrement) à une diminution de la résolution totalement assumée, pour que "ça gueule". -- * de moins en moins fréquent heureusement, en tout cas iTunes a nettement progressé au fil des versions. J'ai eu l'occasion de réécouter des vieux MP3 que j'avais encodés il y a 15 ans et wahouuu ! c'était incroyablement pourri, même en choisissant le meilleur encodage possible.
avatar freed201 | 
ha ha ha... je vais être dur mais encore un truc marketing de Apple.. Ca sert a rien... tant que les écouteurs et convertisseur seront de cette qualité, ca sert a rien.. et en plus pour ecouter du MP3...... faut arreter la....

Pages

CONNEXION UTILISATEUR