Materiale Primo Incontro

il software libero

Il software libero è software pubblicato con una licenza che permette a chiunque di utilizzarlo e che ne incoraggia lo studio, le modifiche e la redistribuzione; per le sue caratteristiche, si contrappone al software proprietario

Rispetto al software proprietario, la licenza d'uso del software libero permette di:

Spesso si fa confusione tra Software Libero e Open Source

GNU/Linux

è un sistema operativo libero di tipo Unix (o unix-like) costituito dall'integrazione del kernel Linux con elementi del sistema GNU e di altro software sviluppato e distribuito con licenza GNU GPL o con altre licenze libere.

il suono

La natura delle onde sonore

La propagazione dell’onda sonora

La propagazione dell’onda sonora non comporta trasporto di materia: gli atomi e le molecole del mezzo oscillano intorno alla loro posizione di equilibrio.

La velocità di propagazione del suono

onde

Energia

L’energia dell’onda sonora è correlata alla frequenza e alla pressione, in funzione del loro quadrato. Suoni di uguale ampiezza o intensità, ma diversa altezza non trasportano la stessa energia.

Caratteristiche del suono

tono

Nel caso in cui l’onda sonora contenga un’unica frequenza (onda monocromatica), il suono prende il nome di tono o suono puro. Tali suoni non esistono in natura: essi possono solo essere prodotti da generatori meccanici (diapason), o di frequenza. Toni alti o acuti e toni bassi o gravi dipendono dalla frequenza delle vibrazioni: l’altezza cresce al crescere della frequenza la tonalità o altezza dipende dal valore della frequenza fondamentale. Il diapason genera un tono puro

intensità

ampiezza delle oscillazioni del corpo in vibrazione

Massima alla sorgente e diminuisce con la distanza

Dipende dall’energia che passa attraverso una sezione unitaria in un secondo

timbro o qualità del suono

Forma dell’onda: numero e ampiezza delle armoniche che lo compongono il timbro è rappresentato dalla forma della curva, la cui complessità è definita dal numero di armoniche che la compongono. Il timbro descrive la qualità del suono: es stessa nota, suonata con due strumenti musicali diversi

Tono e rumore

anatomia dell'orecchio

la trasduzione sonora. L’ orecchio interno

La coclea o chiocciola Contiene i recettori: le cellule cigliate. Le oscillazioni pressorie dei suoni si trasmettono attraverso la membrana basilare che cede in punti diversi a seconda della frequenza delle oscillazioni stesse

le cellule acustiche, spostandosi lievemente al vibrare della membrana basale, urtano con i loro «peli » sensibili la membrana tectoria ricevendone stimoli dosati, potremmo dire, in funzione dell'entità delle vibrazioni stesse.

La Localizzazione spaziale: differenza interaurale

differenza interaurale

Eco

dipende essenzialmente dal fatto che la velocità del suono nell'aria è molto bassa: solo 344 metri al secondo (a 20°, perché la velocità dipende anche dalla temperatura e dalla densità). Ora, il suono si sposta nell'aria sotto forma di onda che, se trova un ostacolo viene

Il suono che ritorna, quindi, è una versione del suono originale indebolito in ampiezza e filtrato sulle frequenze alte. Perché filtrato sulle frequenze alte? Per due ragioni:

  1. quasi tutti i materiali assorbono di più le frequenze alte rispetto a quelle basse;
  2. l'aria assorbe un po' di frequenze alte.

Riverbero

Questa figura mostra la variazione in ampiezza della riverberazione in una grande sala così come arriva alle orecchie di un ascoltatore, con un singolo suono impulsivo come eccitazione di partenza: il grafico visualizza, in pratica, la risposta all'impulso della sala mostrandoci come la sala stessa reagisce alla produzione di un impulso acustico (un singolo 'toc' di circa 1/100 di secondo, in rosso nel grafico). L'intero grafico rappresenta, sull'asse orizzontale, un tempo totale di circa 1 secondo e mezzo.

Banda critica

Introduciamo ora il concetto di Banda Critica che è molto importante perché determina sia la percezione di suoni simultanei (accordi) che quella del timbro. Esso, inoltre, ha influenzato vari aspetti della pratica musicale, come vedremo. Abbiamo visto che l'orecchio interno è un potente analizzatore in grado di distinguere le componenti di un suono. La sua capacità di discriminazione ha però dei limiti.

Le cellule dell'organo del Corti che interpretano le informazioni di frequenza, infatti, lavorano a gruppi di circa 1300, ognuno dei quali occupa fisicamente circa 1.3 mm di membrana basilare e copre, in frequenza, circa 1/3 di ottava. Ognuno di tali gruppi costituisce una Banda Critica (Critical Band). Quando due frequenze simultanee sono abbastanza vicine da stimolare lo stesso gruppo di cellule e quindi cadono entrambe entro la stessa banda critica, la loro distinzione diventa difficile, se non impossibile e dà luogo a vari fenomeni.

Questo esempio sonoro e la figura a fianco spiegano che cosa accade in pratica. Partiamo con due frequenze uguali e mentre una rimane fissa, l'altra si alza in glissando. All'inizio non avrete la sensazione di due frequenze, ma di un solo suono. Via via che la seconda frequenza si allontana dalla prima, sentirete:

  1. battimenti, che diventano più rapidi fino a
  2. un suono aspro (rough), sempre senza distinguere le due frequenze (avrete sempre la sensazione di un unico suono).
  3. Solo quando la loro differenza supererà una certa soglia di discriminazione (il limite di discriminazione di due frequenze simultanee, circa 15 Hz), inizierete a distinguere le due frequenze, pur permanendo la sensazione di suono aspro.
  4. Quando, infine, verrà superata una seconda soglia pari al limite della banda critica, finirà la sensazione di asprezza.

la Voce

nei suoni tenuti, le corde vocali, da sole, non sono in grado di produrre timbri diversi, ma solo altezze diverse. Il loro timbro è praticamente sempre identico per ciascun individuo e in generale corrisponde a quello di un'onda impulsiva il cui spettro tende alla lunga serie di armonici

Il tratto vocale, che va dalle corde fino alle labbra, costituisce una vera e propria cassa armonica che filtra il suono prodotto dalle corde

non sempre le corde vocali entrano in azione. La maggior parte delle consonanti è prodotta mediante rumori generati dal passaggio dell'aria in un tratto vocale opportunamente configurato dalla posizione della mandibola, della lingua e delle labbra.

Il nostro apparato percettivo è particolarmente specializzato nella comprensione del parlato. Centinaia di migliaia di anni di evoluzione hanno costruito un sistema in grado di estrarre il significato da una serie di segnali anche se sono stati sottoposti a deformazioni estreme.

L'inviluppo

La variazione dinamica di un suono nel tempo è detta inviluppo.

Un inviluppo può avere fino a 4 fasi in sequenza:

  1. Attacco (attack) - corrisponde all'inizio del suono e dura fino al momento in cui il suono ha raggiunto la massima energia. Può essere immediato (l'attacco del piano o di uno strumento a percussione dura circa 1/100 di secondo) o graduale (negli strumenti ad arco e a fiato l'esecutore può creare un attacco in crescendo della durata di vari secondi). Tutti i suoni hanno un attacco.
  2. Decadimento (decay), detto anche decadimento iniziale o primo decadimento - in alcuni strumenti (es. ottoni), all'attacco segue una breve e rapida diminuzione di ampiezza, prima che il suono si stabilizzi. Di solito è dovuto al fatto che il suono scatta solo quando si supera una certa soglia di energia (es. una certa pressione del soffio), non prima. La conseguenza di questo scatto è un attacco abbastanza rapido seguito da un breve decadimento.
  3. Tenuta (sustain) - è la fase in cui il suono rimane stabile mentre l'esecutore continua a fornire energia. Ovviamente non esiste negli strumenti a evoluzione libera.
  4. Rilascio (release), detto anche decadimento finale - è la fase che inizia nel momento in cui l'esecutore smette di dare energia e il suono decade più o meno rapidamente. Questa fase può essere anche molto lunga negli strumenti a evoluzione libera (note basse del piano), mentre è di solito breve in quelli a evoluzione controllata. Tutti i suoni hanno un rilascio.

Dall'analogico al digitale

Il teorema di Nyquist

Secondo il teorema di Nyquist, la frequenza di campionamento deve essere almeno il doppio della frequenza più alta registrata. Se nel processo di conversione entra una frequenza superiore alla metà della frequenza di campionamento, si generano frequenze estranee chiamate "Alias frequencies" che producono una fastidiosa distorsione armonica.

Per esempio, ipotizzando un Sample Rate di 44.1 KHz potremo digitalizzare corettamente frequenze fino al limite dell'udito umano pari a 22.000 Hz.

campionamento

Il campionamento è una tecnica che consiste nel convertire un segnale continuo nel tempo in un segnale discreto, valutandone l'ampiezza a intervalli di tempo regolari. Il campionamento consiste nell'andare a "sentire" il valore del segnale analogico in diversi istanti di tempo. Il tempo che intercorre tra una valutazione e l'altra si chiama periodo di campionamento. La frequenza di campionamento è l'inverso del periodo.

http://upload.wikimedia.org/wikipedia/commons/b/bf/Pcm.svg

PCM (Pulse-code modulation)

La pulse-code modulation (letteralmente "modulazione codificata di impulsi"), in acronimo PCM, è un metodo di rappresentazione digitale di un segnale analogico. Il metodo utilizza un campionamento dell'ampiezza del segnale a intervalli regolari; i valori letti vengono poi quantizzati e digitalizzati (in genere codificati in forma binaria). La PCM è ampiamente utilizzata nei sistemi di telefonia, ma si basano su questo principio anche molti standard video, come l'ITU-R BT.601. Poiché la PCM pura richiede un bitrate molto elevato, gli standard video di consumo come DVD o DVR sono basati su sue varianti che fanno uso di tecniche di compressione. Molto frequentemente, la codifica PCM viene impiegata per facilitare le trasmissioni digitali in forma seriale. Modulazione

Nel diagramma un’onda sinusoidale (rossa) è campionata e quantizzata. L’onda sinusoidale è campionata a intervalli regolari rappresentati dai trattini sull’asse delle x. Per ogni campione, uno dei valori disponibili sull’asse delle y è scelto da opportuni algoritmi. Questo produce una rappresentazione discreta del segnale di ingresso che può essere facilmente codificata in digitale per essere memorizzata e manipolata. Per l’onda sinusoidale rappresentata sulla destra possiamo verificare che i valori campionati sono quantizzati con i valori 9, 11, 12, 13, 14, 14, 15, 15, 15, 14, etc. Codificando questi valori in binario avremo le seguenti parole di 4 bit : 1001, 1011, 1100, 1101, 1110, 1110, 1111, 1111, 1111, 1110, etc. Questi valori digitali possono essere processati o analizzati da un analizzatore di segnali digitali o da una semplice CPU. Diversi canali PCM possono anche essere multiplexati di solito per trasmettere una maggior quantità di dati su un unico mezzo trasmissivo. Questa tecnica è chiamata Time Division Multiplexing (TDM, o multiplazione a divisione di tempo), ed è largamente usata nei moderni sistemi di telefonia pubblica. Queste operazioni sono effettuati da un unico circuito integrato chiamato ADC (analog-to-digital converter) a cui va fornito solamente il clock e l’alimentazione, in uscita produce direttamente la codifica digitale del segnale analogico in ingresso. Demodulazione

Per ricavare in ricezione il segnale campionato di ingresso si utilizza la demodulazione, cioè il contrario della modulazione. Passato ogni periodo di campionamento è letto il seguente valore e l’uscita si porta quasi istantaneamente al nuovo valore. Come risultato di queste variazione istantanee si avranno un alto numero di armoniche indesiderate (maggiori di ) che si possono eliminare attraverso un filtro analogico. Teoricamente è impossibile rappresentare discretamente un segnale con banda infinita ma secondo il teorema del campionamento se si utilizza una frequenza di campionamento molto più alta di quella del segnale (pari a due volte sua banda di frequenza ) il segnale ricostruito in ricezione non si discosterà molto da quello originario. L’elettronica utilizzata per riprodurre un accurato segnale analogico da dati discreti è simile a quella usata per generare il segnale digitale. Questi dispositivi sono chiamati DAC (digital-to-analog converters), e operano in modo simile agli ADC. Producono in uscita una tensione o una corrente (dipende dal tipo) secondo il valore presente in ingresso. Questo segnale di uscita viene generalmente filtrato e amplificato prima di essere utilizzato. Limitazioni

Ci sono due fonti di errore implicite nel PCM:

Poiché i campioni dipendono dal tempo è necessario un clock molto preciso per un’accurata riproduzione. Se il clock di codifica o decodifica non è preciso ne risentirà la qualità del segnale in uscita dal dispositivo. Un piccolo errore tra i due clock non è motivo di preoccupazione benché sia costante, tuttavia se l’errore non è costante si va incontro ad una distorsione considerevole soprattutto nei segnali audio e video. Digitalizzazione

Nel PCM convenzionale, il segnale analogico può essere modificato (ad esempio mediante compressione del livello audio) prima di essere digitalizzato.

  Alcuni formati PCM

  Short Name             Description
 -- Integer coding
   OGGPCM_FMT_S8          Signed integer 8 bit
   OGGPCM_FMT_U8          Unsigned integer 8 bit
   OGGPCM_FMT_S16_LE      Signed integer 16 bit little endian
   OGGPCM_FMT_S16_BE      Signed integer 16 bit big endian
   OGGPCM_FMT_S24_LE      Signed integer 24 bit little endian
   OGGPCM_FMT_S24_BE      Signed integer 24 bit big endian
   OGGPCM_FMT_S32_LE      Signed integer 32 bit little endian
   OGGPCM_FMT_S32_BE      Signed integer 32 bit big endian
 --
 -- Compressed PCM
   OGGPCM_FMT_ULAW        G.711 u-law encoding (8 bit)
   OGGPCM_FMT_ALAW        G.711 A-law encoding (8 bit)
 --
 -- IEEE Floating point coding
   OGGPCM_FMT_FLT32_LE    IEEE Float [-1,1] 32 bit little endian
   OGGPCM_FMT_FLT32_BE    IEEE Float [-1,1] 32 bit big endian
   OGGPCM_FMT_FLT64_LE    IEEE Float [-1,1] 64 bit little endian
   OGGPCM_FMT_FLT64_BE    IEEE Float [-1,1] 64 bit big endian

Il Jitter

Per jitter si intende il fenomeno della irregolarità del clock in un segnale digitale. È facile intuire che poiché in natura non esistono parametri “stabili” qualunque segnale digitale è affetto da jitter (così come qualunque segnale analogico è affetto da rumore).

Influenza del clock sul campionamento

Il problema del jitter sussiste anche al momento della conversione AD: eventuali errori sul clock al momento della conversione si ripercuotono sul processo di digitalizzazione, producendo un segnale sporco.

sul supporto ci troviamo un segnale senza clock a cui dovrebbe corrispondere il segnale ideale purtroppo l’impossibilità di sincronizzare perfettamente la lettura del supporto fa sì che venga invece prodotto un segnale affetto da jitter

Un altro processo che può essere inquinato dalle irregolarità del clock è la trasmissione e la ricezione di segnali su una linea digitale seriale. Tutti i problemi legati alla trasmissione digitale divengono tanto più evidenti quanto maggiore è il data-rate. Per questa ragione se le apparecchiature non sono di elevatissima qualità un campionamento ad una frequenza inferiore può dare migliori risultati all’ascolto. In particolare la frequenza di campionamento a 192 KHz è già molto critica, a livello di apparecchiature consumer dà spesso risultati peggiori di quella a 96 KHz e in ambito professionale si preferisce farla viaggiare su due linee distinte a 96 KHz. Quando si deve far lavorare insieme apparecchiature separate la soluzione più robusta e sicura è far viaggiare un unico clock di qualità (word clock) su linee dedicate in modo che la sincronizzazione sia garantita.

schede audio

Un esempio di caratteristiche di una scheda audio:

Specifications:
4 analog inputs and 8 analog outputs
20-bit resolution with 128x oversampling converters
frequency response ±0.1dB, 20Hz-20kHz
THD+N <0.002% typical A-weighted
S/N ratio (EIAJ) >98dB
dynamic range >98dB A-weighted
unbalanced -10dBV signal levels
professional ¼" jacks (TRS compatible)
ADAT optical I/O
39-51kHz sample rate

Six popular specifications for quantifying ADC dynamic performance are SINAD (signal-to- noise-and-distortion ratio), ENOB (effective number of bits), SNR (signal-to-noise ratio), THD (total harmonic distortion), THD + N (total harmonic distortion plus noise), and SFDR (spurious free dynamic range).

Harmonic distortion is normally specified in dBc (decibels below carrier), although in audio applications it may be specified as a percentage. It is the ratio of the rms signal to the rms value of the harmonic in question. Harmonic distortion is generally specified with an input signal near full-scale (generally 0.5 to 1 dB below full-scale to prevent clipping), but it can be specified at any level. For signals much lower than full-scale, other distortion products due to the differential nonlinearity (DNL) of the converter—not direct harmonics—may limit performance.

Total harmonic distortion (THD) is the ratio of the rms value of the fundamental signal to the mean value of the root-sum-square of its harmonics (generally, only the first 5 harmonics are significant). THD of an ADC is also generally specified with the input signal close to full-scale, although it can be specified at any level.

Spurious free dynamic range (SFDR) is the ratio of the rms value of the signal to the rms value of the worst spurious signal regardless of where it falls in the frequency spectrum. The worst spur may or may not be a harmonic of the original signal. SFDR is an important specification in communications systems because it represents the smallest value of signal that can be distinguished from a large interfering signal (blocker). SFDR can be specified with respect to full-scale (dBFS) or with respect to the actual signal amplitude (dBc). The definition of SFDR is shown graphically in Figure 4.

http://www.analog.com/static/imported-files/tutorials/MT-003.pdf

Formati senza perdita

WAV e AIFF

Sia i file nel formato WAV che AIFF sono compatibili con i sistemi operativi Windows e Macintosh. La differenza principale per questo formato è che, essendo progettato per computer montanti processori Intel o compatibili, i dati vengono memorizzati con la notazione little endian, a differenza degli altri formati che, essendo sviluppati prevalentemente per computer con processori Motorola, utilizzano la notazione big endian. Essendo basato sullo standard RIFF il formato supporta varie modalità di immagazzinamento dei dati ma nella pratica il più diffuso è il metodo PCM.

I file wav possono essere codificati con una grande varietà di codecs per ridurre la dimensione dei file (per esempio i codecs GSM o mp3). Il Wav è un formato proprietario a sorgente aperto che può essere riprodotto da quasi tutti i player musicali.

Compressi

Compressione audio lossless L’idea di base di tutti i compressori lossless è quella di fare un primo trattamento del segnale per tenere conto delle correlazioni più semplici. Dapprima si lavora sui canali cercando di sfruttare le loro somiglianze, un modo brutale è quello di codificare la somma e la differenza di due canali stereo ma vi sono tecniche molto più sofisticate. In secondo luogo si applicano al segnale dei filtri predittori che permettono di trattare facilmente la parte principale dell’informazione. Gli errori di predizione non vengono ignorati ma messi da parte. In pratica questo gruppo di trattamenti riduce la ridondanza trasformando il segnale musicale in un insieme di dati parzialmente scorrelati che possono venire ulteriormente compressi con tecniche standard. In fase di decompressione si effettuano le operazioni inverse e si ottiene di nuovo il file originale. In alternativa si può lavorare in tempo reale suonando il file compresso invece che trasformandolo e anche in questo caso non vi è perdita di qualità purché vi sia sufficiente potenza di calcolo per eseguire correttamente l’algoritmo senza far mai svuotare il buffer di uscita. Il risparmio sulla lunghezza del file va da un 20% ad un 60% a seconda del tipo di musica.

FLAC

FLAC diversamente dalla maggiorparte degli algoritmi di compressione lossless (come ad esempio ZIP e gzip), raggiunge compressioni importanti, dell'ordine del 30-50% contro il 10-20% raggiunto da quelli tradizionali.

(informazioni tratte da Wikipedia)

Altri

Codificatori audio

In un sistema digitale, il codificatore audio è la parte del sistema di trasmissione- ricezione che si incarica di trasformare il suono in bit. I requisiti richiesti da un codificatore audio sono la qualità di codifica (migliore è la qualità di codifica, minore è la distorsione subita dal segnale passato attraverso il sistema), l’efficienza di codifica (migliore è l’efficienza di codifica, minore sarà il numero di bit da trasmettere per mantenere la stessa qualità), una bassa latenza di codifica e decodifica (minore è la latenza, minore sarà il ritardo tra i campioni in uscita e quelli in entrata al sistema, supposto che il sistema non introduca ulteriore ritardo), una bassa complessità (maggiore è la complessità, maggiori sono i costi di realizzazione). Ci sono tre categorie principali di codificatori audio che si differenziano per la complessità ed i segnali per i quali sono più adatti a codificare:

I primi sono i più semplici e non presuppongono alcuna caratteristica che il segnale deve possedere. Come esempi si possono prendere i codificatori μ-law ed A-law usati nella telefonia (CCITT G.711) che codificano un segnale PCM lineare a 12 bit in un segnale PCM logaritmico ad 8 bit, ed i codificatori ADPCM (Adaptive Differential Pulse Code Modulation, es. CCITT G.721 e G.723, IMA) che codificano le differenze tra i campioni con una tecnica adattiva. Il rapporto di compressione raggiungibile da tali tecniche (rispetto ad una codifica lineare PCM a 16 bit) varia da 1:2 a 1:6 con un degrado percettibile a rapporti più elevati.

I codificatori nel dominio della frequenza (subband coders e transform coders) funzionano filtrando il segnale in più bande oppure eseguendo una trasformata del segnale per ottenere le sue componenti spettrali. Essi si basano su un fenomeno dell’orecchio umano chiamato masking. Il fenomeno del masking è un difetto percettivo dell’orecchio che appare ogni qual volta un forte segnale audio rende impercettibile un segnale audio più debole spettralmente (frequency masking) o temporalmente (temporal masking) vicino al segnale più forte. Tale fenomeno è stato osservato e provato da una varietà di esperimenti psicoacustici [Pan95]. I codificatori nel dominio della frequenza si basano su questo fenomeno per allocare più o meno bit ai campioni. A questa categoria di codificatori appartengono i codificatori Precision Adaptive Subband Coding (PASC, usato nei DCC Philips), ISO/IEC MPEG-1 audio (layer 1 = PASC, layer 2 = MUSICAM, layer 3), Adaptive Transform Coding (ATRAC, usato nei minidisc Sony), Dolby AC-3, Advanced Audio Coding (AAC, chiamato anche Non-Backward Compatible Coding, NBC, in fase di integrazione negli standard MPEG-2 e MPEG-4). I rapporti di compressione raggiungibili raggiungono l’1:12 con una qualità praticamente trasparente (segnale codificato indistinguibile dal segnale originale per la maggioranza degli ascoltatori professionisti, codificatore AAC, [Meares98]). Questa categoria di codificatori viene utilizzata per codificare musica o parlato ad alta qualità ed è computazionalmente molto complessa.

I codificatori a predizione lineare sono progettati per codificare il parlato ad altissimo rapporto di compressione. Essi si basano su un modello del tratto vocale umano, dove il suono è prodotto da un generatore di tono (suono vocalizzato) o da un generatore di rumore bianco gaussiano (suono non vocalizzato) e poi filtrato da un filtro lineare (cavità orale). Codificatori di questo tipo sono il codificatore Residual Pulse Excitation - Long Term Prediction, RPE-LTP, utilizzato nei telefoni GSM e specificato nello standard ETSI GSM 6.10, il codificatore Proteus utilizzato nel nucleo MAVT e varie implementazioni del CELP (Code Excited Linear Predictor). Essi sono ampiamente sfruttati nelle segreterie telefoniche. La complessità di calcolo è intermedia fra i codificatori a forma d’onda e quelli nel dominio della frequenza. Con questo tipo di codificatori la voce può venir trasmessa a bit rate bassi fino a 2,4 kbps (con una qualità pessima ai massimi livelli di compressione, ma intelligibile).

Psychoacoustic model

A mathematical model of the masking behaviour of the human auditory system. http://www.mp3-tech.org/programmer/docs/dsp97.zip

The two main properties of the human auditory system that make up the psychoacoustic model are:

Each provides a way of determining which portions of a signal are inaudible and indiscernible to the average human, and can thus be removed from a signal.

Absolute Threshold of Hearing

Humans can hear frequencies in the range from 20 Hz to 20,000 Hz. However, this does not mean that all frequencies are heard in the same way. If a signal has any frequency components with power levels that fall below the absolute threshold of hearing, then these components can be discarded, as the average listener will be unable to hear those frequencies of the signal anyway.

Auditory Masking

Humans do not have the ability to hear minute differences in frequency. For example, it is very difficult to discern a 1,000 Hz signal from one that is 1,001 Hz. This becomes even more difficult if the two signals are playing at the same time. Furthermore, the 1,000 Hz signal would also affect a human's ability to hear a signal that is 1,010 Hz, or 1,100 Hz, or 990 Hz. If the 1,000 Hz signal is strong, it will mask signals at nearby frequencies, making them inaudible to the listener.

Formati con perdita

Le opzioni di un compressore lossy

Il bit-rate

È questa la scelta che influisce maggiormente sulla dimensione del file compresso. Un segnale originale stereo in standard CD ha un bit rate di 16×44100×2 = 1411.2 Kbit/s, mentre il programma di compressione di solito offre una gamma da 32 Kbit/s a 320 Kbit/s. Se si sceglie l’opzione CBR (Constant Bit Rate), il codificatore cerca di tenere costante il bit rate selezionato indipendentemente dal contenuto del segnale musicale. Questo consente di stimare in modo accurato la lunghezza del file risultante e garantisce una certa stabilità delle operazioni di taglio che dovrebbe non dispiacere ai puristi. Tipicamente l’opzione CBR usa rate compresi tra 128 e 320 KBit/s. L’opzione VBR (Variable Bit Rate) permette al compressore di “risparmiare bit” quando il segnale musicale è “povero” in modo da utilizzare lo spazio guadagnato per perdere meno informazioni nei passaggi più difficili. Questa capacità adattiva, a detta degli informatici, dovrebbe migliorare la qualità globale a parità di spazio, ma la lunghezza del file compresso è più difficile da prevedere. Verosimilmente poi viene introdotto un certo “pompaggio” delle microinformazioni che può essere avvertito da un orecchio esperto. In genere oltre alla scelta VBR è possibile selezionare una soglia minima di compressione e un livello di qualità che aiutano il codificatore nelle sue scelte.

Modo Stereo

La scelta di privilegiare alcune parti del segnale a scapito delle altre può essere applicata anche ai due canali. Sono spesso disponibili alcune opzioni che consentono di specificare le modalità di trattamento dei due canali:

Si noti che nel caso limite di segnali identici sui due canali, un compressore “furbo” in Joint Stereo può disporre di un bit rate effettivo quasi doppio rispetto a un compressore in Dual Mono.

In genere conviene scegliere l’opzione Joint Stereo a meno che non si abbia a che fare con due tracce mono distinte (come ad esempio una traccia parlata in italiano e una in inglese)

Sampling Rate

Un altro modo per ridurre l’occupazione del file compresso quello di abbassare la frequenza di campionamento, questo uccide le alte frequenze (e l’alta fedeltà del risultato) ma è consigliabile se si vuole comprimere pesantemente del materiale parlato o già originariamente a banda limitata.

Trattamento delle frequenze estreme

Un alternativa meno drastica per ridurre l’occupazione salvando un po’ di qualità consiste nel filtrare via le frequenze estreme durante la fase di compressione. Molti programmi per default tagliano sopra i 16 KHz.

MP3

Brevetti e mp3

Molta gente pensa che lo standard mp3 sia libero e aperto. Lo sviluppo di MPEG e per la maggior parte aperto. Molte persone stanno lavorando sullo sviluppo degli standard MPEG. Quando uno standard MPEG è approvato da ISO, esso contiene varie parti. Definisce la sintassi del bitstream e le sue regole e fornisce un codice sorgente informativo puramente indicativo.

Il Fraunhofer Institute è stato il principale sviluppatore di MPEG audio Layer-3, e lo standard MP3 che è stato approvato è basato su molto del loro lavoro che Fraunhofer ha protetto con vari brevetti. Essi hanno deciso di unire i loro brevetti con quelli di Thomson Multimedia (conosciuto anche come RCA) per creare un portfolio di brevetti congiunto, per richiedere royalties pe ril loro uso.

Essi controllano 18 brevetti relativi a MP3, e uno per Mp3Pro. Alcuni di essi non possono essere evitati cosi' che non si possono usare mp3 senza usare parte di questi brevetti. Fraunhofer and Thomson Multimedia non sono gli unici a detenere brevetti, ma fino ad ora sono gli unici ad aver richiesto royalties, anche se questo non è una garanzia per il futuro.

http://mp3licensing.com/royalty/emd.html

Caratteristiche

Il comitato tecnico MPEG (Moving Picture Experts Group) ha codificato nel tempo vari standard di compressione di filmati in cui era presente anche la parte che trattava la compressione audio. Per fare un esempio tutti i DVD Video in commercio seguono le standard MPEG 2. Durante lo sviluppo del primo standard MPEG 1 furono studiati diversi algoritmi di compressione audio denominati Layer 1, Layer 2 e Layer 3. Il più sofisticato di questi, il Layer 3, una volta che la potenza di calcolo è stata sufficiente ha avuto una diffusione tale che la sua abbreviazione (MPEG 1 Layer 3 è infatti divenuto MP3) è comunemente il sinonimo di compressione Audio. L’algoritmo originario è stato sviluppato dal Fraunhofer Institute for Integrated Circuits che ne detiene il brevetto, ne esistono però anche versioni open-source tra cui per esempio LAME. La diffusione di MP3 fa sì che non solo sia compatibile con tutti i lettori portatili ma anche che decoder integrati esistono in molte apparecchiature stereo consumer (alimentabili attraverso CD masterizzati o pennette USB). Il bit rate più usato è 128 Kbit/sec (circa un dodicesimo dell’originale), il massimo possibile 320 Kbit/sec (circa un quinto dell’originale), a questo rate alcuni parlano di “qualità CD” ma questa affermazione è sostenibile solo in presenza di impianti di ascolto che non permettano di rilevare i dettagli più fini.

WMA

Questo formato è stato sviluppato da Microsoft per non pagare al Fraunhofer Institute i diritti sul codificatore MP3 e ha una diffusione abbasta limitata, si tratta una tecnologia proprietaria che fa parte del Windows Media Framework.

AAC (Advanced Audio Coding)

Il formato AAC è il formato di compressione audio associata allo standard MPEG 4, rappresenta una versione più moderna di MP3 e a parità di bit rate offre una migliore qualità di ascolto, una frequenza di campionamento fino a 96 KHz, un maggior numero di canali e molto altro ancora. AAC è il formato audio standard per Apple iTunes per gli apparecchi Apple iPhone, iPod, iPad, Nintendo DSi, Sony's PlayStation 3 e molti altri. Apple ha messo in commercio tracce musicali compressi con AAC a 128 Kbit/s insieme ad un algoritmo di DRM (Digital Rights Management) che ne rende impossibile la diffusione ulteriore su larga scala. Da qualche tempo sono in vendita a prezzo lievemente maggiorato tracce AAC a 256 Kbit/s senza protezione DRM.

contenitore ogg con vorbis/speex

The Xiph.Org Foundation is a non-profit corporation dedicated to protecting the foundations of Internet multimedia from control by private interests. Our purpose is to support and develop free, open protocols and software to serve the public, developer and business markets.

Il nome "Ogg" si riferisce al formato di file, che include un numero di codec indipendenti per il video, l'audio ed il testo (ad esempio, per i sottotitoli). I file con l'estensione ".ogg" possono contenere uno qualsiasi dei formati supportati, e poiché il formato è liberamente implementabile, i vari codec ogg sono stati incorporati in molti riproduttori multimediali, sia proprietari, sia liberi.

Comparazione qualità

Software

E' possibile utilizzare dir2ogg nella versione installata da autoradio con il comando:

python /usr/lib/python2.7/site-packages/autoradio/dir2ogg.py

per l'installazione di autoradio fare riferimento all'apposita sezione più avanti

Tagging

Guida rapida alla nobile arte del metadata (o anche: come si chiama pure questa?)

Stratificazione informatica rognosa, tipicamente:

  1. Ecco, ho creato un bel formato audio
  2. Sarebbe più bello con dei metadata dentro
  3. Vabbé, in qualche modo ce li s'infila

CD audio

estensione al red book che prevede l'inserimento dei dati nel lead-in o nei sottocanali da R a W.

Necessaire: un cd scritto col cd-text, un lettore in grado di capirlo. Abbastanza comune ma non univerale.

Campi fissi. Previsti:

Keyword

Description

Section

Format

ARRANGER

Name(s) of the arranger(s)

Any

Character

COMPOSER

Name(s) of the composer(s)

Any

Character

DISK_ID

Disc Identification information

Any

Binary

GENRE

Genre Identification and Genre information

Any

Binary

ISRC ISRC

Code of each track

Track

Character

MESSAGE

Message from the content provider and/or artist

Any

Character

PERFORMER

Name(s) of the performer(s)

Any

Character

SONGWRITER

Name(s) of the songwriter(s)

Any

Character

TITLE

Title of album name or Track Titles

Any

Character

TOC_INFO

Table of Content information

Any

Binary

TOC_INFO2

Second Table of Content information

Any

Binary

UPC_EAN

UPC/EAN code of the album

Disc

Character

SIZE_INFO

Size information of the Block

Any

Binary

Necessaire: un oggetto con possibilità di connettersi ad un db (tipicamente: un pc connesso a internet)

CD indentificato da un numero a 32bit spesso mostrato con 8 cifre esadecimali: XXYYYYZZ

XX   : somma dei tempi di partenza delle tracce mod 255
YYYY : durata totale del cd in secondi dall'inizio della prima traccia alla fine dell'ultima
ZZ   : numero di tracce presenti nel cd

Evoluzione dei db esterni disponibili:

blues (self explanatory)

classical (self explanatory)

country (self explanatory)

data (ISO9660 and other data CDs)

folk (self explanatory)

jazz (self explanatory)

newage (self explanatory)

reggae (self explanatory)

rock (incl. funk, soul, rap, pop, industrial, metal, etc.)

soundtrack (movies, shows)

misc (others that do not fit in the above categories)

MP3

Il formato mp3 inizialmente definiva solamente la codifica dell'audio.

Con il tempo si sono affermati standard "informali" (documentati ma non accreditati ufficialmente da nessun ente), principalmente ID3 e APEv2

id3

La prima versione ID3 (ID3v1) prevedeva l'inserimento di 128 bytes alla fine dei dati audio, dove sarebbe stato ignorato dalla maggior parte dei software di decodifica già esistenti all'epoca (non sempre vero, alcuni emettevano gradevoli scoreggette a fine brano)

campo

bytes

descrizione

header

3

"TAG"

titolo

30

nome canzone - 30 caratteri

artista

30

nome artista - 30 caratteri

album

30

nome album - 30 caratteri

anno

4

anno - 4 cifre

commento

30

commento (28 byte se id3v1.1)

genere

1

codice per il genere, o 255

Inizialmente previsti 80 generi dallo sviluppatore (universalmente riconosciuti), la Nullsoft (winamp) ne aggiunse 60.

Limiti:

Intorno al 1998 nasce ID3v2: con la prima versione condivide poco o nulla. Principali caratteristiche:

I codici identificativi dei frame sono definiti nelle specifiche del formato ( http://www.id3.org/Developer_Information ) tranne quelli che iniziano per X, Y o Z considerati sperimentali: i software dovrebbero ignorarli, possono essere usati in maniera "custom" (esponendosi comunque al rischio che altri stiano usando lo stesso frame per fini diversi)

Documentazione assortita:

http://www.id3.org/ID3v2Easy

http://en.wikipedia.org/wiki/ID3

http://books.google.com/books?id=Bby4FJy49QUC&pg=PA335

APEv2

Tag APE nato per formato audio compresso Monkey's Audio (.ape), in seguito esteso alla versione 2 (APEv2) applicabile anche agli mp3.

OGG (vorbis)

Il formato ogg nasce prevedendo al suo interno metadata testuali (evviva evviva) chiamati "comments".

Le specifiche inizialmente fornivano pochi esempi, con il tempo si sono affermati alcuni standard de facto come DISCNUMBER (per gli album composti da più dischi) o i settaggi per le regolazioni del volume. Per la codifica delle copertine è stato utilizzato sostanzialmente lo stesso formato utilizzato per ID3v2

http://wiki.xiph.org/index.php/VorbisComment

http://www.xiph.org/vorbis/doc/v-comment.html

flac

Vedi ogg. Supporta gli stessi "comments" nello stesso formato.

Il fatto che la maggior parte dei decoder ignori correttamente la presenza di tag in formato ID3 ha creato l'illusione che siano supportati, ciò non è vero ( http://flac.sourceforge.net/faq.html#general__tagging ).

wav

Ufficialmente è un formato che non supporta metadata. Per ovviare all'inconveniente è stato creato il Broadcast Wave Format, in alternativa ci sono vari (ab)usi del formato che inseriscono a forza dati non audio, questo spesso si traduce in una parziale incompatibilità del file wav con il resto del mondo

software

CD ROM

http://www.di.unipi.it/~romani/DIDATTICA/AD/AD%209%20cd.pdf

Il Compact Disc è tuttora uno strumento fondamentale per la memorizzazione dell’audio digitale sia nella forma canonica, il CD originale che si compra nei negozi, che nelle altre varianti masterizzate (CD-R Audio, CD-R con file WAV, CD-R con file MP3, ecc.)

I programmi di masterizzazione permettono all’audiofilo le seguenti alternative (e talvolta altre ancora):

Ripping

L’operazione di ripping consiste nell’estrarre i campioni audio da un CD e di memorizzarli in file musicali (eventualmente compressi). Vediamo alcuni fatti fondamentali sul ripping.

http://www.di.unipi.it/~romani/DIDATTICA/AD/AD%209%20cd.pdf

software

sitografia

BfSf: CorsoAudioDigitale/primo (last edited 2012-03-05 00:20:21 by PaoloPatruno)