RetroSearch Browse

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Showing content from https://developer.cdn.mozilla.net/de/docs/Web/API/Web_Audio_API/Basic_concepts_behind_Web_Audio_API below:

Grundlegende Konzepte hinter der Web Audio API - Web-APIs

Grundlegende Konzepte hinter der Web Audio API

Dieser Artikel erklÃ¤rt einige theoretische Grundlagen der Audioverarbeitung, um zu verstehen, wie die Funktionen der Web Audio API arbeiten. Dies wird Ihnen helfen, fundierte Entscheidungen zu treffen, wenn Sie Ihre App zur Verarbeitung von Audio entwerfen. Wenn Sie noch kein Tontechniker sind, gibt Ihnen dieser Artikel genÃ¼gend Hintergrundwissen, um zu verstehen, warum die Web Audio API so funktioniert, wie sie es tut.

Audiographen

Die Web Audio API beinhaltet die Verarbeitung von Audiooperationen innerhalb eines Audio-Kontextes und wurde entwickelt, um modulare SignalfÃ¼hrung zu ermÃ¶glichen. Jeder Audio-Knoten fÃ¼hrt eine grundlegende Audiooperation durch und ist mit einem oder mehreren anderen Audio-Knoten verbunden, um einen Audio-Routing-Graphen zu bilden. Mehrere Quellen mit unterschiedlichen Kanal-Layouts werden unterstÃ¼tzt, sogar innerhalb eines einzigen Kontexts. Dieses modulare Design bietet die FlexibilitÃ¤t, komplexe Audiofunktionen mit dynamischen Effekten zu erstellen.

Audio-Knoten sind Ã¼ber ihre Ein- und AusgÃ¤nge verbunden und bilden eine Kette, die mit einer oder mehreren Quellen beginnt, durch einen oder mehrere Knoten verlÃ¤uft und dann an einem Ziel endet (obwohl Sie kein Ziel angeben mÃ¼ssen, wenn Sie nur einige Audiodaten visualisieren mÃ¶chten). Ein einfacher, typischer Workflow fÃ¼r Web-Audio wÃ¼rde in etwa so aussehen:

Erstellen Sie den Audio-Kontext.
Erstellen Sie Audioquellen innerhalb des Kontexts (wie <audio>, einen Oszillator oder Stream).
Erstellen Sie Audioeffekte (wie die Hall-, Biquad-Filter-, Panner-, oder Kompressor-Knoten).
WÃ¤hlen Sie das endgÃ¼ltige Ziel fÃ¼r das Audio (wie die Lautsprecher des Benutzers).
Verbinden Sie die Quellknoten mit null oder mehr Effekt-Knoten und dann mit dem gewÃ¤hlten Ziel.

Hinweis: Die Kanalnotation ist ein numerischer Wert, wie 2.0 oder 5.1, der die Anzahl der AudiokanÃ¤le angibt, die in einem Signal verfÃ¼gbar sind. Die erste Zahl ist die Anzahl der AudiokanÃ¤le im vollen Frequenzbereich, die das Signal enthÃ¤lt. Die Zahl nach dem Punkt steht fÃ¼r die Anzahl der KanÃ¤le, die fÃ¼r den Low-Frequency-Effekt (LFE) reserviert sind; diese werden oft als Subwoofer bezeichnet.

Jeder Eingang oder Ausgang besteht aus einem oder mehreren Audio-KanÃ¤len, die zusammen ein bestimmtes Audio-Layout darstellen. Jede diskrete Kanalstruktur wird unterstÃ¼tzt, einschlieÃlich Mono, Stereo, Quad, 5.1 usw.

Es gibt mehrere MÃ¶glichkeiten, um Audio zu erhalten:

Der Sound kann direkt in JavaScript von einem Audio-Knoten (wie einem Oszillator) generiert werden.
Er kann aus rohen PCM-Daten erstellt werden (zum Beispiel .WAV-Dateien oder andere Formate, die von decodeAudioData() unterstÃ¼tzt werden).
Er kann von HTML-Media-Elementen wie <video> oder <audio> generiert werden.
Er kann von einem WebRTC MediaStream wie einer Webcam oder einem Mikrofon erlangt werden.

Audiodaten: Was in einem Sample steckt

Wenn ein Audiosignal verarbeitet wird, erfolgt eine Abtastung. Abtastung ist die Umwandlung eines kontinuierlichen Signals in ein diskretes Signal. Anders ausgedrÃ¼ckt, eine kontinuierliche Schallwelle, wie sie von einer Band live gespielt wird, wird in eine Abfolge von digitalen Samples (ein diskretes Zeitsignal) umgewandelt, die es einem Computer ermÃ¶glichen, das Audio in getrennten BlÃ¶cken zu verarbeiten.

Weitere Informationen finden Sie auf der Wikipedia-Seite Abtastung (Signalverarbeitung).

Audiopuffer: Frames, Samples und KanÃ¤le

Ein AudioBuffer ist mit drei Parametern definiert:

der Anzahl der KanÃ¤le (1 fÃ¼r Mono, 2 fÃ¼r Stereo usw.),
seiner LÃ¤nge, also der Anzahl der Sample-Frames im Puffer,
und der Abtastrate, der Anzahl der Sample-Frames, die pro Sekunde abgespielt werden.

Ein Sample ist ein einzelner 32-Bit-Gleitkommawert, der den Wert des Audio-Streams zu jedem bestimmten Zeitpunkt innerhalb eines bestimmten Kanals (links oder rechts, im Fall von Stereo) reprÃ¤sentiert. Ein Frame oder Sample-Frame ist die Menge aller Werte fÃ¼r alle KanÃ¤le, die zu einem bestimmten Zeitpunkt abgespielt werden: alle Samples aller KanÃ¤le, die zur gleichen Zeit abgespielt werden (zwei fÃ¼r einen Stereo-Sound, sechs fÃ¼r 5.1 usw.).

Die Abtastrate ist die Menge dieser Samples (oder Frames, da alle Samples eines Frames gleichzeitig abgespielt werden), die in einer Sekunde abgespielt werden und wird in Hz gemessen. Je hÃ¶her die Abtastrate, desto besser die KlangqualitÃ¤t.

Schauen wir uns einen Mono und einen Stereo Audiopuffer an, die jeweils eine Sekunde lang bei einer Rate von 44100Hz sind:

Der Mono-Puffer hat 44.100 Samples und 44.100 Frames. Die Eigenschaft length wird 44.100 sein.
Der Stereo-Puffer hat 88.200 Samples, aber immer noch 44.100 Frames. Die Eigenschaft length wird immer noch 44.100 sein, da sie gleich der Anzahl der Frames ist.

Wenn ein Puffer abgespielt wird, hÃ¶ren Sie zuerst den ganz links befindlichen Sample-Frame, dann den direkt daneben, dann den nÃ¤chsten und so weiter bis zum Ende des Puffers. Im Fall von Stereo hÃ¶ren Sie beide KanÃ¤le gleichzeitig. Sample-Frames sind praktisch, da sie unabhÃ¤ngig von der Anzahl der KanÃ¤le sind und die Zeit auf ideale Weise fÃ¼r prÃ¤zise Audiomanipulation darstellen.

Hinweis: Um eine Zeit in Sekunden aus einer Frame-Anzahl zu berechnen, teilen Sie die Anzahl der Frames durch die Abtastrate. Um die Anzahl der Frames aus der Anzahl der Samples zu berechnen, mÃ¼ssen Sie nur den letzteren Wert durch die Anzahl der KanÃ¤le teilen.

Hier sind einige einfache Beispiele:

const context = new AudioContext();
const buffer = new AudioBuffer(context, {
  numberOfChannels: 2,
  length: 22050,
  sampleRate: 44100,
});

Hinweis: In digitaler Audioverarbeitung ist 44.100 Hz (alternativ dargestellt als 44,1 kHz) eine gÃ¤ngige Abtastfrequenz. Warum 44,1 kHz?

Erstens, weil der HÃ¶rbereich des menschlichen Ohrs ungefÃ¤hr von 20 Hz bis 20.000 Hz reicht. GemÃ¤Ã dem Nyquist-Shannon-Abtasttheorem muss die Abtastfrequenz grÃ¶Ãer sein als das Doppelte der maximalen Frequenz, die man reproduzieren mÃ¶chte. Daher muss die Abtastrate grÃ¶Ãer als 40.000 Hz sein.

Zweitens mÃ¼ssen Signale Tiefpass-gefiltert werden, bevor sie abgetastet werden, andernfalls tritt Aliasing auf. WÃ¤hrend ein idealer Tiefpassfilter perfekt Frequenzen unter 20 kHz durchlassen wÃ¼rde (ohne sie zu dÃ¤mpfen) und Frequenzen Ã¼ber 20 kHz perfekt abschneiden wÃ¼rde, ist in der Praxis ein Ãbergangsbereich notwendig, in dem Frequenzen teilweise gedÃ¤mpft werden. Je breiter dieser Ãbergangsbereich ist, desto einfacher und wirtschaftlicher ist es, einen Antialiasing-Filter herzustellen. Die Abtastfrequenz von 44,1 kHz ermÃ¶glicht einen Ãbergangsbereich von 2,05 kHz.

Wenn Sie den obigen Aufruf verwenden, erhalten Sie einen Stereo-Puffer mit zwei KanÃ¤len, der beim Abspielen auf einem AudioContext, der bei 44.100 Hz lÃ¤uft (sehr hÃ¤ufig, die meisten normalen Soundkarten laufen mit dieser Rate), 0,5 Sekunden dauert: 22.050 Frames/44.100 Hz = 0,5 Sekunden.

const context = new AudioContext();
const buffer = new AudioBuffer(context, {
  numberOfChannels: 1,
  length: 22050,
  sampleRate: 22050,
});

Wenn Sie diesen Aufruf verwenden, erhalten Sie einen Mono-Puffer (Einkanal-Puffer), der beim Abspielen auf einem AudioContext, der bei 44.100 Hz lÃ¤uft, automatisch auf 44.100 Hz neu abgetastet wird (und daher 44.100 Frames ergibt) und 1,0 Sekunde dauert: 44.100 Frames/44.100 Hz = 1 Sekunde.

Hinweis: Audio-Resampling ist dem Bild-Resizing sehr Ã¤hnlich. Sagen Sie, Sie haben ein 16 x 16 Bild, mÃ¶chten es aber auf einen 32 x 32 Bereich fÃ¼llen. Sie passen es an (oder Ã¤ndern die Abtastung). Das Ergebnis hat weniger QualitÃ¤t (es kann unscharf oder kantig sein, je nach Resize-Algorithmus), aber es funktioniert, wobei das angepasste Bild weniger Speicherplatz benÃ¶tigt. Neugewonnenes Audio ist dasselbe: Sie sparen Speicherplatz, aber in der Praxis kÃ¶nnen Sie keine hochfrequenten Inhalte oder hohe TÃ¶ne korrekt reproduzieren.

Planare versus verschachtelte Puffer

Die Web Audio API verwendet ein planares Pufferformat. Die linken und rechten KanÃ¤le werden so gespeichert:

LLLLLLLLLLLLLLLLRRRRRRRRRRRRRRRR (for a buffer of 16 frames)

Diese Struktur ist in der Audiobearbeitung weit verbreitet und erleichtert die unabhÃ¤ngige Bearbeitung jedes Kanals.

Die Alternative ist die Verwendung eines verschachtelten Pufferformats:

LRLRLRLRLRLRLRLRLRLRLRLRLRLRLRLR (for a buffer of 16 frames)

Dieses Format ist hÃ¤ufig fÃ¼r die Speicherung und Wiedergabe von Audio ohne groÃe Bearbeitung, zum Beispiel: .WAV-Dateien oder ein decodierter MP3-Stream.

Da die Web Audio API auf die Verarbeitung ausgelegt ist, bietet sie nur planare Puffer. Sie verwendet das planare Format, konvertiert das Audio jedoch beim Senden an die Soundkarte zur Wiedergabe in ein verschachteltes Format. Umgekehrt, wenn die API einen MP3 decodiert, beginnt sie mit dem verschachtelten Format und wandelt es zur Verarbeitung in das planare Format um.

AudiokanÃ¤le

Jeder Audiopuffer kann unterschiedliche Anzahlen von KanÃ¤len enthalten. Die meisten modernen AudiogerÃ¤te verwenden die grundlegenden Mono- (nur ein Kanal) und Stereo- (linke und rechte KanÃ¤le) Einstellungen. Einige komplexere GerÃ¤te unterstÃ¼tzen Surround Sound-Einstellungen (wie Quad und 5.1), was zu einem reichhaltigeren Klangerlebnis fÃ¼hren kann, dank ihrer hohen Kanalanzahl. Wir reprÃ¤sentieren die KanÃ¤le in der Regel mit den standardmÃ¤Ãigen AbkÃ¼rzungen, die in der folgenden Tabelle aufgefÃ¼hrt sind:

Name KanÃ¤le Mono 0: M: mono Stereo 0: L: links 1: R: rechts Quad 0: L: links 1: R: rechts 2: SL: surround links 3: SR: surround rechts 5.1 0: L: links 1: R: rechts 2: C: center 3: LFE: subwoofer 4: SL: surround links 5: SR: surround rechts Up-Mixing und Down-Mixing

Wenn die Anzahl der KanÃ¤le des Eingangs und des Ausgangs nicht Ã¼bereinstimmen, muss ein Up-Mixing oder Down-Mixing durchgefÃ¼hrt werden. Die folgenden Regeln, die durch die Einstellung der AudioNode.channelInterpretation-Eigenschaft auf speakers oder discrete gesteuert werden, gelten:

Interpretation EingangskanÃ¤le AusgangskanÃ¤le Mixing-Regeln speakers 1 (Mono) 2 (Stereo) Up-Mix von Mono zu Stereo.
Der M-Eingangskanal wird fÃ¼r beide AusgangskanÃ¤le (L und R) verwendet.

output.L = input.M

  output.R = input.M

1 (Mono) 4 (Quad) Up-Mix von Mono zu Quad.
Der M-Eingangskanal wird fÃ¼r die nicht-surround-AusgangskanÃ¤le (L und R) verwendet. Surround-AusgangskanÃ¤le (SL und SR) sind stumm.

output.L = input.M

  output.R = input.M

  output.SL = 0

  output.SR = 0

1 (Mono) 6 (5.1) Up-Mix von Mono zu 5.1.
Der M-Eingangskanal wird fÃ¼r den Center-Ausgangskanal (C) verwendet. Alle anderen (L, R, LFE, SL, und SR) sind stumm.

output.L = 0

  output.R = 0

output.C = input.M

  output.LFE = 0

  output.SL = 0

  output.SR = 0

2 (Stereo) 1 (Mono) Down-Mix von Stereo zu Mono.
Beide EingangskanÃ¤le (L und R) werden gleichmÃ¤Ãig kombiniert, um den einzigen Ausgangskanal (M) zu erzeugen.
output.M = 0.5 * (input.L + input.R) 2 (Stereo) 4 (Quad) Up-Mix von Stereo zu Quad.
Die L- und R-EingangskanÃ¤le werden fÃ¼r ihre nicht-surround entsprechenden AusgangskanÃ¤le (L und R) verwendet. Surround-AusgangskanÃ¤le (SL und SR) sind stumm.

output.L = input.L

  output.R = input.R

  output.SL = 0

  output.SR = 0

2 (Stereo) 6 (5.1) Up-Mix von Stereo zu 5.1.
Die L- und R-EingangskanÃ¤le werden fÃ¼r ihre nicht-surround entsprechenden AusgangskanÃ¤le (L und R) verwendet. Surround-AusgangskanÃ¤le (SL und SR), sowie die Center (C) und Subwoofer (LFE) KanÃ¤le sind stumm.

output.L = input.L

  output.R = input.R

  output.C = 0

  output.LFE = 0

  output.SL = 0

  output.SR = 0

4 (Quad) 1 (Mono) Down-Mix von Quad zu Mono.
Alle vier EingangskanÃ¤le (L, R, SL, und SR) werden gleichmÃ¤Ãig kombiniert, um den einzigen Ausgangskanal (M) zu erzeugen.
output.M = 0.25 * (input.L + input.R + input.SL + input.SR) 4 (Quad) 2 (Stereo) Down-Mix von Quad zu Stereo.
Beide linken EingangskanÃ¤le (L und SL) werden gleichmÃ¤Ãig kombiniert, um den einzigen linken Ausgangskanal (L) zu erzeugen. Und Ã¤hnlich werden beide rechten EingangskanÃ¤le (R und SR) gleichmÃ¤Ãig kombiniert, um den einzigen rechten Ausgangskanal (R) zu erzeugen.
output.L = 0.5 * (input.L + input.SL)
output.R = 0.5 * (input.R + input.SR) 4 (Quad) 6 (5.1) Up-Mix von Quad zu 5.1.
Die L, R, SL, und SR-EingangskanÃ¤le werden fÃ¼r ihre entsprechenden AusgangskanÃ¤le (L und R) verwendet. Center (C) und Subwoofer (LFE) KanÃ¤le sind stumm.
output.L = input.L
output.R = input.R
output.C = 0
output.LFE = 0
output.SL = input.SL
output.SR = input.SR 6 (5.1) 1 (Mono) Down-Mix von 5.1 zu Mono.
Die linken (L und SL), rechten (R und SR) und zentralen KanÃ¤le werden alle zusammengemischt. Die Surround-KanÃ¤le sind leicht gedÃ¤mpft, und die regulÃ¤ren seitlichen KanÃ¤le werden leistungskompensiert, um sie als einen einzigen Kanal zu zÃ¤hlen, indem sie mit â2/2 multipliziert werden. Der Subwoofer (LFE) Kanal geht verloren.
output.M = 0.7071 * (input.L + input.R) + input.C + 0.5 * (input.SL + input.SR) 6 (5.1) 2 (Stereo) Down-Mix von 5.1 zu Stereo.
Der zentrale Kanal (C) wird mit jedem seitlichen Surround-Kanal (SL oder SR) summiert und zu jedem seitlichen Kanal gemischt. Da es auf zwei KanÃ¤le heruntergemischt wird, wird es mit einer niedrigeren Leistung gemischt: in jedem Fall wird es mit â2/2 multipliziert. Der Subwoofer (LFE) Kanal geht verloren.
output.L = input.L + 0.7071 * (input.C + input.SL)
output.R = input.R + 0.7071 * (input.C + input.SR) 6 (5.1) 4 (Quad) Down-Mix von 5.1 zu Quad.
Der zentrale (C) wird mit den seitlichen nicht-surround KanÃ¤len (L und R) gemischt. Da es auf zwei KanÃ¤le heruntergemischt wird, wird es mit einer niedrigeren Leistung gemischt: in jedem Fall wird es mit â2/2 multipliziert. Die Surround-KanÃ¤le werden unverÃ¤ndert weitergeben. Der Subwoofer (LFE) Kanal geht verloren.
output.L = input.L + 0.7071 * input.C
output.R = input.R + 0.7071 * input.C
output.SL = input.SL
output.SR = input.SR Andere, nicht standardmÃ¤Ãige Layouts Nicht-standardmÃ¤Ãige Kanal-Layouts verhalten sich so, als ob channelInterpretation auf discrete gesetzt ist.
Die Spezifikation erlaubt ausdrÃ¼cklich die zukÃ¼nftige Definition neuer Lautsprecher-Layouts. Daher ist dieser Fallback nicht zukunftssicher, da das Verhalten der Browser fÃ¼r eine bestimmte Anzahl von KanÃ¤len sich in Zukunft Ã¤ndern kann. discrete beliebig (x) beliebig (y) wobei x<y Up-Mix diskrete KanÃ¤le.
FÃ¼llen Sie jeden Ausgangskanal mit seinem Eingabepartner â das heiÃt, dem Eingangskanal mit dem gleichen Index. KanÃ¤le ohne entsprechende EingangskanÃ¤le bleiben stumm. beliebig (x) beliebig (y) wobei x>y Down-Mix diskrete KanÃ¤le.
FÃ¼llen Sie jeden Ausgangskanal mit seinem Eingabepartner â das heiÃt, dem Eingangskanal mit dem gleichen Index. EingangskanÃ¤le ohne entsprechende AusgangskanÃ¤le werden fallen gelassen. Visualisierungen

Im Allgemeinen erhalten wir den Ausgang im Laufe der Zeit, um Audio-Visualisierungen zu erzeugen, normalerweise durch Lesen der VerstÃ¤rkung oder Frequenzdaten. Dann verwenden wir ein grafisches Werkzeug, um die gewonnenen Daten in eine visuelle Darstellung, wie ein Diagramm, umzuwandeln. Die Web Audio API verfÃ¼gt Ã¼ber einen AnalyserNode, der das durchlaufende Audiosignal nicht verÃ¤ndert. DarÃ¼ber hinaus gibt er die Audiodaten aus, was uns ermÃ¶glicht, sie mit einer Technologie wie <canvas> zu verarbeiten.

Sie kÃ¶nnen Daten mit den folgenden Methoden abrufen:

AnalyserNode.getFloatFrequencyData(): Kopiert die aktuellen Frequenzdaten in ein Ã¼bergebenes Float32Array Array.
AnalyserNode.getByteFrequencyData(): Kopiert die aktuellen Frequenzdaten in ein Ã¼bergebenes Uint8Array (unsigned Byte Array).
AnalyserNode.getFloatTimeDomainData(): Kopiert die aktuelle Wellenform oder Zeit-DomÃ¤nendaten in ein Ã¼bergebenes Float32Array Array.
AnalyserNode.getByteTimeDomainData(): Kopiert die aktuelle Wellenform oder Zeit-DomÃ¤nendaten in ein Ã¼bergebenes Uint8Array (unsigned Byte Array).

Hinweis: FÃ¼r weitere Informationen, siehe unseren Visualisierungen mit der Web Audio API Artikel.

Raumklang

Die Audio-Raumklangerweiterung ermÃ¶glicht uns, die Position und das Verhalten eines Audiosignals an einem bestimmten Punkt im physischen Raum zu modellieren, um zu simulieren, dass der ZuhÃ¶rer dieses Audio hÃ¶rt. In der Web Audio API wird die Raumklangerweiterung durch den PannerNode und den AudioListener behandelt.

Der Panner verwendet ein kartesisches Koordinatensystem, um die Position der Audioquelle als Vektor und ihre Orientierung als 3D-Richtkegel zu beschreiben. Der Kegel kann ziemlich groÃ sein, zum Beispiel fÃ¼r omnidirektionale Quellen.

Ebenso beschreibt die Web Audio API den ZuhÃ¶rer mit einem kartesischen Koordinatensystem: Seine Position als Vektor und seine Orientierung als zwei Richtungsvektoren, oben und vorne. Diese Vektoren definieren die Richtung des Kopfes des ZuhÃ¶rers und die Richtung, in die die Nase des ZuhÃ¶rers zeigt. Die Vektoren sind zueinander senkrecht.

Hinweis: FÃ¼r weitere Informationen, siehe unseren Basislehrgang zur Web-Audio-Raumklangverarbeitung Artikel.

Fan-in und Fan-out

Im Audiobereich beschreibt Fan-in den Vorgang, bei dem ein ChannelMergerNode eine Serie von Mono-Eingangsquellen aufnimmt und ein einziges Mehrkanalsignal als Ausgang erzeugt:

Fan-out beschreibt den entgegengesetzten Vorgang, bei dem ein ChannelSplitterNode eine Mehrkanal-Eingangsquelle aufnimmt und mehrere Mono-Ausgangssignale erzeugt:

RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.4