RetroSearch Browse

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Showing content from https://developer.cdn.mozilla.net/de/docs/Web/API/Web_Speech_API/Using_the_Web_Speech_API below:

Verwendung der Web Speech API - Web-APIs

Verwendung der Web Speech API

Die Web Speech API bietet zwei unterschiedliche FunktionalitÃ¤ten â Spracherkennung und Sprachausgabe (auch bekannt als Text-to-Speech oder tts) â die interessante neue MÃ¶glichkeiten fÃ¼r Barrierefreiheit und Steuermethoden erÃ¶ffnen. Dieser Artikel bietet eine einfache EinfÃ¼hrung in beide Bereiche, zusammen mit Demos.

Spracherkennung

Spracherkennung beinhaltet das Empfangen von Sprache Ã¼ber das Mikrofon eines GerÃ¤ts, die dann von einem Spracherkennungsdienst mit einer Grammatikliste abgeglichen wird (im Grunde genommen das Vokabular, das Sie in einer bestimmten App erkannt haben mÃ¶chten). Wenn ein Wort oder Satz erfolgreich erkannt wird, wird es als Ergebnis (oder Liste von Ergebnissen) als Textzeichenfolge zurÃ¼ckgegeben, und es kÃ¶nnen daraufhin weitere Aktionen initiiert werden.

Die Web Speech API verfÃ¼gt Ã¼ber eine Hauptsteuerungsschnittstelle dafÃ¼r â SpeechRecognition â sowie eine Reihe von eng verwandten Schnittstellen zum Darstellen von Grammatik, Ergebnissen usw. Im Allgemeinen wird das standardmÃ¤Ãige Spracherkennungssystem verwendet, das auf dem GerÃ¤t verfÃ¼gbar ist â die meisten modernen Betriebssysteme haben ein Spracherkennungssystem zur Ausgabe von Sprachbefehlen. Denken Sie an die Diktierfunktion auf macOS, Siri auf iOS, Cortana auf Windows 10, Android Speech usw.

Hinweis: In einigen Browsern, wie Chrome, erfordert die Spracherkennung auf einer Webseite eine serverbasierte Erkennungs-Engine. Ihr Audio wird an einen Webdienst zur Erkennungsverarbeitung gesendet, sodass es offline nicht funktioniert.

Demo

Um die einfache Nutzung der Web-Spracherkennung zu demonstrieren, haben wir eine Demo namens Speech color changer geschrieben. Wenn der Bildschirm angetippt/geklickt wird, kÃ¶nnen Sie ein HTML-Farb-SchlÃ¼sselwort sagen, und die Hintergrundfarbe der App Ã¤ndert sich in diese Farbe.

Um die Demo auszufÃ¼hren, navigieren Sie zur Live-Demo-URL in einem unterstÃ¼tzenden mobilen Browser (wie Chrome).

HTML und CSS

Das HTML und CSS fÃ¼r die App ist wirklich trivial. Wir haben einen Titel, einen Anleitungsabsatz und ein Div, in das wir Diagnosemeldungen ausgeben.

<h1>Speech color changer</h1>
<p class="hints"></p>
<div>
  <p class="output"><em>â¦diagnostic messages</em></p>
</div>

Das CSS bietet eine sehr einfache, responsive Gestaltung, sodass es auf allen GerÃ¤ten gut aussieht.

JavaScript

Schauen wir uns das JavaScript etwas genauer an.

PrÃ¤fixeigenschaften

Browser unterstÃ¼tzen derzeit Spracherkennung mit PrÃ¤fixeigenschaften. Daher beinhalten wir am Anfang unseres Codes diese Zeilen, um sowohl PrÃ¤fixeigenschaften als auch unprÃ¤fixierte Versionen zu ermÃ¶glichen, die mÃ¶glicherweise in Zukunft unterstÃ¼tzt werden:

const SpeechRecognition =
  window.SpeechRecognition || window.webkitSpeechRecognition;
const SpeechGrammarList =
  window.SpeechGrammarList || window.webkitSpeechGrammarList;
const SpeechRecognitionEvent =
  window.SpeechRecognitionEvent || window.webkitSpeechRecognitionEvent;

Die Grammatik

Der nÃ¤chste Teil unseres Codes definiert die Grammatik, die unsere App erkennen soll. Die folgende Variable wird definiert, um unsere Grammatik zu halten:

const colors = [
  "aqua",
  "azure",
  "beige",
  "bisque",
  "black",
  "blue",
  "brown",
  "chocolate",
  "coral",
  // â¦
];
const grammar = `#JSGF V1.0; grammar colors; public <color> = ${colors.join(
  " | ",
)};`;

Das verwendete Grammatikformat ist das JSpeech Grammar Format (JSGF) â weitere Informationen finden Sie unter dem obigen Link zur Spezifikation. FÃ¼r den Moment gehen wir es jedoch schnell durch:

Die Zeilen werden durch Semikolons getrennt, genau wie in JavaScript.
Die erste Zeile â #JSGF V1.0; â gibt das verwendete Format und die Version an. Diese muss immer zuerst enthalten sein.
Die zweite Zeile gibt eine Art von Begriff an, die wir erkennen mÃ¶chten. public erklÃ¤rt, dass es sich um eine Ã¶ffentliche Regel handelt, die Zeichenfolge in der spitzen Klammer definiert den erkannten Namen fÃ¼r diesen Begriff (color), und die Liste von Elementen, die dem Gleichheitszeichen folgen, sind die alternativen Werte, die erkannt und akzeptiert werden als geeignete Werte fÃ¼r den Begriff. Beachten Sie, wie jede von einem Pipe-Zeichen getrennt ist.
Sie kÃ¶nnen so viele Begriffe definieren, wie Sie mÃ¶chten, auf separaten Zeilen, die der obigen Struktur folgen, und recht komplexe Grammatikdefinitionen einbeziehen. FÃ¼r diese einfache Demo halten wir die Dinge einfach.

Einbindung der Grammatik in unsere Spracherkennung

Der nÃ¤chste Schritt ist die Definition einer Spracherkennungsinstanz, um die Erkennung fÃ¼r unsere Anwendung zu steuern. Dies erfolgt mit dem SpeechRecognition() Konstruktor. Wir erstellen auch eine neue Sprachgrammatikliste, um unsere Grammatik zu enthalten, mit dem SpeechGrammarList() Konstruktor.

const recognition = new SpeechRecognition();
const speechRecognitionList = new SpeechGrammarList();

Wir fÃ¼gen unsere grammar der Liste mit der Methode SpeechGrammarList.addFromString() hinzu. Diese akzeptiert als Parameter die Zeichenfolge, die wir hinzufÃ¼gen mÃ¶chten, sowie optional einen Gewichtswert, der die Bedeutung dieser Grammatik in Bezug auf andere in der Liste verfÃ¼gbare Grammatiken angibt (kann von 0 bis einschlieÃlich 1 sein). Die hinzugefÃ¼gte Grammatik ist in der Liste als Instanz des SpeechGrammar Objekts verfÃ¼gbar.

speechRecognitionList.addFromString(grammar, 1);

Wir fÃ¼gen dann die SpeechGrammarList der Spracherkennungsinstanz hinzu, indem wir sie auf den Wert der SpeechRecognition.grammars Eigenschaft setzen. Wir setzen auch ein paar andere Eigenschaften der Erkennungsinstanz, bevor wir weitermachen:

SpeechRecognition.continuous: Steuert, ob kontinuierliche Ergebnisse erfasst werden (true) oder nur ein einzelnes Ergebnis jedes Mal, wenn die Erkennung gestartet wird (false).
SpeechRecognition.lang: Setzt die Sprache der Erkennung. Dies einzustellen ist eine gute Praxis und daher empfohlen.
SpeechRecognition.interimResults: Definiert, ob das Spracherkennungssystem vorlÃ¤ufige Ergebnisse oder nur endgÃ¼ltige Ergebnisse zurÃ¼ckgeben soll. EndgÃ¼ltige Ergebnisse sind fÃ¼r diese einfache Demo ausreichend.
SpeechRecognition.maxAlternatives: Stellt die Anzahl der alternativen potenziellen Ãbereinstimmungen ein, die pro Ergebnis zurÃ¼ckgegeben werden sollen. Dies kann manchmal nÃ¼tzlich sein, z.B. wenn ein Ergebnis nicht ganz klar ist und Sie eine Liste mit Alternativen anzeigen mÃ¶chten, aus der der Benutzer die richtige auswÃ¤hlen kann. Aber es wird fÃ¼r diese einfache Demo nicht benÃ¶tigt, daher spezifizieren wir nur eins (was eigentlich ohnehin der Standard ist).

recognition.grammars = speechRecognitionList;
recognition.continuous = false;
recognition.lang = "en-US";
recognition.interimResults = false;
recognition.maxAlternatives = 1;

Starten der Spracherkennung

Nachdem wir Referenzen auf das Ausgabe-<div> und das HTML-Element erfasst haben (um Diagnosen auszugeben und die Hintergrundfarbe der App spÃ¤ter zu aktualisieren), implementieren wir einen onclick-Handler, sodass bei einem Tippen/Klicken auf den Bildschirm der Spracherkennungsdienst gestartet wird. Dies wird durch Aufruf von SpeechRecognition.start() erreicht. Die forEach() Methode wird verwendet, um farbige Indikatoren auszugeben, welche Farben gesagt werden sollen.

const diagnostic = document.querySelector(".output");
const bg = document.querySelector("html");
const hints = document.querySelector(".hints");

let colorHTML = "";
colors.forEach((color, i) => {
  console.log(color, i);
  colorHTML += `<span style="background-color:${color};"> ${color} </span>`;
});
hints.innerHTML = `Tap or click then say a color to change the background color of the app. Try ${colorHTML}.`;

document.body.onclick = () => {
  recognition.start();
  console.log("Ready to receive a color command.");
};

Empfangen und Verarbeiten von Ergebnissen

Sobald die Spracherkennung gestartet ist, gibt es viele Ereignishandler, die zum Abrufen von Ergebnissen und anderen umgebenden Informationen verwendet werden kÃ¶nnen (siehe die SpeechRecognition Ereignisse.) Der hÃ¤ufigste, den Sie wahrscheinlich verwenden werden, ist das result Ereignis, das ausgelÃ¶st wird, sobald ein erfolgreiches Ergebnis empfangen wurde:

recognition.onresult = (event) => {
  const color = event.results[0][0].transcript;
  diagnostic.textContent = `Result received: ${color}.`;
  bg.style.backgroundColor = color;
  console.log(`Confidence: ${event.results[0][0].confidence}`);
};

Die zweite Zeile hier sieht etwas komplex aus, deswegen erklÃ¤ren wir sie Schritt fÃ¼r Schritt. Die SpeechRecognitionEvent.results Eigenschaft gibt ein SpeechRecognitionResultList Objekt zurÃ¼ck, das SpeechRecognitionResult Objekte enthÃ¤lt. Es hat einen Getter, sodass es wie ein Array angesprochen werden kann â das erste [0] gibt das SpeechRecognitionResult an Position 0 zurÃ¼ck. Jedes SpeechRecognitionResult Objekt enthÃ¤lt SpeechRecognitionAlternative Objekte, die individuelle erkannte WÃ¶rter enthalten. Diese haben ebenfalls Getter, sodass sie wie Arrays angesprochen werden kÃ¶nnen â das zweite [0] gibt daher die SpeechRecognitionAlternative an Position 0 zurÃ¼ck. Wir kehren dann ihre transcript Eigenschaft zurÃ¼ck, um eine Zeichenfolge zu erhalten, die das einzelne erkannte Ergebnis als Zeichenfolge enthÃ¤lt, setzen die Hintergrundfarbe auf die erkannte Farbe und melden die erkannte Farbe als Diagnosemeldung in der BenutzeroberflÃ¤che.

Wir verwenden auch das speechend Ereignis, um den Spracherkennungsdienst vom Laufen abzuhalten (mithilfe von SpeechRecognition.stop()), sobald ein einzelnes Wort erkannt wurde und es vollstÃ¤ndig ausgesprochen wurde:

recognition.onspeechend = () => {
  recognition.stop();
};

Umgang mit Fehlern und nicht erkannter Sprache

Die letzten beiden Handler sind da, um FÃ¤lle zu behandeln, in denen Sprache erkannt wurde, die nicht in der definierten Grammatik war, oder ein Fehler aufgetreten ist. Das nomatch Ereignis scheint fÃ¼r den erstgenannten Fall vorgesehen zu sein, obwohl es momentan nicht korrekt ausgelÃ¶st zu werden scheint; es gibt einfach das zurÃ¼ck, was erkannt wurde.

recognition.onnomatch = (event) => {
  diagnostic.textContent = "I didn't recognize that color.";
};

Das error Ereignis behandelt FÃ¤lle, in denen tatsÃ¤chlich ein Fehler bei der erfolgreichen Erkennung aufgetreten ist â die SpeechRecognitionErrorEvent.error Eigenschaft enthÃ¤lt den tatsÃ¤chlich zurÃ¼ckgegebenen Fehler:

recognition.onerror = (event) => {
  diagnostic.textContent = `Error occurred in recognition: ${event.error}`;
};

Sprachausgabe

Die Sprachausgabe (auch bekannt als Text-to-Speech oder TTS) beinhaltet die Synthese von Text, der in einer App enthalten ist, und dessen Wiedergabe aus dem Lautsprecher oder der Audioausgangsverbindung eines GerÃ¤ts.

Die Web Speech API hat eine Hauptsteuerungsschnittstelle dafÃ¼r â SpeechSynthesis â sowie eine Reihe von eng verwandten Schnittstellen fÃ¼r die Darstellung synthetisierter Texte (bekannt als ÃuÃerungen), zu verwendende Stimmen fÃ¼r die ÃuÃerung usw. Auch hier haben die meisten Betriebssysteme eine Art Sprachausgabesystem, das von der API fÃ¼r diese Aufgabe nach MÃ¶glichkeit verwendet wird.

Demo

Um die einfache Nutzung der Web-Sprachausgabe zu zeigen, haben wir eine Demo namens Speak easy synthesis bereitgestellt. Diese enthÃ¤lt eine Reihe von Formularsteuerungen zum Eingeben von Text, der synthetisiert werden soll, sowie Optionen zur Einstellung der TonhÃ¶he, Geschwindigkeit und Stimme, die bei der ÃuÃerung des Textes verwendet werden sollen. Nachdem Sie Ihren Text eingegeben haben, kÃ¶nnen Sie Enter/Return drÃ¼cken, um ihn sich anhÃ¶ren zu kÃ¶nnen.

Um die Demo auszufÃ¼hren, navigieren Sie zur Live-Demo-URL in einem unterstÃ¼tzenden mobilen Browser.

HTML und CSS

Das HTML und CSS sind wiederum ziemlich trivial, enthalten einen Titel, einige Gebrauchsanweisungen und ein Formular mit einigen einfachen Steuerungen. Das <select> Element ist zunÃ¤chst leer, wird aber spÃ¤ter Ã¼ber JavaScript mit <option>s gefÃ¼llt.

<h1>Speech synthesizer</h1>

<p>
  Enter some text in the input below and press return to hear it. Change voices
  using the dropdown menu.
</p>

<form>
  <input type="text" class="txt" />
  <div>
    <label for="rate">Rate</label
    ><input type="range" min="0.5" max="2" value="1" step="0.1" id="rate" />
    <div class="rate-value">1</div>
    <div class="clearfix"></div>
  </div>
  <div>
    <label for="pitch">Pitch</label
    ><input type="range" min="0" max="2" value="1" step="0.1" id="pitch" />
    <div class="pitch-value">1</div>
    <div class="clearfix"></div>
  </div>
  <select></select>
</form>

JavaScript

Lassen Sie uns das JavaScript untersuchen, das diese App antreibt.

Variablen festlegen

ZunÃ¤chst erfassen wir Referenzen zu allen im UI enthaltenen DOM-Elementen, interessanterweise erfassen wir jedoch eine Referenz auf Window.speechSynthesis. Dies ist der Einstiegspunkt der API â es gibt eine Instanz von SpeechSynthesis zurÃ¼ck, die Steuerungsschnittstelle fÃ¼r die Web-Sprachausgabe.

const synth = window.speechSynthesis;

const inputForm = document.querySelector("form");
const inputTxt = document.querySelector(".txt");
const voiceSelect = document.querySelector("select");

const pitch = document.querySelector("#pitch");
const pitchValue = document.querySelector(".pitch-value");
const rate = document.querySelector("#rate");
const rateValue = document.querySelector(".rate-value");

const voices = [];

Das select Element befÃ¼llen

Um das <select> Element mit den verschiedenen Sprachoptionen zu fÃ¼llen, die das GerÃ¤t zur VerfÃ¼gung hat, haben wir eine populateVoiceList() Funktion geschrieben. Wir rufen zunÃ¤chst SpeechSynthesis.getVoices() auf, das eine Liste aller verfÃ¼gbaren Stimmen, dargestellt durch SpeechSynthesisVoice Objekte, zurÃ¼ckgibt. Dann durchlaufen wir diese Liste â fÃ¼r jede Stimme erstellen wir ein <option> Element, setzen den Textinhalt auf den Namen der Stimme (entnommen aus SpeechSynthesisVoice.name), die Sprache der Stimme (entnommen aus SpeechSynthesisVoice.lang) und fÃ¼gen -- DEFAULT hinzu, wenn die Stimme die Standardstimme fÃ¼r die Synthese-Engine ist (Ã¼berprÃ¼ft, indem wir sehen, ob SpeechSynthesisVoice.default true zurÃ¼ckgibt).

ZusÃ¤tzlich erstellen wir data- Attribute fÃ¼r jede Option, die den Namen und die Sprache der zugehÃ¶rigen Stimme enthalten, sodass wir sie spÃ¤ter leicht abrufen kÃ¶nnen, und fÃ¼gen die Optionen als Kinder zum select hinzu.

function populateVoiceList() {
  voices = synth.getVoices();

  for (const voice of voices) {
    const option = document.createElement("option");
    option.textContent = `${voice.name} (${voice.lang})`;

    if (voice.default) {
      option.textContent += " â DEFAULT";
    }

    option.setAttribute("data-lang", voice.lang);
    option.setAttribute("data-name", voice.name);
    voiceSelect.appendChild(option);
  }
}

Ãltere Browser unterstÃ¼tzen das voiceschanged Ereignis nicht und liefern einfach eine Liste von Stimmen, wenn SpeechSynthesis.getVoices() aufgerufen wird. In anderen, wie Chrome, mÃ¼ssen Sie auf das Ereignis warten, bevor Sie die Liste fÃ¼llen. Um beide FÃ¤lle zu berÃ¼cksichtigen, fÃ¼hren wir die Funktion wie unten gezeigt aus:

populateVoiceList();
if (speechSynthesis.onvoiceschanged !== undefined) {
  speechSynthesis.onvoiceschanged = populateVoiceList;
}

Den eingegebenen Text sprechen

Als nÃ¤chstes erstellen wir einen Event-Handler, um den in das Textfeld eingegebenen Text zu sprechen. Wir verwenden ein onsubmit Handler im Formular, sodass die Aktion erfolgt, wenn Enter/Return gedrÃ¼ckt wird. Zuerst erstellen wir eine neue SpeechSynthesisUtterance() Instanz mithilfe seines Konstruktors â dieser wird der Wert des Texteingabefeldes als Parameter Ã¼bergeben.

Als nÃ¤chstes mÃ¼ssen wir herausfinden, welche Stimme verwendet werden soll. Wir verwenden die HTMLSelectElement selectedOptions Eigenschaft, um das aktuell ausgewÃ¤hlte <option> Element zurÃ¼ckzugeben. Dann verwenden wir das data-name Attribut dieses Elements, finden das SpeechSynthesisVoice Objekt, dessen Name mit diesem Attributswert Ã¼bereinstimmt. Wir setzen das passende Voice-Objekt auf den Wert der SpeechSynthesisUtterance.voice Eigenschaft.

SchlieÃlich setzen wir die SpeechSynthesisUtterance.pitch und SpeechSynthesisUtterance.rate auf die Werte der entsprechenden Bereichsformularelemente. Mit allen notwendigen Vorbereitungen beginnen wir die ÃuÃerung zu sprechen, indem wir SpeechSynthesis.speak() aufrufen und die SpeechSynthesisUtterance Instanz als Parameter Ã¼bergeben.

inputForm.onsubmit = (event) => {
  event.preventDefault();

  const utterThis = new SpeechSynthesisUtterance(inputTxt.value);
  const selectedOption =
    voiceSelect.selectedOptions[0].getAttribute("data-name");
  for (const voice of voices) {
    if (voice.name === selectedOption) {
      utterThis.voice = voice;
    }
  }
  utterThis.pitch = pitch.value;
  utterThis.rate = rate.value;
  synth.speak(utterThis);
  utterThis.onpause = (event) => {
    const char = event.utterance.text.charAt(event.charIndex);
    console.log(
      `Speech paused at character ${event.charIndex} of "${event.utterance.text}", which is "${char}".`,
    );
  };
  inputTxt.blur();
};

Im letzten Teil des Handlers fÃ¼gen wir ein pause Ereignis ein, um zu demonstrieren, wie SpeechSynthesisEvent sinnvoll genutzt werden kann. Wenn SpeechSynthesis.pause() aufgerufen wird, gibt dies eine Meldung zurÃ¼ck, die die Zeichenanzahl und den Namen angibt, bei dem die Sprache pausiert wurde.

Zuletzt rufen wir blur() auf das Texteingabefeld auf. Dies dient hauptsÃ¤chlich dazu, die Tastatur auf Firefox OS auszublenden.

Aktualisieren der angezeigten Pitch- und Geschwindigkeitswerte

Der letzte Teil des Codes aktualisiert die pitch/rate Werte, die in der BenutzeroberflÃ¤che angezeigt werden, jedes Mal, wenn die Schiebereglerpositionen bewegt werden.

pitch.onchange = () => {
  pitchValue.textContent = pitch.value;
};

rate.onchange = () => {
  rateValue.textContent = rate.value;
};

RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.4