RetroSearch Browse

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Showing content from https://developer.mozilla.org/de/docs/Web/JavaScript/Reference/Global_Objects/String/normalize below:

String.prototype.normalize() - JavaScript | MDN

String.prototype.normalize()

Baseline Widely available

Die normalize()-Methode von String-Werten gibt die Unicode-Normalisierungsform dieses Strings zurÃ¼ck.

const name1 = "\u0041\u006d\u00e9\u006c\u0069\u0065";
const name2 = "\u0041\u006d\u0065\u0301\u006c\u0069\u0065";

console.log(`${name1}, ${name2}`);
// Expected output: "AmÃ©lie, AmÃ©lie"
console.log(name1 === name2);
// Expected output: false
console.log(name1.length === name2.length);
// Expected output: false

const name1NFC = name1.normalize("NFC");
const name2NFC = name2.normalize("NFC");

console.log(`${name1NFC}, ${name2NFC}`);
// Expected output: "AmÃ©lie, AmÃ©lie"
console.log(name1NFC === name2NFC);
// Expected output: true
console.log(name1NFC.length === name2NFC.length);
// Expected output: true

Syntax

normalize()
normalize(form)

Parameter

form Optional

Einer der Werte "NFC", "NFD", "NFKC" oder "NFKD", der die Unicode-Normalisierungsform angibt. Wenn ausgelassen oder undefined, wird "NFC" verwendet.

Diese Werte haben folgende Bedeutungen:

"NFC": Kanonische Dekomposition, gefolgt von kanonischer Komposition.
"NFD": Kanonische Dekomposition.
"NFKC": KompatibilitÃ¤tsdekomposition, gefolgt von kanonischer Komposition.
"NFKD": KompatibilitÃ¤tsdekomposition.

RÃ¼ckgabewert

Ein String, der die Unicode-Normalisierungsform des gegebenen Strings enthÃ¤lt.

Ausnahmen

RangeError: Wird ausgelÃ¶st, wenn form nicht einer der oben angegebenen Werte ist.

Beschreibung

Unicode weist jedem Zeichen einen einzigartigen numerischen Wert, einen Codepunkt, zu. Zum Beispiel wird der Codepunkt fÃ¼r "A" als U+0041 angegeben. Manchmal kÃ¶nnen jedoch mehr als ein Codepunkt oder eine Sequenz von Codepunkten dasselbe abstrakte Zeichen darstellen â das Zeichen "Ã±" zum Beispiel kann durch einen der folgenden dargestellt werden:

Der einzelne Codepunkt U+00F1.
Der Codepunkt fÃ¼r "n" (U+006E) gefolgt von dem Codepunkt fÃ¼r die kombinierende Tilde (U+0303).

const string1 = "\u00F1";
const string2 = "\u006E\u0303";

console.log(string1); // Ã±
console.log(string2); // Ã±

Da die Codepunkte jedoch unterschiedlich sind, wird die Zeichenfolgenvergleichung sie nicht als gleich behandeln. Und da die Anzahl der Codepunkte in jeder Version unterschiedlich ist, haben sie sogar unterschiedliche LÃ¤ngen.

const string1 = "\u00F1"; // Ã±
const string2 = "\u006E\u0303"; // Ã±

console.log(string1 === string2); // false
console.log(string1.length); // 1
console.log(string2.length); // 2

Die normalize()-Methode hilft, dieses Problem zu lÃ¶sen, indem sie einen String in eine normalisierte Form konvertiert, die fÃ¼r alle Sequenzen von Codepunkten, die dasselbe Zeichen darstellen, einheitlich ist. Es gibt zwei Hauptnormalisierungsformen, eine basierend auf kanonischer Ãquivalenz und die andere auf KompatibilitÃ¤t.

Kanonische Ãquivalenznormalisierung

In Unicode haben zwei Sequenzen von Codepunkten kanonische Ãquivalenz, wenn sie dieselben abstrakten Zeichen darstellen und optisch und vom Verhalten her immer gleich erscheinen sollten (zum Beispiel sollten sie immer auf die gleiche Weise sortiert werden).

Sie kÃ¶nnen normalize() mit den Argumenten "NFD" oder "NFC" verwenden, um eine Form des Strings zu erzeugen, die fÃ¼r alle kanonisch Ã¤quivalenten Strings gleich ist. Im folgenden Beispiel normalisieren wir zwei Darstellungen des Zeichens "Ã±":

let string1 = "\u00F1"; // Ã±
let string2 = "\u006E\u0303"; // Ã±

string1 = string1.normalize("NFD");
string2 = string2.normalize("NFD");

console.log(string1 === string2); // true
console.log(string1.length); // 2
console.log(string2.length); // 2

Zusammengesetzte und zerlegte Formen

Beachten Sie, dass die LÃ¤nge der normalisierten Form unter "NFD" 2 ist. Das liegt daran, dass "NFD" Ihnen die zerlegte Version der kanonischen Form gibt, in der einzelne Codepunkte in mehrere kombinierende aufgeteilt werden. Die zerlegte kanonische Form fÃ¼r "Ã±" ist "\u006E\u0303".

Sie kÃ¶nnen "NFC" angeben, um die zusammengesetzte kanonische Form zu erhalten, in der mehrere Codepunkte durch einzelne Codepunkte ersetzt werden, wenn mÃ¶glich. Die zusammengesetzte kanonische Form fÃ¼r "Ã±" ist "\u00F1":

let string1 = "\u00F1"; // Ã±
let string2 = "\u006E\u0303"; // Ã±

string1 = string1.normalize("NFC");
string2 = string2.normalize("NFC");

console.log(string1 === string2); // true
console.log(string1.length); // 1
console.log(string2.length); // 1
console.log(string2.codePointAt(0).toString(16)); // f1

KompatibilitÃ¤tsnormalisierung

In Unicode sind zwei Sequenzen von Codepunkten kompatibel, wenn sie dieselben abstrakten Zeichen darstellen und in einigen â aber nicht unbedingt allen â Anwendungen gleich behandelt werden sollten.

Alle kanonisch Ã¤quivalenten Sequenzen sind ebenfalls kompatibel, aber nicht umgekehrt.

Zum Beispiel:

Der Codepunkt U+FB00 stellt die Ligatur "ï¬" dar. Er ist kompatibel mit zwei aufeinander folgenden U+0066 Codepunkten ("ff").
Der Codepunkt U+24B9 stellt das Symbol "â¹" dar. Er ist kompatibel mit dem U+0044 Codepunkt ("D").

In einigen Aspekten (wie Sortierung) sollten sie als Ã¤quivalent behandelt werden â in anderen (wie der visuellen Darstellung) jedoch nicht, daher sind sie nicht kanonisch Ã¤quivalent.

Sie kÃ¶nnen normalize() mit den Argumenten "NFKD" oder "NFKC" verwenden, um eine Form des Strings zu erzeugen, die fÃ¼r alle kompatiblen Strings gleich ist:

let string1 = "\uFB00";
let string2 = "\u0066\u0066";

console.log(string1); // ï¬
console.log(string2); // ff
console.log(string1 === string2); // false
console.log(string1.length); // 1
console.log(string2.length); // 2

string1 = string1.normalize("NFKD");
string2 = string2.normalize("NFKD");

console.log(string1); // ff <- visual appearance changed
console.log(string2); // ff
console.log(string1 === string2); // true
console.log(string1.length); // 2
console.log(string2.length); // 2

Bei der Anwendung der KompatibilitÃ¤tsnormalisierung ist es wichtig zu Ã¼berlegen, was Sie mit den Zeichenfolgen vorhaben, da die normalisierte Form nicht fÃ¼r alle Anwendungen geeignet sein kÃ¶nnte. Im obigen Beispiel ist die Normalisierung fÃ¼r die Suche geeignet, da sie einem Benutzer ermÃ¶glicht, die Zeichenfolge durch die Suche nach "f" zu finden. Aber sie mag fÃ¼r die Anzeige nicht geeignet sein, da die visuelle Darstellung unterschiedlich ist.

Wie bei der kanonischen Normalisierung kÃ¶nnen Sie nach zerlegten oder zusammengesetzten kompatiblen Formen fragen, indem Sie "NFKD" oder "NFKC" entsprechend Ã¼bergeben.

Beispiele Verwendung von normalize()

// Initial string

// U+1E9B: LATIN SMALL LETTER LONG S WITH DOT ABOVE
// U+0323: COMBINING DOT BELOW
const str = "\u1E9B\u0323";

// Canonically-composed form (NFC)

// U+1E9B: LATIN SMALL LETTER LONG S WITH DOT ABOVE
// U+0323: COMBINING DOT BELOW
str.normalize("NFC"); // '\u1E9B\u0323'
str.normalize(); // same as above

// Canonically-decomposed form (NFD)

// U+017F: LATIN SMALL LETTER LONG S
// U+0323: COMBINING DOT BELOW
// U+0307: COMBINING DOT ABOVE
str.normalize("NFD"); // '\u017F\u0323\u0307'

// Compatibly-composed (NFKC)

// U+1E69: LATIN SMALL LETTER S WITH DOT BELOW AND DOT ABOVE
str.normalize("NFKC"); // '\u1E69'

// Compatibly-decomposed (NFKD)

// U+0073: LATIN SMALL LETTER S
// U+0323: COMBINING DOT BELOW
// U+0307: COMBINING DOT ABOVE
str.normalize("NFKD"); // '\u0073\u0323\u0307'

Spezifikationen Browser-KompatibilitÃ¤t Siehe auch

RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.4