RetroSearch Browse

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Showing content from https://developer.mozilla.org/de/docs/Web/JavaScript/Reference/Regular_expressions/Character_class below:

Zeichenklasse: [...], [^...] - JavaScript

Zeichenklasse: [...], [^...]

Baseline Widely available

Eine Zeichenklasse passt zu jedem Zeichen in oder nicht in einer benutzerdefinierten Menge von Zeichen. Wenn das v Flag aktiviert ist, kann sie auch verwendet werden, um endliche Zeichenfolgen zu matchen.

Syntax

[]
[abc]
[A-Z]

[^]
[^abc]
[^A-Z]

// `v` mode only
[operand1&&operand2]
[operand1--operand2]
[\q{substring}]

Parameter

operand1, operand2: Kann ein einzelnes Zeichen sein, eine andere in eckige Klammern eingeschlossene Zeichenklasse, ein Zeichenklassen-Escape, ein Unicode-Zeichenklassen-Escape oder eine Zeichenfolge mit der \q Syntax.
substring: Eine literale Zeichenfolge.

Beschreibung

Eine Zeichenklasse spezifiziert eine Liste von Zeichen zwischen eckigen Klammern und passt zu jedem Zeichen in der Liste. Das v Flag verÃ¤ndert drastisch, wie Zeichenklassen geparst und interpretiert werden. Die folgenden Syntaxen sind sowohl im v-Modus als auch im Nicht-v-Modus verfÃ¼gbar:

Ein einzelnes Zeichen: passt zu dem Zeichen selbst.
Ein Bereich von Zeichen: passt zu jedem Zeichen im inklusiven Bereich. Der Bereich wird durch zwei Zeichen angegeben, die durch einen Bindestrich (-) getrennt sind. Das erste Zeichen muss im Zeichencode kleiner sein als das zweite Zeichen. Der Zeichencode ist der Unicode-Codepunkt des Zeichens. Da Unicode-Codepunkte normalerweise den Alphabeten in Reihenfolge zugewiesen werden, spezifiziert [a-z] alle Kleinbuchstaben des lateinischen Alphabets, wÃ¤hrend [Î±-Ï] alle Kleinbuchstaben des griechischen Alphabets spezifiziert. Im Unicode-unempfindlichen Modus werden Regexe als eine Sequenz von BMP Zeichen interpretiert. Daher reprÃ¤sentieren Surrogatpaare in Zeichenklassen zwei Zeichen anstatt eines; siehe unten fÃ¼r Details.
Escape-Sequenzen: \b, \-, Zeichenklassen-Escapes, Unicode-Zeichenklassen-Escapes und andere Zeichen-Escapes.

Diese Syntaxen kÃ¶nnen beliebig oft auftreten, und die von ihnen reprÃ¤sentierten ZeichensÃ¤tze werden vereinigt. Zum Beispiel passt /[a-zA-Z0-9]/ zu jedem Buchstaben oder Ziffer.

Das ^ PrÃ¤fix in einer Zeichenklasse erzeugt eine Komplementklasse. Zum Beispiel passt [^abc] zu jedem Zeichen auÃer a, b oder c. Das Zeichen ^ ist ein wÃ¶rtliches Zeichen, wenn es in der Mitte einer Zeichenklasse erscheint â zum Beispiel passt [a^b] zu den Zeichen a, ^ und b.

Die lexikalische Grammatik macht ein sehr grobes Parsen von Regex-Literalen, sodass das Regex-Literal nicht bei einem / Zeichen endet, das innerhalb einer Zeichenklasse erscheint. Dies bedeutet, dass /[/]/ gÃ¼ltig ist, ohne dass das / maskiert werden muss.

Die Grenzen eines Zeichenbereichs dÃ¼rfen nicht mehr als ein Zeichen angeben, was passiert, wenn Sie ein Zeichenklassen-Escape verwenden. Zum Beispiel:

/[\s-9]/u; // SyntaxError: Invalid regular expression: Invalid character class

Im Unicode-unempfindlichen Modus bewirken Zeichenbereiche, bei denen eine Grenze eine Zeichenklasse ist, dass - ein wÃ¶rtliches Zeichen wird. Dies ist eine veraltete Syntax fÃ¼r die Web-KompatibilitÃ¤t, und Sie sollten sich nicht darauf verlassen.

/[\s-9]/.test("-"); // true

Im Unicode-unempfindlichen Modus werden Regexe als eine Sequenz von BMP-Zeichen interpretiert. Deshalb reprÃ¤sentieren Surrogatpaare in Zeichenklassen zwei Zeichen statt eines.

/[ð]/.test("\ud83d"); // true
/[ð]/u.test("\ud83d"); // false

/[ð-ð]/.test("ð"); // SyntaxError: Invalid regular expression: /[ð-ð]/: Range out of order in character class
/[ð-ð]/u.test("ð"); // true

Auch wenn das Muster die GroÃ- und Kleinschreibung ignoriert, ist die GroÃ- und Kleinschreibung der beiden Enden eines Bereichs entscheidend dafÃ¼r, welche Zeichen zum Bereich gehÃ¶ren. Zum Beispiel passt das Muster /[E-F]/i nur zu E, F, e und f, wÃ¤hrend das Muster /[E-f]/i zu allen GroÃ- und Kleinbuchstaben ASCII passt (da es Ã¼ber EâZ und aâf hinausgeht) sowie [, \, ], ^, _ und `.

Nicht-v-Modus Zeichenklasse

Nicht-v-Modus Zeichenklassen interpretieren die meisten Zeichen wÃ¶rtlich und haben weniger EinschrÃ¤nkungen hinsichtlich der Zeichen, die sie enthalten kÃ¶nnen. Zum Beispiel ist . das wÃ¶rtliche Punktzeichen, nicht der Wildcards. Die einzigen Zeichen, die nicht wÃ¶rtlich erscheinen kÃ¶nnen, sind \, ] und -.

In Zeichenklassen werden die meisten Escape-Sequenzen unterstÃ¼tzt, auÃer \b, \B und RÃ¼ckverweise. \b zeigt ein RÃ¼ckschrittzeichen anstatt einer Wortgrenze an, wÃ¤hrend die anderen beiden Syntaxfehler verursachen. Um \ wÃ¶rtlich zu verwenden, maskieren Sie es als \\.
Das Zeichen ] zeigt das Ende der Zeichenklasse an. Um es wÃ¶rtlich zu verwenden, maskieren Sie es als \].
Das Zeichen -, wenn es zwischen zwei Zeichen verwendet wird, zeigt einen Bereich an. Wenn es am Anfang oder Ende einer Zeichenklasse erscheint, ist es ein wÃ¶rtliches Zeichen. Es ist auch ein wÃ¶rtliches Zeichen, wenn es in der Grenze eines Bereichs verwendet wird. Zum Beispiel passt [a-] zu den Zeichen a und -, [!--] passt zu den Zeichen ! bis -, und [--9] passt zu den Zeichen - bis 9. Sie kÃ¶nnen es auch als \- maskieren, wenn Sie es wÃ¶rtlich verwenden mÃ¶chten.

v-Modus Zeichenklasse

Die grundlegende Idee der Zeichenklassen im v Modus bleibt dieselbe: Sie kÃ¶nnen immer noch die meisten Zeichen wÃ¶rtlich verwenden, - verwenden, um Zeichenbereiche anzugeben, und Escape-Sequenzen verwenden. Eine der wichtigsten Funktionen des v Flags ist die Mengen-Notation innerhalb von Zeichenklassen. Wie bereits erwÃ¤hnt, kÃ¶nnen normale Zeichenklassen Vereinigungen durch das Aneinanderreihen von zwei Bereichen ausdrÃ¼cken, wie [A-Z0-9], um "die Vereinigung der Menge [A-Z] und der Menge [0-9]" anzugeben. Es gibt jedoch keinen einfachen Weg, andere Operationen mit ZeichensÃ¤tzen darzustellen, wie Schnittmenge und Differenz.

Mit dem v Flag wird die Schnittmenge mit && ausgedrÃ¼ckt, und die Subtraktion mit --. Das Fehlen von beidem impliziert eine Vereinigung. Die beiden Operanden von && oder -- kÃ¶nnen ein Zeichen, Zeichen-Escape, Zeichenklassen-Escape oder sogar eine andere Zeichenklasse sein. Zum Beispiel, um "ein Wortzeichen, das kein Unterstrich ist" zu exprimieren, kÃ¶nnen Sie [\w--_] verwenden. Sie kÃ¶nnen keine Operatoren auf derselben Ebene mixen. Zum Beispiel ist [\w&&[A-z]--_] ein Syntaxfehler. Da Sie jedoch Zeichenklassen verschachteln kÃ¶nnen, kÃ¶nnen Sie explizit schreiben [\w&&[[A-z]--_]] oder [[\w&&[A-z]]--_] (die beide [A-Za-z] bedeuten). Ebenso ist [AB--C] ungÃ¼ltig und Sie mÃ¼ssen [A[B--C]] schreiben (was einfach [AB] bedeutet).

Im v Modus kann das Unicode-Zeichenklassen-Escape \p endliche Zeichenfolgen matchen, wie Emojis. Zur Symmetrie kÃ¶nnen regulÃ¤re Zeichenklassen ebenfalls mehr als ein Zeichen matchen. Um ein "Literal einer Zeichenkette" in einer Zeichenklasse zu schreiben, umschlieÃen Sie die Zeichenkette mit \q{...}. Die einzige in diesem Fall unterstÃ¼tzte Regex-Syntax ist Disjunktion â abgesehen davon muss \q Literalzeichen (einschlieÃlich maskierter Zeichen) vollstÃ¤ndig umschlieÃen. Dies stellt sicher, dass Zeichenklassen nur endliche Zeichenfolgen mit einer endlichen Anzahl von MÃ¶glichkeiten matchen kÃ¶nnen.

Da die Zeichenklassensyntax jetzt ausgefeilter ist, sind mehr Zeichen reserviert und dÃ¼rfen nicht mehr wÃ¶rtlich erscheinen.

ZusÃ¤tzlich zu ] und \ mÃ¼ssen die folgenden Zeichen in Zeichenklassen maskiert werden, wenn sie wÃ¶rtliche Zeichen darstellen: (, ), [, {, }, /, -, |. Diese Liste Ã¤hnelt der Liste der Syntax-Zeichen, mit der Ausnahme, dass ^, $, *, + und ? in Zeichenklassen nicht reserviert sind, wÃ¤hrend / und - auÃerhalb von Zeichenklassen nicht reserviert sind (obwohl / ein Regex-Literal begrenzen kann und daher trotzdem maskiert werden muss). Alle diese Zeichen kÃ¶nnen auch optional in u-Modus-Zeichenklassen maskiert werden.
Die folgenden "doppelten Interpunktionszeichen"-Sequenzen mÃ¼ssen ebenfalls maskiert werden (sie machen ohne das v Flag sowieso nicht viel Sinn): &&, !!, ##, $$, %%, **, ++, ,,, .., ::, ;;, <<, ==, >>, ??, @@, ^^, ``, ~~. Im u Modus kÃ¶nnen einige dieser Zeichen nur wÃ¶rtlich innerhalb von Zeichenklassen erscheinen und verursachen einen Syntaxfehler, wenn sie maskiert werden. Im v Modus mÃ¼ssen sie maskiert werden, wenn sie paarweise erscheinen, kÃ¶nnen aber optional maskiert werden, wenn sie alleine erscheinen. Zum Beispiel ist /[\!]/u ungÃ¼ltig, weil es ein IdentitÃ¤ts-Escape ist, aber sowohl /[\!]/v als auch /[!]/v sind gÃ¼ltig, wÃ¤hrend /[!!]/v ungÃ¼ltig ist. Der wÃ¶rtliche Zeichen Verweis enthÃ¤lt eine detaillierte Tabelle, welche Zeichen maskiert oder nicht maskiert erscheinen kÃ¶nnen.

Komplementzeichenklassen [^...] kÃ¶nnen nicht lÃ¤nger als ein Zeichen lange Zeichenfolgen matchen. Zum Beispiel ist [\q{ab|c}] gÃ¼ltig und passt zur Zeichenfolge "ab", aber [^\q{ab|c}] ist ungÃ¼ltig, weil unklar ist, wie viele Zeichen verbraucht werden sollen. Die ÃberprÃ¼fung erfolgt, indem sichergestellt wird, dass alle \q einzeln Zeichen enthalten und alle \p Zeichen-Eigenschaften angeben â fÃ¼r Vereinigungen mÃ¼ssen alle Operanden reine Zeichen sein; fÃ¼r Schnittmengen muss mindestens ein Operand reine Zeichen sein; fÃ¼r Subtraktion muss der linke Operand reine Zeichen sein. Die ÃberprÃ¼fung ist syntaktisch ohne das eigentliche Zeichenset zu betrachten, was bedeutet, dass obwohl /[^\q{ab|c}--\q{ab}]/v Ã¤quivalent zu /[^c]/v ist, es trotzdem abgelehnt wird.

Komplementklassen und groÃ-/kleinschreibungsempfindliches Matching

GroÃ-/Kleinschreibungsempfindliches Matching funktioniert, indem sowohl der erwartete Zeichensatz als auch die gematchte Zeichenfolge in Kleinschreibung gefaltet werden. Beim Spezifizieren von Komplementklassen ist die Reihenfolge, in der JavaScript die GroÃ-/Kleinschreibungsumwandlung und die Komplemente ausfÃ¼hrt, wichtig. Kurz gesagt, [^...] im u Modus passt zu allCharacters - caseFold(original), wÃ¤hrend es im v Modus zu caseFold(allCharacters) - caseFold(original) passt. Dies stellt sicher, dass alle Komplementklassensyntaxen, einschlieÃlich [^...], \P, \W, usw., sich gegenseitig aufheben.

Betrachten Sie die folgenden zwei Regexe (um die Dinge zu vereinfachen, nehmen wir an, dass Unicode-Zeichen eine von drei Arten sind: Kleinbuchstaben, GroÃbuchstaben und ohne Kleinschreibung, und jeder GroÃbuchstabe ein einzigartiges KleinbuchstabenÃ¤quivalent hat und umgekehrt):

const r1 = /\p{Lowercase_Letter}/iu;
const r2 = /[^\P{Lowercase_Letter}]/iu;

Das r2 ist eine doppelte Verneinung und scheint Ã¤quivalent zu r1 zu sein. Aber tatsÃ¤chlich passt r1 zu allen Klein- und GroÃbuchstaben der ASCII-Zeichen, wÃ¤hrend r2 zu keinen passt. Hier ist eine Schritt-fÃ¼r-Schritt-ErklÃ¤rung:

In r1 konstruiert \p{Lowercase_Letter} eine Menge aller Kleinbuchstaben. Zeichen in dieser Menge werden dann in ihre kleingeschriebene Form gefaltet, sodass sie gleich bleiben. Die Eingabezeichenfolge wird ebenfalls in Kleinbuchstaben gefaltet. Daher werden "A" und "a" beide zu "a" gefaltet und von r1 gematcht.
In r2 konstruiert \P{Lowercase_Letter} zuerst eine Menge aller nicht-Kleinbuchstaben, d.h. aller GroÃbuchstaben und Zeichen ohne Kleinschreibung. Zeichen in dieser Menge werden dann in ihre kleinbuchstabige Form gefaltet, sodass der Zeichensatz aus allen Kleinbuchstaben und Zeichen ohne Klein- oder GroÃschreibung besteht. [^...] negiert das Match, wodurch es zu allem passt, was nicht in dieser Menge ist, d.h. einem GroÃbuchstaben. Allerdings wird die Eingabe immer noch in Kleinbuchstaben gefaltet, sodass "A" zu "a" gefaltet wird und nicht von r2 gematcht wird.

Die Hauptbeobachtung hier ist, dass nach der Negation mit [^...] das erwartete Zeichenset mÃ¶glicherweise kein Teil des gefalteten Zeichensatzes der Unicode-Zeichen ist, was dazu fÃ¼hrt, dass die gefaltete Eingabe nicht im erwarteten Zeichensatz liegt. Im v Modus wird die Menge aller Zeichen ebenfalls gefaltet. Die \P Zeichenklasse selbst funktioniert im v Modus auch etwas anders (siehe Unicode-Zeichenklassen-Escape). All dies stellt sicher, dass [^\P{Lowercase_Letter}] und \p{Lowercase_Letter} strikt Ã¤quivalent sind.

Beispiele Hexadezimale Ziffern matching

Die folgende Funktion bestimmt, ob eine Zeichenfolge eine gÃ¼ltige hexadezimale Zahl enthÃ¤lt:

function isHexadecimal(str) {
  return /^[0-9A-F]+$/i.test(str);
}

isHexadecimal("2F3"); // true
isHexadecimal("beef"); // true
isHexadecimal("undefined"); // false

Verwendung der Schnittmenge

Die folgende Funktion passt zu griechischen Buchstaben.

function greekLetters(str) {
  return str.match(/[\p{Script_Extensions=Greek}&&\p{Letter}]/gv);
}

// ð is U+1018A GREEK ZERO SIGN
greekLetters("ÏðP0é¶Î±AÎ£"); // [ 'Ï', 'Î±', 'Î£' ]

Verwendung der Subtraktion

Die folgende Funktion passt zu allen nicht-ASCII-Zahlen.

function nonASCIINumbers(str) {
  return str.match(/[\p{Decimal_Number}--\d]/gv);
}

// ð¹ is U+11739 AHOM DIGIT NINE
nonASCIINumbers("ð0é¶1ðð¹a"); // [ 'ð', 'ð¹' ]

Zeichenfolgen matching

Die folgende Funktion passt zu allen Zeilenbeendungssequenzen, einschlieÃlich der Zeilenendzeichen und der Sequenz \r\n (CRLF).

function getLineTerminators(str) {
  return str.match(/[\r\n\u2028\u2029\q{\r\n}]/gv);
}

getLineTerminators(`
A poem\r
Is split\r\n
Into many
Stanzas
`); // [ '\r', '\r\n', '\n' ]

Dieses Beispiel ist genau Ã¤quivalent zu /(?:\r|\n|\u2028|\u2029|\r\n)/gu oder /(?:[\r\n\u2028\u2029]|\r\n)/gu, auÃer dass es kÃ¼rzer ist.

Der nÃ¼tzlichste Fall fÃ¼r \q{} ist, wenn Subtraktion und Schnittmenge durchgefÃ¼hrt werden. Dies war vorher mit mehreren Lookaheads mÃ¶glich. Die folgende Funktion passt zu Flaggen, die nicht die amerikanische, chinesische, russische, britische oder franzÃ¶sische Flagge sind.

function notUNSCPermanentMember(flag) {
  return /^[\p{RGI_Emoji_Flag_Sequence}--\q{ðºð¸|ð¨ð³|ð·ðº|ð¬ð§|ð«ð·}]$/v.test(flag);
}

notUNSCPermanentMember("ðºð¸"); // false
notUNSCPermanentMember("ð©ðª"); // true

Dieses Beispiel ist grÃ¶Ãtenteils Ã¤quivalent zu /^(?!ðºð¸|ð¨ð³|ð·ðº|ð¬ð§|ð«ð·)\p{RGI_Emoji_Flag_Sequence}$/v, auÃer dass es vielleicht performanter ist.

Spezifikationen Browser-KompatibilitÃ¤t Siehe auch

RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.4