RetroSearch Browse

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Showing content from http://www.xml.se/xml/REC-xml11-sv below:

XML Swedens Ã¶versÃ¤ttning av XML 1.1

Det hÃ¤r Ã¤r en svensk Ã¶versÃ¤ttning av W3Cs specifikation XML 1.1 frÃ¥n den 4 februari 2004. Syftet med Ã¶versÃ¤ttningen Ã¤r att stÃ¶dja anvÃ¤ndningen av XML i Sverige. Arbetet har gjorts inom XML Sweden. Erik MjÃ¶berg har gjort Ã¶versÃ¤ttningsarbetet, som granskats av Gustaf Liljegren och Jan Ãstberg.

ÃversÃ¤ttningen utgÃ¥r frÃ¥n vÃ¥r Ã¶versÃ¤ttning av XML 1.0 (Third Edition). DÃ¤refter har de Ã¤ndringar tagits in som W3C gjort mellan XML 1.0 (Third Edition) och XML 1.1, som markerats med gult eller grÃ¶nt i versionen XHTML med fÃ¤rgkodade revisionsangivelser. Eftersom vÃ¥r Ã¶versÃ¤ttning av XML 1.0 (Third Edition) har utgÃ¥tt frÃ¥n vÃ¥r tidigare Ã¶versÃ¤ttning av XML 1.0 har Ã¤ven denna Ã¶versÃ¤ttning bibehÃ¥llit mycket formateringen frÃ¥n den, men har updaterats till XHTML.

Observera att endast originaldokumentet pÃ¥ engelska har ett normativt vÃ¤rde. HÃ¤r fÃ¶ljer adresserna till origialdokumentet och den hÃ¤r Ã¶versÃ¤ttningen:

FÃ¶r den som snabbt vill sÃ¤tta sig in i skillnaderna mellan XML 1.0 och XML 1.1 hÃ¤nvisas till avsnittet 1.3 Resonerande fÃ¶rklaring om XML 1.1.

Notera att beteckningssÃ¤ttet i de definitioner som anges med hakparanteser och nummer, t.ex. [1], finns fÃ¶rklarat i avsnittet "6 BeteckningssÃ¤tt" sist i specifikationen.

ÃversÃ¤ttningen kan innehÃ¥lla Ã¶versÃ¤ttningsfel. Vi har emellertid fÃ¶rsÃ¶kt att vara sÃ¥ trogna det engelska originalet som mÃ¶jligt och samtidigt fÃ¶rsÃ¶kt att hitta bra svenska ord fÃ¶r nya begrepp. ÃversÃ¤ttningskommentarer har vi lagt inom hakparanteser ["sÃ¥ hÃ¤r"]. Om vi har velat komplettera den svenska Ã¶versÃ¤ttningen med originalorden pÃ¥ engelska har vi angett detta i parenteser med citationstecken ("like this"). Synpunkter pÃ¥ den svenska Ã¶versÃ¤ttningen vÃ¤lkomnas pÃ¥ erik.mjoberg@xml.se. En lista pÃ¥ eventuella uppdateringar av den svenska Ã¶versÃ¤ttningen finns i filen logg.xml.

ÃversÃ¤ttningen Ã¤r upphovsrÃ¤ttsligt skyddad. Copyright Â© AB XML Sweden. Dokumentet fÃ¥r fritt kopieras om den upphovsrÃ¤ttsliga informationen fÃ¶ljer med.

Extensible Markup Language (XML) 1.1 W3C-rekommendation den 4 februari 2004

Denna version:: http://www.w3.org/TR/2004/REC-xml11-20040204/
Senaste version:: http://www.w3.org/TR/xml11
FÃ¶regÃ¥ende version:: http://www.w3.org/TR/2003/PR-xml11-20031105/
Redaktion:: Tim Bray, Textuality och Netscape <tbray@textuality.com>; Jean Paoli, Microsoft <jeanpa@microsoft.com>; C. M. Sperberg-McQueen, W3C <cmsmcq@w3.org>; Eve Maler, Sun Microsystems, Inc. <elm@east.sun.com>; FranÃ§ois Yergeau <fyergeau@alis.com>; John Cowan <cowan@ccil.org>

FÃ¶r uppdateringar av detta dokument hÃ¤nvisas till rÃ¤ttningar, som kan innehÃ¥lla normativa rÃ¤ttningar.

Detta dokument finns Ã¤ven i dessa icke-normativa format: XML och XHTML med fÃ¤rgkodade revisionsangivelser.

Se Ã¤ven Ã¶versÃ¤ttningar.

Sammanfattning

Detta dokument Ã¤r en fullstÃ¤ndig beskrivning av Extensible Markup Language (XML), som Ã¤r en delmÃ¤ngd ("subset") av SGML. Syftet med standarden Ã¤r att mÃ¶jliggÃ¶ra fÃ¶r SGML att anvÃ¤ndas pÃ¥ webben pÃ¥ samma sÃ¤tt som nu Ã¤r mÃ¶jligt fÃ¶r HTML. XML har utformats fÃ¶r att vara lÃ¤tt att tillÃ¤mpa och fungera tillsammans med bÃ¥de SGML och HTML.

Status fÃ¶r detta dokument

Detta avsnitt beskriver statusen fÃ¶r detta dokument dÃ¥ det publicerats. Andra dokument kan Ã¶vertrumfa detta dokument. En lista pÃ¥ aktuella W3C-publikationer och den senaste revisionen av denna tekniska rapport finns i W3C technical reports index pÃ¥ http://www.w3.org/TR/.

Detta dokument Ã¤r en Rekommendation frÃ¥n W3C. Det har granskats av medlemmar i W3C och och andra intresserade och har ratifierats av W3Cs Director som en W3C-rekommendation. Det Ã¤r ett stabilt dokument som kan anvÃ¤ndas som referensmaterial eller citeras som en normativ referens frÃ¥n andra dokument. W3Cs roll Ã¤r nu att dra uppmÃ¤rksamhet till specifikationen och att frÃ¤mja en bred anvÃ¤ndning, nÃ¥got som kommer att fÃ¶rbÃ¤ttra funktionaliteten och utbytet pÃ¥ webben.

Detta dokument specificerar en syntax skapad som en understandard till en existerande, vida anvÃ¤nd internationell standard fÃ¶r textbehandling (Standard Generalized Markup Language, ISO 8879:1986(E) i en korrigerad version) fÃ¶r anvÃ¤ndning pÃ¥ Webben. Det har tagits fram av W3C XML Activity, vars verksamhet Ã¥terfinns pÃ¥ http://www.w3.org/XML. Den engelska versionen av denna specifikation Ã¤r den enda normativa versionen. FÃ¶r Ã¶versÃ¤ttningar av detta dokument, se http://www.w3.org/2003/03/Translations/byT echnology?technology=xml11.

Dokumentation av upphovsrÃ¤ttsfrÃ¥gor som kan vara aktuella fÃ¶r denna rekommendation Ã¥terfinns pÃ¥ the Working Group's offentliga IPR disclosure page.

En implementeringsrapport fÃ¶r XML 1.1 Ã¥terfinns pÃ¥ http://www.w3.org/XML/2002/09/xml11-implementation.html .

Rapporter om fel i det engelska originalet till detta dokument gÃ¶rs till xml-editor@w3.org; arkiv finns tillgÃ¤ngliga. Fellistan fÃ¶r denna upplaga Ã¤r tillgÃ¤nglig pÃ¥ http://www.w3.org/XML/xml-V11-1e-errata.

En testserie upprÃ¤tthÃ¥lls som hjÃ¤lp fÃ¶r att faststÃ¤lla konformitet med denna specifikation.

Extensible Markup Language (XML) 1.1 InnehÃ¥llsfÃ¶rteckning

1 Inledning
    1.1 Ursprung och mÃ¥l
    1.2 Terminologi
    1.3 Resonerande fÃ¶rklaring om XML 1.1
2 Dokument
    2.1 VÃ¤lformade XML-dokument
    2.2 Tecken
    2.3 Vanliga syntaxkonstruktioner
    2.4 Teckendata och uppmÃ¤rkning
    2.5 Kommentarer
    2.6 Processinstruktioner
    2.7 CDATA-avsnitt
    2.8 Prolog och dokumenttypsdeklaration
    2.9 FristÃ¥ende dokumentdeklaration
    2.10 Tomrumshantering
    2.11 Hantering av radbrytning
    2.12 SprÃ¥kidentifiering
    2.13 Normaliseringskontroll
3 Logiska strukturer
    3.1 Starttaggar, sluttaggar och tomelementstaggar
    3.2 Elementtypsdeklarationer
        3.2.1 ElementinnehÃ¥ll
        3.2.2 Blandat innehÃ¥ll
    3.3 Attributlist-deklarationer
        3.3.1 Attributtyper
        3.3.2 IngÃ¥ngsvÃ¤rden fÃ¶r attribut
        3.3.3 Normalisering av attributvÃ¤rden
    3.4 Villkorliga urval
4 Fysiska strukturer
    4.1 Tecken- och entitetsanrop
    4.2 Entitetsdeklarationer
        4.2.1 Interna entiteter
        4.2.2 Externa entiteter
    4.3 Analyserade entiteter
        4.3.1 Textdeklarationen
        4.3.2 VÃ¤lformade, analyserade entiteter
        4.3.3 Teckenkoder i entiteter
        4.3.4 Versionsinformation i entiteter
    4.4 Bearbetning av entiteter och anrop i en XML-tolk
        4.4.1 Inte accepterad
        4.4.2 Infogad
        4.4.3 Infogat vid validering
        4.4.4 FÃ¶rbjudet
        4.4.5 Infogad inom anfÃ¶ringstecken
        4.4.6 UnderrÃ¤tta
        4.4.7 Ãverhoppat
        4.4.8 Infogad som PE
        4.4.9 Fel
    4.5 Konstruktion av ersÃ¤ttningstext fÃ¶r interna entiteter
    4.6 FÃ¶rdefinierade entiteter
    4.7 Notationsdeklarationer
    4.8 Dokumententitet
5 Konformitet
    5.1 Validerande respektive icke-validerande XML-tolkar
    5.2 AnvÃ¤ndning av XML-tolkar
6 BeteckningssÃ¤tt

Bilagor

A Referenser
A.1 Normativa referenser
A.2 Andra referenser
B Definitioner fÃ¶r teckennormalisering
C Expansion av entitets- och teckenanrop (icke normativt)
D Deterministiska innehÃ¥llsmodeller (icke normativt)
E Automatiskt faststÃ¤llande av teckenuppsÃ¤ttningar (icke normativt)
E.1 FaststÃ¤llande utan extern teckenkodsinformation
E.2 Prioritieringar i nÃ¤rvaro av extern teckenkodsinformation
F W3Cs arbetsgrupp fÃ¶r XML (icke normativt)
G W3C XML Core Working Group (icke normativt)
H Produktionsuppgifter (icke normativt)
I FÃ¶rslag till XML-namn (icke normativt)

1 Inledning

Extensible Markup Language, fÃ¶rkortat XML, beskriver dels en klass av dataobjekt som kallas XML-dokument och dels beteendet hos dataprogram som bearbetar dem. XML Ã¤r en begrÃ¤nsad form av SGML, the Standard Generalized Markup Language [ISO 8879]. Genom sin uppbyggnad Ã¤r XML-dokument Ã¤ven SGML-dokument.

XML-dokument Ã¤r uppbyggda av lagringsenheter som kallas entiteter, som innehÃ¥ller endera analyserad ("parsed") eller icke analyserad ("unparsed") data. Analyserad data bygger pÃ¥ tecken ("characters"), av vilka vissa utgÃ¶r teckendata och vissa utgÃ¶r uppmÃ¤rkning. UppmÃ¤rkningen Ã¤r en kodad beskrivning av dokumentets lagringsutformning och logiska struktur. XML erbjuder en mekanism fÃ¶r att infÃ¶ra begrÃ¤nsningar i lagringsutformningen och den logiska strukturen.

[Definition: En mjukvarumodul kallad en XML-tolk ("XML processor") anvÃ¤nds fÃ¶r att lÃ¤sa XML-dokument och ge tillgÃ¥ng till deras innehÃ¥ll och struktur.] [Definition: Det fÃ¶rutsÃ¤tts att en XML-tolk arbetar under en annan modul kallad applikationen.] Denna specifikation beskriver det beteende som krÃ¤vs av en XML-tolk med avseende pÃ¥ hur den skall lÃ¤sa XML-data och vilken information den mÃ¥ste fÃ¶rse applikationen med.

1.1 Ursprung och mÃ¥l

XML utvecklades av XML Working Group (ursprungligen kÃ¤nd som the SGML Editorial Review Board) som bildades under Ã¶verinseende av the World Wide Web Consortium (W3C) 1996. OrdfÃ¶rande var Jon Bosak, Sun Microsystems, med aktivt deltagande av en XML Special Interest Group (tidigare kÃ¤nd som the SGML Working Group) som ocksÃ¥ hade bildats av W3C. Medlemmarna i the XML Working Group finns angivna i en bilaga. Dan Connolly fungerade som kontaktman mellan the XML WG och W3C.

MÃ¥len fÃ¶r XMLs utformning Ã¤r:

XML skall bli lÃ¤tt att anvÃ¤nda pÃ¥ Internet.
XML skall stÃ¶dja en bred variation av applikationer.
XML skall vara kompatibelt med SGML.
Det skall vara lÃ¤tt att skriva program som bearbetar XML-dokument.
Antalet alternativa mÃ¶jligheter fÃ¶r uppmÃ¤rkning i XML skall hÃ¥llas nere till ett absolut minimum, helst noll.
XML-dokument bÃ¶r vara lÃ¤sbara fÃ¶r det mÃ¤nskliga Ã¶gat och tillrÃ¤ckligt lÃ¤tta att fÃ¶rstÃ¥.
XMLs utformning bÃ¶r snabbt bli klar.
XMLs utformning skall vara formell och kortfattad.
XML-dokument skall vara lÃ¤tta att skapa.
FÃ¶rkortningar i XML-uppmÃ¤rkningen ["pÃ¥ bekostnad av klarhet"] har liten betydelse.

Denna specifikation bidrar, tillsammans med associerade standarder (Unicode och ISO/IEC 10646 fÃ¶r tecken, Internet RFC 3066 fÃ¶r sprÃ¥kidentifieringstaggar, ISO 639 fÃ¶r kodning av namn pÃ¥ sprÃ¥k och ISO 3166 fÃ¶r kodning av namn pÃ¥ lÃ¤nder) till den information som behÃ¶vs fÃ¶r att fÃ¶rstÃ¥ XML version 1.1 och konstruera dataprogram fÃ¶r att bearbeta XML-dokument.

Denna version av XML-specifikationen fÃ¥r distribueras fritt, om all text och alla hÃ¤nvisningar fÃ¶rblir intakta.

1.2 Terminologi

Terminologin som anvÃ¤nds fÃ¶r att beskriva XML-dokument Ã¤r definierad i denna specifikation. Nyckelorden MÃSTE, FÃR INTE, OBLIGATORISK, SKALL, SKALL INTE, BÃR, BÃR INTE, REKOMMENDERAD, FÃR och VALFRI skall, nÃ¤r de Ã¤r BETONADE, tolkas som beskrivits i [IETF RFC 2119]. UtÃ¶ver detta definieras i fÃ¶ljande lista de termer som anvÃ¤nds fÃ¶r att bygga upp definitionerna och fÃ¶r att beskriva aktiviteterna hos en XML-tolk:

fel ("error"): [Definition: ÃvertrÃ¤delse av regler i denna specifikation; resultaten Ã¤r odefinierade. Om inte annat specificeras, Ã¤r ett underlÃ¥tande att observera en regel i denna specifikation angivet med ett av nyckelorden MÃSTE, OBLIGATORISK, FÃR INTE, SKALL och SKALL INTE ett fel. GodkÃ¤nd mjukvara fÃ¥r leta fram och rapportera fel och fÃ¥r dÃ¤refter fortsÃ¤tta sin bearbetning.]
kritiskt fel: [Definition: Ett fel som en godkÃ¤nd XML-tolk MÃSTE upptÃ¤cka och rapportera till applikationen. Efter att ha upptÃ¤ckt ett kritiskt fel, FÃR XML-tolken fortsÃ¤tta att bearbeta data fÃ¶r att finna fler fel och FÃR rapportera sÃ¥dana fel till applikationen. FÃ¶r att kunna stÃ¶dja felrÃ¤ttning, FÃR XML-tolken gÃ¶ra obearbetad data frÃ¥n dokumentet (med teckendata och uppmÃ¤rkning blandat) tillgÃ¤nglig fÃ¶r applikationen. NÃ¤r ett kritiskt fel har upptÃ¤ckts, MÃSTE emellertid XML-tolken upphÃ¶ra med normal behandling (dvs den FÃR INTE fortsÃ¤tta att leverera teckendata och information om dokumentets logiska struktur till applikationen pÃ¥ normalt sÃ¤tt).]
pÃ¥ anvÃ¤ndarens initiativ ("at user option"): [Definition: GodkÃ¤nd mjukvara FÃR eller MÃSTE (beroende pÃ¥ det modala hjÃ¤lpverbet i meningen) bete sig som beskrivet. Om den gÃ¶r det, MÃSTE den fÃ¶rse anvÃ¤ndarna med ett medel att mÃ¶jliggÃ¶ra eller omÃ¶jliggÃ¶ra det beskrivna beteendet.]
giltighetsbegrÃ¤nsning ("validity constraint"): [Definition: En regel som gÃ¤ller fÃ¶r alla giltiga XML-dokument. ÃvertrÃ¤delser av giltighetsbegrÃ¤nsningar Ã¤r fel. De MÃSTE pÃ¥ anvÃ¤ndarens initiativ kunna rapporteras av en validerande ("validating") XML-tolk.]
vÃ¤lutformningsbegrÃ¤nsning ("well-formed constraint"): [Definition: En regel som gÃ¤ller fÃ¶r alla vÃ¤lformade XML-dokument. ÃvertrÃ¤delser av begrÃ¤nsningar fÃ¶r vÃ¤lutformning Ã¤r kritiska fel.]
Ã¶verensstÃ¤mma med ("match"): [Definition: (I strÃ¤ngar eller namn:) TvÃ¥ jÃ¤mfÃ¶rda strÃ¤ngar eller namn MÃSTE vara identiska. Tecken med flera mÃ¶jliga sÃ¤tt att representeras i ISO/IEC 10646 (dvs tecken med bÃ¥de fasta ["ex Ã¶"] och bas+diakritiska former ["ex o+Â¨"]) Ã¶verensstÃ¤mmer bara om de har samma representation i bÃ¥da strÃ¤ngarna. Ingen kastvÃ¤xling ["dvs vÃ¤xling mellan stora och smÃ¥ bokstÃ¤ver"] Ã¤r tillÃ¥ten. (FÃ¶r strÃ¤ngar och regler i grammatiken:) En strÃ¤ng Ã¶verenstÃ¤mmer med en grammatisk definition om den hÃ¶r till det sprÃ¥k som generas av definitionen. (FÃ¶r innehÃ¥ll och innehÃ¥llsmodeller:) Ett element Ã¶verensstÃ¤mmer med sin deklaration nÃ¤r det Ã¶verensstÃ¤mmer med det sÃ¤tt som beskrivs i "GiltighetsbegrÃ¤nsning: Giltigt element".]
fÃ¶r kompatibilitet ("for compatibility"): [Definition: Anger en mening som beskriver en egenskap hos XML som enbart Ã¤r inlagd fÃ¶r att sÃ¤kra att XML blir kompatibelt med SGML.]
fÃ¶r utbyte ("for interoperability"): [Definition: Anger en mening som beskriver en icke-bindande rekommendation inlagd fÃ¶r att Ã¶ka chanserna fÃ¶r att XML-dokument skall kunna behandlas av de existerande installerade SGML-behandlare som fÃ¶regick the WebSGML Adaptations Annex (bilaga till SGML).]

1.3 Resonerande fÃ¶rklaring om XML 1.1

W3Cs XML 1.0-rekommendation gavs fÃ¶rst ut 1998 och har, trots utgivningen av Ã¥tskilliga felaktigheter ("errata"), vilket kulminerade i en tredje upplaga 2004, (med avsikt) kvarstÃ¥tt som ofÃ¶rÃ¤ndrad med avseende pÃ¥ vad som Ã¤r vÃ¤lformad XML och vad som inte Ã¤r det. Denna stabilitet har varit extremt nyttig fÃ¶r interoperabilitet. Emellertid har Unicode-standarden, som XML 1.0 vilar pÃ¥, inte varit statisk med avseende pÃ¥ teckenspecifikationer och utvecklats frÃ¥n version 2.0 till version 4.0 och lÃ¤ngre. Tecken som inte fanns i Unicode 2.0 kan redan anvÃ¤ndas som teckendata i XML 1.0. Emellertid Ã¤r de inte tillÃ¥tna i XML-namn som t.ex. elementtypsnamn, attributnamn, attributvÃ¤rden av upprÃ¤kningstyp, mÃ¥l fÃ¶r processinstruktioner osv. Vissa tecken, som borde ha tillÃ¥tits i XML-namn var dessutom inte tillÃ¥tna beroende pÃ¥ Ã¶versyner och bristande Ã¶verensstÃ¤mmelse i Unicode 2.0.

Helhetssynen pÃ¥ namn har Ã¤ndrats sedan XML 1.0. Medan XML 1.0 angav en stel definition pÃ¥ namn, dÃ¤r allt som inte var tillÃ¥tet var fÃ¶rbjudet, har XML 1.1-namn utformats sÃ¥ att allt som inte Ã¤r fÃ¶rbjudet (av en viss orsak) Ã¤r tillÃ¥tet. Eftersom Unicode kommer att tillÃ¥tas fortsÃ¤tta att vÃ¤xa fÃ¶rbi version 4.0, kan ytterligare Ã¤ndringar i XML undvikas genom att tillÃ¥ta nÃ¤stan alla tecken i namn, inklusive de som Ã¤nnu inte har anvisats.

UtÃ¶ver dettta fÃ¶rsÃ¶ker XML 1.0 ansluta sig till konventioner fÃ¶r radbrytning i olika operativsystem, men diskriminerar de konventioner som anvÃ¤nds av IBM och IBM-kompatibla stordatorer. Som ett resultat Ã¤r XML-dokument pÃ¥ stordatorer inte enkla textfiler enligt de lokala konventionerna. XML 1.0-dokument som skapats pÃ¥ stordatorer mÃ¥ste endera bryta mot de lokala radbrytningskonventionerna eller tillÃ¤mpa annars onÃ¶diga Ã¶versÃ¤ttningssteg innan tolkning och efter generering skett. Att tillÃ¥ta direkt interoperabilitet Ã¤r sÃ¤rskilt viktigt nÃ¤r data datalager delas mellan stordator- och icke-stordatorsystem (i motsats till att kopieras till och frÃ¥n varandra). DÃ¤rfÃ¶r adderas XML 1.1-tecknet NEL (#x85) ["next line"] till listan av radbrytningstecken. FÃ¶r fullstÃ¤ndighetens skull stÃ¶ds ocksÃ¥ radseparatortecknet #x2028 i Unicode.

Slutligen finns ett vÃ¤sentligt behov att definiera en standardÃ¥tergivning av godtyckliga Unicode-tecken i XML-dokument. DÃ¤rfÃ¶r tillÃ¥ter XML 1.1 anvÃ¤ndning av teckenreferenser till kontrolltecknen #x1 t.o.m. #x1F, av vilka de flesta Ã¤r fÃ¶rbjudna i XML 1.0. Av stabilitetsskÃ¤l fÃ¥r emellertid dessa tecken i fortsÃ¤ttningen inte anvÃ¤ndas direkt i dokument. FÃ¶r att fÃ¶rbÃ¤ttra stabiliteten i faststÃ¤llandet av teckenuppsÃ¤ttningar, mÃ¥ste de Ã¥terstÃ¥ende kontrolltecknen #x7F t.o.m. #x9F, som var fritt tillgÃ¤ngliga i XML 1.0-dokument, nu ocksÃ¥ fÃ¶rekomma endast som teckenanrop. (Tomrumstecken Ã¤r naturligtvis undantagna.) Den mindre uppoffring detta medfÃ¶r med avseende bakÃ¥tkompatibilitet fÃ¥r anses som fÃ¶rsumbar. PÃ¥ grund av potentiella problem med APIer, Ã¤r #x0 fortfarande fÃ¶rbjudet bÃ¥de direkt och som teckenanrop.

En ny XML-version (snarare Ã¤n en uppsÃ¤ttning felaktigheter i XML 1.0) skapas, eftersom Ã¤ndringarna pÃ¥verkar definitionen av vÃ¤lformade dokument. Tolkar fÃ¶r XML 1.0 mÃ¥ste fortsÃ¤tta att avvisa dokument som innehÃ¥ller nya tecken i XML-namn, nya radbrytningstecken och anrop till kontrolltecken. Skillnaden mellan XML 1.0- och XML 1.1-dokument anges av versionsinformationen i XML-deklarationen i bÃ¶rjan pÃ¥ varje dokument.

2 Dokument

[Definition: Ett dataobjekt Ã¤r ett XML-dokument om det enligt definitionen i denna specifikation Ã¤r vÃ¤lutformat ("well-formed"). Ett vÃ¤lutformat XML-dokument FÃR dessutom vara giltigt om det mÃ¶ter vissa ytterligare begrÃ¤nsande krav.]

Varje XML-dokument har sÃ¥vÃ¤l en logisk som en fysisk struktur. Fysiskt Ã¤r dokumentet komponerat av enheter som kallas entiteter. En entitet FÃR anropa andra entiteter fÃ¶r att ta in deras innehÃ¥ll i dokumentet. Ett dokument bÃ¶rjar med en "rot" eller dokumententitet. Logiskt Ã¤r dokumentet uppbyggt av deklarationer, element, kommentarer, teckenanrop och processinstruktioner, som alla Ã¤r utmÃ¤rkta med explicit uppmÃ¤rkning i dokumentet. De logiska och fysiska strukturerna MÃSTE noggrant inkapslas ("nest"), vilket beskrivs i "4.3.2 VÃ¤lformade analyserade entiteter".

2.1 VÃ¤lformade XML-dokument

[Definition: Ett textobjekt Ã¤r ett vÃ¤lutformat XML-dokument, om:]

det i sin helhet Ã¶verensstÃ¤mmer med en beskrivning som benÃ¤mns dokument,
det uppfyller de begrÃ¤nsningar som vÃ¤lutformning anger i denna specifikation och
var och en av de analyserade entiteterna som anropas direkt eller indirekt inom dokumentet Ã¤r vÃ¤lformad.

FÃ¶r att ett dokument skall Ã¶verensstÃ¤mma med dokument-beskrivning fÃ¶rutsÃ¤tts att:

Det innehÃ¥ller ett eller flera element.
[Definition: Det finns exakt ett element som kallas roten eller rotelementet, som inte i nÃ¥gon del Ã¥terkommer i innehÃ¥llet i nÃ¥got annat element.] FÃ¶r alla andra element gÃ¤ller att om starttaggen ("start-tag") finns i innehÃ¥llet i ett annat element skall ocksÃ¥ sluttaggen ("end-tag") finnas i innehÃ¥llet i samma element. Enklare uttryckt: Elementen, begrÃ¤nsade av start- och sluttaggar, inkapslas i varandra.

[Definition: Som en fÃ¶ljd av detta gÃ¤ller att fÃ¶r varje icke-rotelement C i dokumentet, finns det ett annat element P i dokumentet sÃ¥ att C finns i innehÃ¥llet i P, men inte i innehÃ¥llet i nÃ¥got annat element som finns i innehÃ¥llet i P. Under dessa villkor Ã¤r P angivet som parent ["fÃ¶rÃ¤lder"] till C och C Ã¤r child ["barn"] till P.]

2.2 Tecken

[Definition: En analyserad entitet innehÃ¥ller text, en fÃ¶ljd av tecken, som kan representera endera uppmÃ¤rkning eller teckendata.] [Definition: Ett tecken Ã¤r en minsta textenhet, enligt specifikationen ISO/IEC 10646:2000 [ISO/IEC 10646]. TillÃ¥tna tecken Ã¤r tabulatorsteg, returmatning, ny rad och de tillÃ¥tna tecknen i Unicode och ISO/IEC 10646. De versioner av dessa standarder som citeras i A.1 Normative References var gÃ¤llande vid tiden dÃ¥ detta dokument fÃ¶rbereddes. Nya tecken fÃ¥r adderas till dessa standarder genom tillÃ¤gg eller nya upplagor. FÃ¶ljaktligen, MÃSTE XML-tolkar acceptera varje tecken inom intervallet som anges fÃ¶r Char. AnvÃ¤ndning av "kompatibilitetstecken", som definierats i sektion 6.8 i [Unicode], (se Ã¤ven D21 i avsnitt 3.6 av [Unicode3]), skall motverkas.]

TeckenuppsÃ¤ttning [2] Char ::= [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* alla Unicode-tecken, utom surrogatblocken samt FFFE och FFFF. */ [2a] RestrictedChar ::= [#x1-#x8] | [#xB-#xC] | [#xE-#x1F] | [#x7F-#x84] | [#x86-#xBF]

Mekanismen fÃ¶r att omvandla teckenkodsnummer till bitar FÃR variera frÃ¥n entitet till entitet. Alla XML-tolkar MÃSTE acceptera UTF-8- och UTF-16-koden i Unicode 3.1. MÃ¶jligheterna att deklarera vilken av de tvÃ¥ som anvÃ¤nds eller fÃ¶r att lyfta in andra teckenstandarder kommer att tas upp senare, i "4.3.3 Teckenkoder i entiteter".

Not:

FÃ¶rfattare av dokument uppmuntras att undvika "kompatibilitetstecken" ("compatibility characters"), som definieras i avsnitt 6.8 av [Unicode] (se Ã¤ven D21 i avsnitt 3.6 av [Unicode3]). Ãven tecken definierade i fÃ¶ljande intervall bÃ¶r fÃ¶rhindras. De Ã¤r antingen kontrolltecken eller permanent odefinierade Unicodetecken:

[#x7F-#x84], [#x86-#x9F], [#xFDD0-#xFDDF],
[#1FFFE-#x1FFFF], [#2FFFE-#x2FFFF], [#3FFFE-#x3FFFF],
[#4FFFE-#x4FFFF], [#5FFFE-#x5FFFF], [#6FFFE-#x6FFFF],
[#7FFFE-#x7FFFF], [#8FFFE-#x8FFFF], [#9FFFE-#x9FFFF],
[#AFFFE-#xAFFFF], [#BFFFE-#xBFFFF], [#CFFFE-#xCFFFF],
[#DFFFE-#xDFFFF], [#EFFFE-#xEFFFF], [#FFFFE-#xFFFFF],
[#10FFFE-#x10FFFF].

2.3 Vanliga syntaxkonstruktioner

Detta avsnitt definierar nÃ¥gra ofta anvÃ¤nda begrepp i grammatiken.

S (tomrum, "white space") bestÃ¥r av ett eller flera blanktecken (#x20), returmatningar, nya rader eller tabulatorsteg.

Tomrum [3] S ::= (#x20 | #x9 | #xD | #xA)+

Not:

NÃ¤rvaron av #xD i definitionen ovan upprÃ¤tthÃ¥lls enbart fÃ¶r bakÃ¥tkompatibilitet med den fÃ¶rsta upplagan ["av XML 1.0"]. FÃ¶ljande fÃ¶rklaras Ã¤ven i 2.11 Hantering av radbrytning: Alla #xD-tecken som finns i ren teckenform i ett XML-dokument tas endera bort eller ersÃ¤tts av #xA-tecken innan nÃ¥gon ny bearbetning gÃ¶rs. Det enda sÃ¤ttet att fÃ¥ ett #xD-tecken att Ã¶verensstÃ¤mma med denna definition Ã¤r att anvÃ¤nda teckenanrop i en strÃ¤ng med entitetsvÃ¤rde.

[Definition: Ett namn Ã¤r en datatyp ("token") som bÃ¶rjar med en bokstav eller ett av nÃ¥gra fÃ¥ interpunktionstecken och fortsÃ¤tter med bokstÃ¤ver, siffror, bindestreck, understrykningstecken, kolon, eller punkter, sammantaget kÃ¤nda som namntecken.] Namn som bÃ¶rjar med strÃ¤ngen "xml" eller med varje annan strÃ¤ng som Ã¶verensstÃ¤mmer med (('X'|'x') ('M'|'m') ('L'|'l')), Ã¤r reserverade fÃ¶r standardisering i denna och kommande versioner av specifikationen.

Not:

Rekommendationen Namespaces in XML [XML Names] anger en innebÃ¶rd hos namn som innehÃ¥ller kolontecken. DÃ¤rfÃ¶r bÃ¶r fÃ¶rfattare inte anvÃ¤nda kolon i XML-namn utom av namnrymdsskÃ¤l, men XML-tolkar mÃ¥ste acceptera kolon som ett namntecken.

En Nmtoken (namntyp, "name token") Ã¤r en blandning av namntecken ("name characters").

Det fÃ¶rsta tecknet i ett namn MÃSTE vara ett NameStartChar ["namnstarttecken"] och varje annat tecken MÃSTE vara NameChars ["namntecken"]; denna mekanism anvÃ¤nds fÃ¶r att fÃ¶rhindra att namn som bÃ¶rjar med europeiska (ASCII-) siffror eller med vanliga kombinationstecken. NÃ¤stan alla tecken tillÃ¥ts i namn utom de som antingen Ã¤r eller mÃ¶jligen kan anvÃ¤ndas som avgrÃ¤nsningstecken. Avsikten Ã¤r att inkludera snarare Ã¤n utesluta, sÃ¥ att skrivsystem som Ã¤nnu inte kodats i Unicode kan anvÃ¤ndas i XML-namn. Se I FÃ¶rslag till XML-namn fÃ¶r fÃ¶rslag till hur namn skapas.

DokumentfÃ¶rfattare uppmuntras att anvÃ¤nda namn som Ã¤r meningsfulla ord eller kombinationer av ord i naturliga sprÃ¥k och att undvika symboliska tecken eller tomrumstecken i namn. Notera att KOLON, BINDESTRECK-MINUS, PUNKT, LÃG LINJE (underscore) OCH MITTPUNKT uttryckligen Ã¤r tillÃ¥tna.

ASCII-symboler och interpunktionstecken tillsammans med en ganska stor grupp av symboltecken i Unicode Ã¤r uteslutna frÃ¥n namn dÃ¤rfÃ¶r att de Ã¤r mer anvÃ¤ndbara som avgrÃ¤nsningstecken i sammanhang dÃ¤r XML-namn anvÃ¤nds utanfÃ¶r XML-dokument; sÃ¥ att denna grupp ger nÃ¤mnda sammanhang klara garantier om vad som inte kan vara en del av ett XML-namn. Tecknet #x037E, GREKISKT FRÃGETECKEN, Ã¤r uteslutet fÃ¶r att det blir ett kolon vid normalisering, vilket skulle kunna Ã¤ndra meningen hos entitetsanrop.

Namn och namntyper [4] NameStartChar ::=

":" | [A-Z] | "_" | [a-z] | [#xC0-#xD6] | [#xD8-#xF6] | [#xF8-#x2FF] | [#x370-#x37D] | [#x37F-#x1FFF] | [#x200C-#x200D] | [#x2070-#x218F] | [#x2C00-#x2FEF] | [#x3001-#xD7FF] | [#xF900-#xFDCF] | [#xFDF0-#xFFFD] | [#x10000-#xEFFFF]

[4a] NameChar ::= NameStartChar | "-" | "." | [0-9] | #xB7 | [#x0300-#x036F] | [#x203F-#x2040] [5] Name ::= NameStartChar (NameChar) * [6] Names ::= Name (#x20 Name)* [7] Nmtoken ::= (NameChar)+ [8] Nmtokens ::= Nmtoken (#x20 Nmtoken)*

Literal data Ã¤r en strÃ¤ng inom anfÃ¶ringstecken som inte innehÃ¥ller samma anfÃ¶ringstecken som anvÃ¤nts fÃ¶r avgrÃ¤nsning av strÃ¤ngen. Literal data anvÃ¤nds fÃ¶r att specificera innehÃ¥llet i interna entiteter (EntityValue) ["entitetsvÃ¤rde"], attributvÃ¤rden (AttValue) och externa beteckningar (SystemLiteral). Notera att en SystemLiteral kan analyseras utan att sÃ¶ka efter uppmÃ¤rkning.

Not:

Ãven om entitetsvÃ¤rde-definitionen tillÃ¥ter definitionen av en entitet som bestÃ¥r av en ensam explicit < inom anfÃ¶ringstecken (t.ex., <!ENTITY mylt "<">), rekommenderas starkt att undvika en sÃ¥dan tillÃ¤mpning eftersom varje anrop till den entiteten kommer att orsaka ett vÃ¤lutformningsfel.

2.4 Teckendata och uppmÃ¤rkning

Text bestÃ¥r av blandad teckendata och uppmÃ¤rkning. [Definition: UppmÃ¤rkning har formen av starttaggar, sluttaggar, tomma taggar, entitetsanrop, teckenanrop, kommentarer, skiljetecken fÃ¶r CDATA-avsnitt, dokumenttypsdeklarationer och processinstruktioner, XML-deklarationer, textdeklarationer och varje tomrum som ligger pÃ¥ toppnivÃ¥ i dokumententiteten (dvs, utanfÃ¶r rotelementet och inte innanfÃ¶r nÃ¥gon annan uppmÃ¤rkning).]

[Definition: All text som inte Ã¤r uppmÃ¤rkning utgÃ¶r dokumentets teckendata.]

Och-tecknet (&) och mindre-Ã¤n-tecknet (<) FÃR INTE fÃ¶rekomma i teckenform, utom nÃ¤r de anvÃ¤nds som skiljetecken fÃ¶r uppmÃ¤rkning, eller inom en kommentar, en processinstruktion eller ett CDATA-avsnitt. Om de behÃ¶vs nÃ¥gon annanstans, MÃSTE de vara undantagna genom att antingen anvÃ¤nda numeriska teckenanrop eller strÃ¤ngarna "&" eller "<". StÃ¶rre-Ã¤n-tecknet (>) FÃR representeras av strÃ¤ngen ">" och MÃSTE fÃ¶r kompatibilitet undantas med hjÃ¤lp av endera ">" eller av ett teckenanrop, nÃ¤r det upptrÃ¤der i strÃ¤ngen "]]>", i det fall strÃ¤ngen inte anger slutet pÃ¥ ett CDATA-avsnitt.

I innehÃ¥llet hos element, Ã¤r teckendata varje teckenstrÃ¤ng som inte innehÃ¥ller ett startskiljetecken i nÃ¥gon uppmÃ¤rkning och inte innehÃ¥ller avslutningstecknen fÃ¶r CDATA-avsnitt, "]]>". I ett CDATA-avsnitt Ã¤r teckendata varje teckenstrÃ¤ng som inte innehÃ¥ller avslutningstecknen fÃ¶r CDATA-avsnitt, "]]>".

FÃ¶r att mÃ¶jliggÃ¶ra fÃ¶r attributvÃ¤rden att innehÃ¥lla bÃ¥de enkla och dubbla anfÃ¶ringstecken, FÃR apostrofen eller det enkla anfÃ¶ringstecknet (') anges med "'" och citationstecknet eller det dubbla anfÃ¶ringstecknet (") med """.

Teckendata [14] CharData ::= [^<&]* - ([^<&]* ']]>' [^<&]*) 2.5 Kommentarer

[Definition: Kommentarer FÃR fÃ¶rekomma Ã¶verallt i ett dokument utanfÃ¶r annan uppmÃ¤rkning. Dessutom FÃR kommentarer fÃ¶rekomma inom dokumenttypsdeklarationen pÃ¥ platser som tillÃ¥ts av grammatiken. De Ã¤r inte nÃ¥gon del av dokumentets teckendata.] En XML-tolk FÃR, men behÃ¶ver inte, mÃ¶jliggÃ¶ra fÃ¶r applikationen att gÃ¥ igenom texten i kommentarerna. FÃ¶r kompatibilitet FÃR INTE strÃ¤ngen"--" (dubbelt bindestreck) fÃ¶rekomma inom kommentarerna.] Anrop till parameterentiteter FÃR INTE fÃ¶rekomma i kommentarer.

Kommentarer [15] Comment ::= ''

Ett exempel pÃ¥ en kommentar:

Notera att grammatiken inte tillÃ¥ter en kommentar som slutar med --->. FÃ¶ljande exempel Ã¤r inte vÃ¤lutformat.

2.6 Processinstruktioner

[Definition: Processinstruktioner (PIer) lÃ¥ter ett dokument innehÃ¥lla instruktioner fÃ¶r applikationer.]

Processinstruktioner [16] PI ::= '<?' PITarget (S (Char* - (Char* '?>' Char*)))? '?>' [17] PITarget ::= Name - (('X' | 'x') ('M' | 'm') ('L' | 'l'))

PIer Ã¤r inte en del av ett dokuments teckendata, men MÃSTE vidarebefordras till applikationen. PIer inleds med ett mÃ¥l (PITarget) ["PI-mÃ¥l"] fÃ¶r att identifiera den applikation som instruktionen riktar sig till. MÃ¥lnamnen "XML", "xml" osv. Ã¤r reserverade fÃ¶r standardisering i denna eller i framtida versioner av specifikationen. XML-mekanismen fÃ¶r notation FÃR anvÃ¤ndas fÃ¶r formella deklarationer av PI-mÃ¥l. Anrop till parameterentiteter FÃR INTE fÃ¶rekomma i processinstruktioner.

2.7 CDATA-avsnitt

[Definition: CDATA-avsnitt ("CDATA Sections") FÃR fÃ¶rekomma Ã¶verallt dÃ¤r teckendata fÃ¶rekommer. De anvÃ¤nds fÃ¶r att gÃ¥ ur textavsnitt som innehÃ¥ller tecken som annars skulle betraktas som uppmÃ¤rkning. CDATA-avsnitt bÃ¶rjar med strÃ¤ngen "<![CDATA[" och slutar med strÃ¤ngen "]]>":]

Inom ett CDATA-avsnitt betraktas endast CDEnd-strÃ¤ngen som uppmÃ¤rkning, dvs mindre-Ã¤n-tecken och och-tecken fÃ¥r fÃ¶rekomma i utskriven form. De behÃ¶ver inte (och kan inte) bli Ã¶verhoppade genom att anvÃ¤nda "<" och "&". CDATA-avsnitt kan inte inkapslas.

Ett exempel pÃ¥ ett CDATA-avsnitt, dÃ¤r "<hÃ¤lsning>" och "</hÃ¤lsning>" betraktas som teckendata, inte som uppmÃ¤rkning:

<![CDATA[<hÃ¤lsning>HallÃ¥ vÃ¤rlden!</hÃ¤lsning>]]> 2.8 Prolog och dokumenttypsdeklaration

[Definition: XML 1.1-dokument MÃSTE bÃ¶rja med en XML-deklaration som specificerar den XML-version som anvÃ¤nds.] T.ex. det fÃ¶ljande Ã¤r ett fullstÃ¤ndigt XML-dokument, vÃ¤lutformat men inte giltigt:

<?xml version="1.1"?> 

  <hÃ¤lsning>HallÃ¥ vÃ¤rlden!</hÃ¤lsning>

men fÃ¶ljande Ã¤r ett XML 1.0-dokument dÃ¤rfÃ¶r att det inte har en XML-deklaration:

<hÃ¤lsning>HallÃ¥ vÃ¤rlden!</hÃ¤lsning>

UppmÃ¤rkningens funktion i ett XML-dokument Ã¤r att beskriva dess lagring och logiska struktur och att knyta namn-/vÃ¤rdepar i attribut till sina logiska strukturer. XML erbjuder en mekanism, dokumenttypsdeklarationen, fÃ¶r att definiera begrÃ¤nsningar i den logiska strukturen och att stÃ¶dja anvÃ¤ndningen av fÃ¶rdefinierade lagringsenheter. [Definition: Ett XML-dokument Ã¤r giltigt om det har en tillhÃ¶rande dokumenttypsdeklaration och om dokumentet Ã¶verensstÃ¤mmer med de begrÃ¤nsningar som har uttryckts i den.]

Dokumenttypsdeklarationen mÃ¥ste ligga fÃ¶re det fÃ¶rsta elementet i dokumentet.

[Definition: Dokumenttypsdeklarationen i XML innehÃ¥ller eller pekar pÃ¥ uppmÃ¤rkningsdeklarationer som bildar en grammatik fÃ¶r en dokumentklass. Denna grammatik Ã¤r kÃ¤nd som dokumenttypsdefinitionen eller DTDn. Dokumenttypsdeklarationen kan peka pÃ¥ en extern delmÃ¤ngd ("subset", en sÃ¤rskild sorts extern entitet) som innehÃ¥ller uppmÃ¤rkningsdeklarationer eller kan innehÃ¥lla uppmÃ¤rkningsdeklarationerna direkt i en inre delmÃ¤ngd eller kan innehÃ¥lla bÃ¥da. DTDn fÃ¶r ett dokument bestÃ¥r av bÃ¥da delmÃ¤ngdstyperna sammantagna.]

[Definition: En uppmÃ¤rkningsdeklaration Ã¤r en elementtypsdeklaration, en attributlist-deklaration, en entitetsdeklaration eller en notationsdeklaration.] Dessa deklarationer FÃR vara sammanhÃ¥llna i sin helhet eller i delar i parameterentiteter, som beskrivs i vÃ¤lutformnings- och giltighetsbegrÃ¤nsningar nedan. FÃ¶r ytterligare information, se "4. Fysiska strukturer".

Notera att det Ã¤r mÃ¶jligt att konstruera ett vÃ¤lutformat dokument, som innehÃ¥ller en dokumenttypsdeklaration som varken pekar pÃ¥ en extern delmÃ¤ngd eller innehÃ¥ller nÃ¥gon intern delmÃ¤ngd.

UppmÃ¤rkningsdeklarationerna FÃR ha gjorts helt eller delvis i ersÃ¤ttningstexten i parameterentiteterna. De definitioner som fÃ¶rekommer senare i denna specifikation avseende vissa begrepp ("nonterminals") ["vÃ¤nsterledet i de olika numrerade begreppsdefinitionerna"] (elementdecl, AttlistDecl osv) beskriver deklarationerna efter det att alla parameterentiteterna har blivit infogade.

Parameterentitetsanrop accepteras Ã¶verallt i DTDn (interna och externa delmÃ¤ngder samt externa parameterentiteter), utom i strÃ¤ngar inom anfÃ¶ringstecken ("literals"), processinstruktioner, kommentarer och innehÃ¥llet i fÃ¶rbisedda villkorliga avsnitt (se 3.4 Villkorliga avsnitt). De accepteras Ã¤ven i entitetsvÃ¤rdesstrÃ¤ngar ("entity value literals"). AnvÃ¤ndningen av parameterentiteter i den interna delmÃ¤ngden Ã¤r begrÃ¤nsad enligt nedan.

GiltighetsbegrÃ¤nsning: Rotelementstyp: Namnet i dokumenttypsdeklarationen MÃSTE Ã¶verensstÃ¤mma med elementtypen hos rotelementet.
GiltighetsbegrÃ¤nsning: Riktig deklaration/PE-inkapsling: ErsÃ¤ttningstexten i en parameterentitet MÃSTE vara riktigt inkapslad i uppmÃ¤rkningsdeklarationerna. Det vill sÃ¤ga att om nÃ¥got av de fÃ¶rsta tecknen eller det sista tecknet i en uppmÃ¤rkningsdeklaration (markupdecl ovan) ingÃ¥r i ersÃ¤ttningstexten fÃ¶r ett parameterentitetsanrop, MÃSTE bÃ¥da ingÃ¥ i samma ersÃ¤ttningstext.
VÃ¤lutformningsbegrÃ¤nsning: PEer i interna delmÃ¤ngder: I den interna delmÃ¤ngden av DTDn FÃR INTE parameterentitetsanrop fÃ¶rekomma inom uppmÃ¤rkningsdeklarationer; de FÃR dock fÃ¶rekomma dÃ¤r uppmÃ¤rkningsdeklarationer kan fÃ¶rekomma. (Detta gÃ¤ller inte fÃ¶r anrop som fÃ¶rekommer i externa parameterentiteter eller den externa delmÃ¤ngden.)
VÃ¤lutformningsbegrÃ¤nsning: Extern delmÃ¤ngd: Den externa delmÃ¤ngden MÃSTE, om den finns, Ã¶verensstÃ¤mma med definitionen fÃ¶r extSubset.
VÃ¤lutformningsbegrÃ¤nsning: PE mellan deklarationer: ErsÃ¤ttningstext till ett parameterentitetsanrop i en DeclSep MÃSTE Ã¶verensstÃ¤mma med definitionen extSubsetDecl.

PÃ¥ samma sÃ¤tt som den interna delmÃ¤ngden MÃSTE den externa delmÃ¤ngden och alla parameterentiteter som anropas i en DeclSep bestÃ¥ av en serie av kompletta uppmÃ¤rkningsdeklarationer av de typer som tillÃ¥ts av begreppet markupdecl, blandade med tomrum eller parameterentitetsanrop. Emellertid FÃR delar av innehÃ¥llet i den externa delmÃ¤ngden eller i dessa externa parameterentiteter fÃ¶rbises villkorligt genom att anvÃ¤nda en villkorliga avsnitts-konstruktion. Detta Ã¤r inte tillÃ¥tet i den interna delmÃ¤ngden, men Ã¤r tillÃ¥tet i externa parameterentiteter anropade i den interna delmÃ¤ngden.

Den externa delmÃ¤ngden och de externa parametererentiteterna skiljer sig ocksÃ¥ frÃ¥n den interna delmÃ¤ngden i det att i dessa Ã¤r parameterentitetsanrop tillÃ¥tna inom uppmÃ¤rkningsdeklarationerna, inte bara mellan uppmÃ¤rkningsdeklarationerna.

Ett exempel pÃ¥ ett XML-dokument med en dokumenttypsdeklaration:

<?xml version="1.1"?> 

  <!DOCTYPE hÃ¤lsning SYSTEM  "hallÃ¥.dtd"> 

  <hÃ¤lsning>HallÃ¥ vÃ¤rlden!</hÃ¤lsning>

Systemadressen ("The system identifier") "hallÃ¥.dtd" ger URI-anropet till en DTD fÃ¶r dokumentet.

Deklarationerna kan ocksÃ¥ vara givna lokalt, som i detta exempel:

<?xml version="1.1" encoding="UTF-8" ?> 

  <!DOCTYPE hÃ¤lsning [ 

    <!ELEMENT hÃ¤lsning (#PCDATA)> 

  ]>

  <hÃ¤lsning>HallÃ¥ vÃ¤rlden!</hÃ¤lsning>

Om bÃ¥de externa och interna delmÃ¤ngder anvÃ¤nds, anses den interna delmÃ¤ngden Ã¶vertrumfa den externa delmÃ¤ngden. Detta har den effekten att entitets- och attributlist-deklarationer i den interna delmÃ¤ngden har fÃ¶retrÃ¤de framfÃ¶r dem i den externa delmÃ¤ngden.

XML 1.1-tolkar bÃ¶r Ã¤ven acceptera XML 1.0-dokument. Om ett dokument Ã¤r vÃ¤lutformat eller giltigt XML 1.0 och fÃ¶rutsatt att det inte innehÃ¥ller nÃ¥gra kontrolltecken i intervallet [#x7F-#x9F] annat Ã¤n som teckenanrop, fÃ¥r det gÃ¶ras till vÃ¤lutformat respektive giltigt XML 1.1 helt enkelt genom att Ã¤ndra versionsnumret.

2.9 FristÃ¥ende ("standalone") dokumentdeklaration

UppmÃ¤rkningsdeklarationer kan ha en negativ inverkan pÃ¥ innehÃ¥llet i ett dokument som skickas frÃ¥n en XML-tolk till ett applikation. Entitetsdeklarationer och ingÃ¥ngs-("default")vÃ¤rden fÃ¶r attribut Ã¤r exempel pÃ¥ detta. Den fristÃ¥ende dokumentdeklarationen, som FÃR fÃ¶rekomma som en komponent i XML-deklarationen, ger en signal om huruvida det finns eller inte finns sÃ¥dana deklarationer som fÃ¶rekommer utanfÃ¶r dokumententiteten eller i parameterentiteter. [Definition: En extern uppmÃ¤rkningsdeklaration definieras som en uppmÃ¤rkningsdeklaration som ligger i den externa delmÃ¤ngden eller i en parameterentitet (extern eller intern, den senare inbegripen eftersom icke-validerande XML-tolkar inte skall lÃ¤sa dem).]

FristÃ¥ende dokumentdeklaration

I en fristÃ¥ende dokumentdeklaration anger vÃ¤rdet "yes" att det inte finns nÃ¥gra externa uppmÃ¤rkningsdeklarationer som fÃ¥r en negativ inverkan pÃ¥ den information som skickas frÃ¥n XML-tolken till applikationen. VÃ¤rdet "no" anger att det finns eller kan finnas nÃ¥gra sÃ¥dana externa uppmÃ¤rkningsdeklarationer. Notera att den fristÃ¥ende dokumentdeklarationen bara utesluter nÃ¤rvaron av externa deklarationer; nÃ¤rvaron i ett dokument av anrop till externa entiteter, nÃ¤r entiteterna Ã¤r deklarerade internt, Ã¤ndrar inte deras fristÃ¥ende status.

Om det inte finns nÃ¥gra uppmÃ¤rkningsdeklarationer, har den fristÃ¥ende dokumentdeklarationen inte nÃ¥gon mening. Om det finns externa uppmÃ¤rkningsdeklarationer men det inte finns nÃ¥gon fristÃ¥ende dokumentdeklaration, Ã¤r vÃ¤rdet "no" fÃ¶rutsatt.

Varje XML-dokument fÃ¶r vilket standalone="no" kan konverteras algoritmiskt till ett fristÃ¥ende dokument, vilket kan vara Ã¶nskvÃ¤rt fÃ¶r vissa nÃ¤tverksapplikationer.

GiltighetsbegrÃ¤nsning: FristÃ¥ende dokumentdeklaration

Den fristÃ¥ende dokumentdeklarationen MÃSTE ha vÃ¤rdet "no" om nÃ¥gon extern uppmÃ¤rkningsdeklaration innehÃ¥ller deklarationer av:

attribut med ingÃ¥ngs-("default")vÃ¤rden, om elementen som dessa attribut hÃ¶r till fÃ¶rekommer i dokumentet utan specifikationer fÃ¶r vÃ¤rdena hos dessa attribut, eller
entiteter (andra Ã¤n amp, lt, gt, apos, quot), om anrop till dessa entiteter fÃ¶rekommer i dokumentet eller
attribut med namntyper, dÃ¤r attributet upptrÃ¤der i dokumentet med ett vÃ¤rde sÃ¥ att normalisering kommer att ge ett annat vÃ¤rde Ã¤n det som skulle ha uppkommit i frÃ¥nvaron av en deklaration eller
elementtyper med elementinnehÃ¥ll, om tomrum fÃ¶rekommer direkt inom nÃ¥got exempel pÃ¥ sÃ¥dana typer.

Ett exempel pÃ¥ en XML-deklaration med en fristÃ¥ende dokumentdeklaration:

<?xml version="1.1" standalone='yes'?> 2.10 Tomrumshantering

Vid editering av XML-dokument, Ã¤r det ofta praktiskt att anvÃ¤nda tomrum (blanktecken/"spaces", tabulatorsteg/"tabs" och nya rader/"blank lines) fÃ¶r att dela upp uppmÃ¤rkningen fÃ¶r bÃ¤ttre lÃ¤sbarhet. SÃ¥dana tomrum Ã¤r normalt inte avsedda att ingÃ¥ i den framtagna ("delivered") versionen av dokumentet. Ã andra sidan Ã¤r det vanligt att ha med ett "signifikant" tomrum som bÃ¶r sparas i den framtagna versionen, till exempel i en dikt eller en kÃ¤llkod.

En XML-tolk MÃSTE alltid vidarebefordra alla tecken i ett dokument som inte Ã¤r uppmÃ¤rkning till applikationen. En validerande XML-tolk MÃSTE ocksÃ¥ underrÃ¤tta applikationen om vilka av dessa tecken i elementinnehÃ¥llet som utgÃ¶r tomrum.

Ett speciellt attribut kallat xml:space FÃR knytas till element fÃ¶r att signalera en avsikt att i det elementet bÃ¶r tomrum sparas av applikationen. I giltiga dokument, MÃSTE detta attribut, liksom varje annat deklareras om det skall anvÃ¤ndas. NÃ¤r det deklareras, MÃSTE det anges som upprÃ¤kningstyp ("enumerated type") vars vÃ¤rden Ã¤r ett eller bÃ¥da av "default" ["ingÃ¥ngsvÃ¤rde"] och "preserve" ["bibehÃ¥ll"]. Till exempel:

<!ATTLIST dikt  xml:space (default|preserve) 'preserve'> 

  <!ATTLIST pre xml:space (preserve) #FIXED 'preserve'>

VÃ¤rdet "default" signalerar att instÃ¤llningen av ingÃ¥ngsvÃ¤rdet fÃ¶r applikationens tomrumshantering Ã¤r godtagbart fÃ¶r detta element. VÃ¤rdet "preserve" anger att applikationen skall bibehÃ¥lla alla tomrum. Denna deklarerade avsikt gÃ¤ller Ã¤ven fÃ¶r alla element som Ã¤r inkapslade i det element som har detta vÃ¤rde angivet, om det inte Ã¶vertrumfats av nÃ¥got annat vÃ¤rde pÃ¥ xml:space-attributet. Denna specifikation ger inte mening Ã¥t nÃ¥got vÃ¤rde pÃ¥ xml:space andra Ã¤n "default" och "preserve". Det Ã¤r ett fel att specificera andra vÃ¤rden; XML-tolken FÃR rapportera felet eller FÃR fortsÃ¤tta genom att fÃ¶rbise attributspecifikationen eller genom att rapportera det (felaktiga) vÃ¤rdet till applikationen. Applikationer fÃ¥r fÃ¶rbise eller fÃ¶rkasta felaktiga vÃ¤rden.

Rotelementet i ett dokument anses inte ha signalerat nÃ¥gon avsikt avseende applikationens tomrumshantering, om det inte har ett vÃ¤rde pÃ¥ detta attribut eller attributet har deklarerats med ingÃ¥ngs-("default")vÃ¤rdet.

2.11 Hantering av radbrytning

XML-analyserade entiteter Ã¤r ofta lagrade i datafiler, som Ã¤r organiserade i rader fÃ¶r bearbetning. Dessa rader Ã¤r separerade pÃ¥ ett sÃ¤rskilt sÃ¤tt genom en kombination av tecknen returmatning (#xD) och ny rad (#xA).

FÃ¶r att underlÃ¤tta uppgifterna fÃ¶r en applikation, MÃSTE XML-tolken upptrÃ¤da som om den normaliserade alla radbrytningar i externa analyserade entiteter (inklusive dokumententiteten) vid inmatningen fÃ¶re tolkning genom att Ã¶versÃ¤tta allt nedan till ett ensamt #xA-tecken:

tvÃ¥teckenfÃ¶ljden #xD #xA
tvÃ¥teckenfÃ¶ljden #xD #x85
det ensamma tecknet #x85
det ensamma tecknet #x2028
varje #xD-tecken som inte omedelbart fÃ¶ljs av #xA eller #x85.

Tecknen #x85 och #x2028 kan inte tillfredsstÃ¤llande upptÃ¤ckas och Ã¶versÃ¤ttas innan en teckenentitetsdeklaration (om en sÃ¥dan finns) har blivit lÃ¤st. DÃ¤rfÃ¶r Ã¤r det ett kritiskt fel att anvÃ¤nda dem i XML-deklarationen eller textdeklarationen.

2.12 SprÃ¥kidentifiering

Vid dokumentbearbetning, Ã¤r det ofta praktiskt att identifiera det naturliga eller formella sprÃ¥k som innehÃ¥llet Ã¤r skrivet i. Ett sÃ¤rskilt attribut kallat xml:lang FÃR infogas i dokumentet fÃ¶r att ange vilket sprÃ¥k som anvÃ¤nds i innehÃ¥llet och attributvÃ¤rdena hos alla element i ett XML-dokument. I giltiga dokument MÃSTE detta liksom alla andra attribut deklareras om det anvÃ¤nds. Dessa attributvÃ¤rden utgÃ¶rs av en sprÃ¥kidentifiering enligt definitionen i [IETF RFC 1766], Tags for the Identification of Languages eller dess efterfÃ¶ljare; dessutom FÃR en tom strÃ¤ng specificeras.

(Definitionerna 33 t.o.m. 38 har tagits bort.)

Exempel:

<p xml:lang="en">The quick  brown fox jumps over the lazy dog.</p> 

  <p xml:lang="en-GB">What  colour is it?</p> 

  <p xml:lang="en-US">What color  is it?</p>

  <sp who="Faust" desc='leise'  xml:lang="de">

    <l>Habe nun, ach!  Philosophie,</l>

    <l>Juristerei, und  Medizin</l>

    <l>und leider auch  Theologie</l>

    <l>durchaus studiert  mit heiÃem BemÃ¼h'n.</l>

    </sp>

Den deklarerade avsikten med xml:lang anses gÃ¤lla alla attribut och innehÃ¥llet i det element dÃ¤r koden Ã¤r angiven, om det inte i nÃ¥got inkapslat element har angetts nÃ¥got annat vÃ¤rde pÃ¥ xml:lang-attributet. SÃ¤rskilt anvÃ¤nds det tomma vÃ¤rdet pÃ¥ xml:lang pÃ¥ ett element B fÃ¶r att Ã¶vertrumfa en specifikation av xml:lang pÃ¥ ett omslutande element A, utan att specificera nÃ¥got annat sprÃ¥k. Inom B anses det att det inte finns nÃ¥gon sprÃ¥kkod tillgÃ¤nglig, precis som om xml:lang inte hade specificerats pÃ¥ B eller nÃ¥gon av dess fÃ¶rfÃ¤der ("ancestors").

Not:

SprÃ¥kinformation kan ocksÃ¥ anges genom externa transportprotokoll (t.ex. HTTP eller MIME). Om den Ã¤r tillgÃ¤nglig, kan informationen anvÃ¤ndas av XML-applikationer, men den mer lokala informationen angiven av xml:lang bÃ¶r anses Ã¶vertrumfa den.

En enkel deklaration fÃ¶r xml:lang kan se ut sÃ¥ hÃ¤r:

men om det Ã¤r lÃ¤mpligt FÃR sÃ¤rskilda ingÃ¥ngs-("default")vÃ¤rden vara givna. I en samling av franska dikter fÃ¶r svenska studenter kan, med glosor och noter pÃ¥ svenska, xml:lang-attributet vara deklarerat sÃ¥ hÃ¤r:

    <!ATTLIST dikt   xml:lang CDATA 'fr'> 

      <!ATTLIST glosa  xml:lang CDATA 'sv'> 

      <!ATTLIST not    xml:lang CDATA 'sv'>

2.13 Normaliseringskontroll

Alla analyserade entiteter i XML (inklusive dokumententiteter) BÃR normaliseras fullt i enlighet med definitionen av [Charmod] ["teckenmodell"] kompletterad av fÃ¶ljande definitioner av relevanta konstruktioner fÃ¶r XML:

ErsÃ¤ttningstexten fÃ¶r alla analyserade entititeter
All text som i sammanhanget Ã¶verensstÃ¤mmer med en av fÃ¶ljande definitioner:
1. CData
2. CharData ["teckendata"]
3. content ["innehÃ¥ll"]
4. namn
5. Nmtoken ["namntecken"]

Ett dokument Ã¤r emellertid Ã¤ndÃ¥ vÃ¤lutformat Ã¤ven om det inte Ã¤r fullt ut normaliserat. XML-tolkar BÃR erbjuda en mÃ¶jlighet fÃ¶r anvÃ¤ndaren att verfiera att dokumentet som bearbetas Ã¤r i fullt normaliserad form och rapporterar till applikationen huruvida det Ã¤r normaliserat eller inte. MÃ¶jligheten att inte verifiera BÃR vÃ¤ljas bara nÃ¤r inmatad text Ã¤r sÃ¤kerstÃ¤lld pÃ¥ sÃ¤tt som definierats av [Charmod].

SÃ¤kerstÃ¤llandet av full normalisering MÃSTE genomfÃ¶ras genom att fÃ¶rst sÃ¤kerstÃ¤lla att entiteten Ã¤r i include-normaliserad form som definieras i [Charmod] och dÃ¤refter sÃ¤kerstÃ¤lla att inget av de relevanta begreppen som angetts ovan bÃ¶rjar (efter det att teckenanrop har expanderats) med ett sammansÃ¤ttningstecken ("composing character") som definieras i [Charmod]. Icke-validerande tolkar MÃSTE bortse frÃ¥n mÃ¶jliga avnormaliseringar ("denormalizations") som skulle orsakas av import av externa entiteter som de inte lÃ¤ser.

Not:

SammansÃ¤ttningstecknen Ã¤r alla Unicode-tecken av icke-noll-kombinationsklass ("non-zero combining class"), plus ett litet antal av klass-nolltecken ("class-zero characters") som icke desto mindre finns med som icke inledande tecken i vissa kanoniska upplÃ¶sningar ["av sammansatta tecken"] i Unicode. DÃ¥ dessa tecken Ã¤r avsedda att fÃ¶lja bastecken, innebÃ¤r begrÃ¤nsningar av relevanta konstruktioner (inklusive innehÃ¥ll) frÃ¥n att bÃ¶rja med ett sammansÃ¤ttningstecken inte nÃ¥gon meningfull inskrÃ¤nkning av uttrycksfullheten hos XML.

Om en tolk, nÃ¤r den verifierar full normalisering, trÃ¤ffar pÃ¥ tecken fÃ¶r vilka den inte kan bestÃ¤mma normaliseringsegenskaperna (dvs tecken introducerade i en senare version av [Unicode3] Ã¤n den den som anvÃ¤nds i tillÃ¤mpningen av tolken), FÃR tolken, pÃ¥ anvÃ¤ndarens initiativ, fÃ¶rbise alla mÃ¶jliga denormaliseringar orsakade av dessa tecken. MÃ¶jligheten att fÃ¶rbise dessa denormaliseringar BÃR inte vÃ¤ljas av applikationer nÃ¤r tillfÃ¶rlitlighet eller sÃ¤kerhet Ã¤r livsviktigt.

XML-tolkar FÃR INTE transformera indata till att bli i fullt normaliserad form. XML-applikationer som skapar XML 1.1-utdata frÃ¥n antingen XML 1.1- eller XML 1.0-indata BÃR tillfÃ¶rsÃ¤kra att utdata Ã¤r fullt normaliserad; det Ã¤r inte nÃ¶dvÃ¤ndigt fÃ¶r interna bearbetningsformer med full normalisering.

Syftet med detta avsnitt Ã¤r att med kraft uppmuntra XML-tolkar att tillfÃ¶rsÃ¤kra att skaparna av XML-dokument har normaliserat dem ordentligt, sÃ¥ att XML-applikationer kan gÃ¶ra tester t.ex. identitetsjÃ¤mfÃ¶relser av strÃ¤ngar utan att oroa sig Ã¶ver olika mÃ¶jliga "stavningar" av strÃ¤ngar som Unicode tillÃ¥ter.

Om en tolk omkodar entiteter som ligger i en icke-Unicode-kod till Unicode, BÃR den anvÃ¤nda en normaliseringsomkodare ("normalizing transcoder").

3 Logiska strukturer

[Definition: Varje XML-dokument innehÃ¥ller ett eller flera element, som Ã¤r avgrÃ¤nsade av antingen starttaggar ("start-tags") och sluttaggar ("end-tags"), eller fÃ¶r tomma ("empty") element av en tomelementstagg ("empty-element tag"). Varje element har en typ som identifieras med namn, ibland kallad dess generella identifikation ("generic identifier", GI), och FÃR ha en uppsÃ¤ttning med attributspecifikationer.] Varje attributspecifikation har ett namn och ett vÃ¤rde.

Denna specifikation utgÃ¶r inte nÃ¥gon begrÃ¤nsning av semantiken fÃ¶r, anvÃ¤ndningen av eller (bortom syntaxen) namnen pÃ¥ elementtyperna och attributen, utom att namn som bÃ¶rjar pÃ¥ (('X'|'x')('M'|'m')('L'|'l')) Ã¤r reserverade fÃ¶r standardisering i denna eller framtida versioner av specifikationen.

VÃ¤lutformningsbegrÃ¤nsning: ElementtypsÃ¶verensstÃ¤mmelse

Namnet i ett elements sluttagg MÃSTE Ã¶verensstÃ¤mma med elementtypen i starttaggen.

GiltighetsbegrÃ¤nsning: Giltigt element

Ett element Ã¤r giltigt om det finns en deklaration som Ã¶verensstÃ¤mmer med elementdecl ["elementdeklarationen"] dÃ¤r namnet Ã¶verensstÃ¤mmer med elementtypen och ett av fÃ¶ljande villkor gÃ¤ller:

Deklarationen Ã¶verensstÃ¤mmer med EMPTY och elementet har inte nÃ¥got innehÃ¥ll (inte ens entitetsanrop, kommentarer, processinstruktioner eller tomrum).
Deklarationen Ã¶verensstÃ¤mmer med children och de ingÃ¥ende child-elementen (efter ersÃ¤ttning av alla entitetsanrop med deras ersÃ¤ttningstext) hÃ¶r till det sprÃ¥k som skapats av det reguljÃ¤ra uttrycket ("regular expression") i innehÃ¥llsmodellen ["se begreppsdefinitionerna [47]-[50]"], med tomrum, kommentarer, processinstruktioner (dvs uppmÃ¤rkning som Ã¶verensstÃ¤mmer med definitionen [27]Misc) som mÃ¶jliga tillval mellan starttaggen och det fÃ¶rsta child-elementet, mellan child-element eller mellan det sista child-elementet och sluttaggen. Notera att en CDATA-sektion som bara innehÃ¥ller tomrum eller ett anrop till en entitet vars ersÃ¤ttningstext Ã¤r teckenanrop som expanderas till tomrum inte Ã¶verensstÃ¤mmer med definitionen S och sÃ¥ledes inte kan fÃ¶rekomma pÃ¥ dessa stÃ¤llen. Emellertid Ã¶verensstÃ¤mmer ett anrop till en intern entitet med ett strÃ¤ngvÃ¤rde ("literal value") som bestÃ¥r av teckenanrop som expanderas till tomrum definitionen S, eftersom dess ersÃ¤ttningstext Ã¤r tomrum som Ã¤r resultatet av expansioner av teckenanrop.
Deklarationen Ã¶verensstÃ¤mmer med mixed och innehÃ¥llet (efter ersÃ¤ttning av alla entitetsanrop med deras ersÃ¤ttningstext) bestÃ¥r av teckendata, kommentarer, processinstruktioner och child-element med elementtyper som Ã¶verensstÃ¤mmer med namnen i innehÃ¥llsmodellen.
Deklarationen Ã¶verensstÃ¤mmer med ANY och innehÃ¥llet (efter ersÃ¤ttning av alla entitetsanrop med deras ersÃ¤ttningstext) bestÃ¥r av teckendata och child-element vilkas typer har deklarerats.

3.1 Starttaggar, sluttaggar och tomelementstaggar

[Definition: BÃ¶rjan pÃ¥ varje XML-element, som inte Ã¤r ett tomelement, Ã¤r markerad med en starttagg ("start-tag").]

Namnet i start- och sluttaggarna anger elementets typ. [Definition: Namn-AttValue["attributvÃ¤rde"]-paren anropas som elementens attributspecifikationer ("attribute specifications")], [Definition: med namnet i varje par anropat som attributnamnet och innehÃ¥llet i AttValue (texten mellan '- eller "-anfÃ¶ringstecknen) som attributvÃ¤rdet.] Notera att ordningen fÃ¶r attributspecifikationerna i en starttagg eller tomelementstagg inte Ã¤r bestÃ¤md.

VÃ¤lutformningsbegrÃ¤nsning: Unik attributspecifikation ("Unique Att Spec"): Ett attributnamn FÃR INTE fÃ¶rekomma mer Ã¤n en gÃ¥ng i samma starttagg eller tomelementstagg.
GiltighetsbegrÃ¤nsning: AttributvÃ¤rdestyp ("Attribute Value Type"): Attributet MÃSTE ha blivit deklarerat; vÃ¤rdet MÃSTE vara av samma typ som angetts i deklarationen. (FÃ¶r attributtyper, se "3.3 Attributlist-deklarationer".)
VÃ¤lutformningsbegrÃ¤nsning: Inga externa entitetsanrop: AttributvÃ¤rden FÃR INTE innehÃ¥lla direkta eller indirekta anrop till externa entiteter ["men de fÃ¥r innehÃ¥lla ett anrop till ett entitetsnamn till en extern icke analyserad entitet"].
VÃ¤lutformningsbegrÃ¤nsning: Inget <-tecken i attributvÃ¤rdet: ErsÃ¤ttningstexten fÃ¶r varje entitet som anropats direkt eller indirekt i ett attributvÃ¤rde FÃR INTE innehÃ¥lla <.

Ett exempel pÃ¥ en starttagg:

<termdef id="dt-hund" term="hund">

[Definition: Slutet pÃ¥ varje element som bÃ¶rjar med en starttagg MÃSTE mÃ¤rkas upp av en sluttagg. Denna innehÃ¥ller ett namn som upprepar elementets typ sÃ¥som den angetts i starttaggen:]

Sluttagg [42] ETag ::= '</' Name S? '>'

Ett exempel pÃ¥ en sluttagg:

[Definition: Texten mellan starttaggen och sluttaggen kallas elementets innehÃ¥ll:]

[Definition: Ett element utan innehÃ¥ll kallas tomt.] Ett tomt element representeras antingen av en starttagg omedelbart fÃ¶ljd av en sluttagg eller av en tomelementstagg. [Definition: En tomelementstagg har en speciell form:]

Tomelementstaggar FÃR anvÃ¤ndas fÃ¶r alla element som inte har nÃ¥got innehÃ¥ll, vare sig de Ã¤r deklarerade som EMPTY eller inte. FÃ¶r utbyte ("interoperability") BÃR tomelementstaggen anvÃ¤ndas och BÃR bara anvÃ¤ndas fÃ¶r element som Ã¤r deklarerade som EMPTY.

Exempel pÃ¥ tomelement:

<IMG align="left"

    src="http://www.w3.org/Icons/WWW/w3c_home" />

  <br></br> 

  <br/>

3.2 Elementtypsdeklarationer

I ett XML-dokument FÃR element-strukturen begrÃ¤nsas med hjÃ¤lp av deklarationer av elementtyp och attributlistor i syfte att testa giltigheten. En elementtypsdeklaration begrÃ¤nsar elementets innehÃ¥ll.

Elementtypsdeklarationer begrÃ¤nsar ofta vilka elementtyper som kan fÃ¶rekomma som children ["barn"] till elementet. PÃ¥ anvÃ¤ndarens initiativ, FÃR en XML-tolk utfÃ¤rda en varning nÃ¤r en deklaration nÃ¤mner en elementtyp som inte Ã¤r deklarerad, men det Ã¤r inte ett fel.

[Definition: En elementtypsdeklaration antar formen:]

dÃ¤r namnet betecknar den deklarerade elementtypen.

GiltighetsbegrÃ¤nsning: Unik elementtypsdeklaration: En elementtyp FÃR INTE deklareras mer Ã¤n en gÃ¥ng.

Exempel pÃ¥ elementtypsdeklarationer:

<!ELEMENT br EMPTY> 

  <!ELEMENT p (#PCDATA|emph)* > 

  <!ELEMENT %name.para; %content.para; > 

  <!ELEMENT container ANY>

3.2.1 ElementinnehÃ¥ll

[Definition: En elementtyp har elementinnehÃ¥ll nÃ¤r en sÃ¥dan typ av element MÃSTE innehÃ¥lla enbart child-element (ingen teckendata), som kan, men inte behÃ¶ver vara Ã¥tskilda med tomrum (tecken som Ã¶verensstÃ¤mmer med begreppet S).] [Definition: I detta fall, innefattar begrÃ¤nsningen en innehÃ¥llsmodell, en enkel grammatik som styr tillÃ¥tna child-elementtyper och den ordning de fÃ¥r fÃ¶rekomma i.] Grammatiken Ã¤r byggd pÃ¥ innehÃ¥llsdelar ("content particles") (cps), som bestÃ¥r av namn samt urvalslistor ("choice lists") eller sekvenslistor ("sequence lists") med innehÃ¥llsdelar:

ElementinnehÃ¥llsmodeller

dÃ¤r varje namn Ã¤r den elementtyp som FÃR fÃ¶rekommer som child. Varje innehÃ¥llsdel i en urvalslista FÃR fÃ¶rekomma i elementinnehÃ¥llet pÃ¥ det stÃ¤lle dÃ¤r urvalslistan fÃ¶rekommer i grammatiken. InnehÃ¥llsdelar i en sekvenslista MÃSTE var och en fÃ¶rekomma i elementinnehÃ¥llet i den ordning som angetts i listan. Det tecken som kan fÃ¶lja ett namn eller en lista som tillval styr hur elementet eller innehÃ¥llsdelarna i listan fÃ¥r fÃ¶rekomma; en eller flera (+); ingen, en eller flera (*) eller ingen eller en gÃ¥ng (?). FrÃ¥nvaron av en sÃ¥dant tecken innebÃ¤r att elementet eller innehÃ¥llsdelen bara fÃ¥r fÃ¶rekomma exakt en gÃ¥ng. Denna syntax och innebÃ¶rd Ã¤r identisk fÃ¶r de innehÃ¥llsdelar som anvÃ¤nds i begreppsdefinitionerna i denna specifikation.

InnehÃ¥llet i ett element Ã¶verensstÃ¤mmer med en innehÃ¥llsmodell om och endast om det Ã¤r mÃ¶jligt att finna en gÃ¥ng ("path") genom innehÃ¥llsmodellen, som fÃ¶ljer sekvens, urval och fÃ¶rekomsttecken samt stÃ¤mmer av varje element i innehÃ¥llet mot en elementtyp i innehÃ¥llsmodellen. FÃ¶r kompatibilitet Ã¤r det ett fel om innehÃ¥llsmodellen tillÃ¥ter ett element att Ã¶verensstÃ¤mma med fler Ã¤n en fÃ¶rekomst av en elementtyp i innehÃ¥llsmodellen. FÃ¶r mer information, se "E. Deterministiska innehÃ¥llsmodeller".

GiltighetsbegrÃ¤nsning: Riktig grupp/PE-inkapsling: ErsÃ¤ttningstexten fÃ¶r en parameterentitet MÃSTE vara riktigt inkapslad i parentesfÃ¶rsedda grupper. Dvs om nÃ¥gon av start- eller slutparentesen i ett urvals-, en sekvens- eller en blandad ("mixed") konstruktion Ã¤r inkapslad i ersÃ¤ttningstexten fÃ¶r en parameterentitet, MÃSTE Ã¤ven den andra parentesen vara inkapslad i samma ersÃ¤ttningstext. Om ett parameterentitetsanrop fÃ¶rekommer i ett urval, en sekvens eller en blandad konstruktion, BÃR fÃ¶r utbyte dess ersÃ¤ttningstext innnehÃ¥lla minst ett tecken som inte Ã¤r tomrumstecken och varken det fÃ¶rsta eller det sista tecknet som inte Ã¤r tomrum i ersÃ¤ttningstexten BÃR vara ett bindetecken ("connector") (| eller ,).

Exempel pÃ¥ elementinnehÃ¥llsmodeller:

<!ELEMENT spec (front, body, back?)> 

  <!ELEMENT div1 (head, (p | list | note)*, div2*)>

  <!ELEMENT dictionary-body (%div.mix; | %dict.mix;)*>

3.2.2 Blandat innehÃ¥ll

[Definition: En elementtyp har blandat innehÃ¥ll nÃ¤r element av denna typ FÃR innehÃ¥lla teckendata, valfritt ("optionally") blandat med child-element.] I detta fall FÃR child-elementtyperna vara begrÃ¤nsade, men inte deras ordning eller deras antal:

Deklaration av blandat innehÃ¥ll

dÃ¤r namnen anger de elementtyper som fÃ¥r fÃ¶rekomma som children. Nyckelordet PCDATA hÃ¤rrÃ¶r historiskt frÃ¥n termen "parsed character data" ["analyserad teckendata"].

GiltighetsbegrÃ¤nsning: Inga dubbla typer: Samma namn FÃR INTE fÃ¶rekomma fler Ã¤n en gÃ¥ng i en deklaration av blandat innehÃ¥ll.

Exempel pÃ¥ deklarationer av blandat innehÃ¥ll:

<!ELEMENT p (#PCDATA|a|ul|b|i|em)*> 

  <!ELEMENT p (#PCDATA | %font; |  %phrase; | %special; | %form;)* > 

  <!ELEMENT b (#PCDATA)>

3.3 Attributlist-deklarationer ("Attribute-List Declarations")

Attribut anvÃ¤nds fÃ¶r att knyta namn/vÃ¤rde-par till element. Attributspecifikationer FÃR INTE fÃ¶rekomma utanfÃ¶r starttaggar och tomelementstaggar. Begreppsdefinitionerna som anvÃ¤nds fÃ¶r att identifiera dem finns sÃ¥ledes i avsnitt "3.1". Attributlist-deklarationer FÃR anvÃ¤ndas:

FÃ¶r att definiera den uppsÃ¤ttning av attribut som tillhÃ¶r en angiven elementtyp.
FÃ¶r att skapa typbegrÃ¤nsningar fÃ¶r dessa attribut.
FÃ¶r att fÃ¶rse attribut med ingÃ¥ngsvÃ¤rden ("default values").

[Definition: Attributlist-deklarationer anger namnet, datatypen och ingÃ¥ngsvÃ¤rdet (om det finns nÃ¥got) fÃ¶r varje attribut som Ã¤r knutet till en angiven elementtyp:]

Namnet i AttlistDecl-regeln [52] Ã¤r namnet pÃ¥ elementtypen. PÃ¥ anvÃ¤ndarens initiativ FÃR en XML-tolk utfÃ¤rda en varning om attribut deklareras fÃ¶r en elementtyp som i sig inte Ã¤r deklarerad, men detta Ã¤r inte ett fel. Namnet i AttDef-regeln (53) Ã¤r attributnamnet.

NÃ¤r fler Ã¤n en AttlistDecl Ã¤r fÃ¶reskriven fÃ¶r en angiven elementtyp, slÃ¥s innehÃ¥llet i alla fÃ¶reskrivna deklarationer samman. NÃ¤r fler Ã¤n en definition finns fÃ¶r samma attribut fÃ¶r en angiven elementtyp, Ã¤r den fÃ¶rsta deklarationen bindande och de senare deklarationerna fÃ¶rkastade. FÃ¶r utbyte FÃR fÃ¶rfattare av DTDer fÃ¶reskriva deklaration av maximalt ett attribut fÃ¶r en angiven elementtyp, maximalt en attributdefinition fÃ¶r ett angivet attributnamn i en attributlist-deklaration och Ã¥tminstone en attributdefinition i varje deklaration av en attributlista. FÃ¶r utbyte FÃR en XML-tolk pÃ¥ anvÃ¤ndarens initiativ utfÃ¤rda en varning nÃ¤r fler Ã¤n en attributlist-deklaration Ã¤r fÃ¶reskriven fÃ¶r en angiven elementtyp, eller fler Ã¤n en attributdefinition Ã¤r fÃ¶reskriven fÃ¶r ett angivet attribut, men detta Ã¤r inte ett fel.

3.3.1 Attributtyper

XML har tre sorters attributtyper: en strÃ¤ngtyp, ett antal datatyper av namn-typ ("tokenized types") och upprÃ¤kningstyper. StrÃ¤ngtypen kan ha alla sorters literal data som vÃ¤rde; de olika datatyperna har varierande lexikala och semantiska begrÃ¤nsningar. GiltighetsbegrÃ¤nsningarna som angetts i grammatiken tillÃ¤mpas efter det att attributvÃ¤rdet har normaliserats enligt avsnitt 3.3.3 Normalisering av attributvÃ¤rden.

GiltighetsbegrÃ¤nsning: ID: Datatypen ID MÃSTE Ã¶verensstÃ¤mma med namn-definitionen. Ett namn FÃR INTE fÃ¶rekomma mer Ã¤n en gÃ¥ng i ett XML-dokument som ett vÃ¤rde av denna typ; dvs ID-vÃ¤rden MÃSTE pÃ¥ ett unikt sÃ¤tt identifiera de element som bÃ¤r dem.
GiltighetsbegrÃ¤nsning: Ett ID per elementtyp: En elementtyp FÃR INTE ha fler Ã¤n ett ID-attribut.
GiltighetsbegrÃ¤nsning: IngÃ¥ngsvÃ¤rde fÃ¶r ID-attribut: Ett ID-attribut MÃSTE ha #IMPLIED eller #REQUIRED som deklarerat ingÃ¥ngsvÃ¤rde.
GiltighetsbegrÃ¤nsning: IDREF: Datatypen IDREF MÃSTE Ã¶verensstÃ¤mma med Namn-definitionen [5] och vÃ¤rdetypen IDREFS MÃSTE Ã¶verensstÃ¤mma med Namn [6, "flera namn"]; varje Namn [5] MÃSTE Ã¶verensstÃ¤mma med vÃ¤rdet pÃ¥ ett ID-attribut i nÃ¥got element i XML-dokumentet; dvs IDREF-vÃ¤rden MÃSTE Ã¶verensstÃ¤mma med vÃ¤rdet pÃ¥ nÃ¥got ID-attribut.
GiltighetsbegrÃ¤nsning: Entitetsnamn: Datatypen ENTITY MÃSTE Ã¶verensstÃ¤mma med Namn-definitionen [5], vÃ¤rdetypen ENTITIES MÃSTE Ã¶verensstÃ¤mma med Namn [6, "flera namn"]; varje Namn MÃSTE Ã¶verensstÃ¤mma med namnet pÃ¥ en icke analyserad entitet deklarerad i DTDn.
GiltighetsbegrÃ¤nsning: Namntyp: Datatypen NMTOKEN MÃSTE Ã¶verensstÃ¤mma med namntyps-definitionen; vÃ¤rdetypen NMTOKENS MÃSTE Ã¶verensstÃ¤mma med namntyper.

[Definition: UpprÃ¤kningsattribut MÃSTE anta ett av vÃ¤rdena i en lista av vÃ¤rden angivna i deklarationen.] Det finns tvÃ¥ sorters upprÃ¤kningstyper:

UpprÃ¤kningsattributtyper

Ett notations-attribut identifierar en notation, deklarerad i DTDn med anknutna system- och/eller allmÃ¤nna adresser, vilka anvÃ¤nds fÃ¶r att tolka det element som attributen Ã¤r knutet till.

GiltighetsbegrÃ¤nsning: Notationsattribut: VÃ¤rden av denna typ MÃSTE Ã¶verensstÃ¤mma med ett av notations-namnen som finns i deklarationen. Alla notationsnamn i deklarationen MÃSTE deklareras.
GiltighetsbegrÃ¤nsning: En notation per elementtyp: En elementtyp FÃR INTE ha mer Ã¤n ett notationsattribut.
GiltighetsbegrÃ¤nsning: Ingen notation pÃ¥ tomelement: FÃ¶r kompatibilitet FÃR INTE ett attribut av typen NOTATION deklareras pÃ¥ ett element, som deklarerats som EMPTY.
GiltighetsbegrÃ¤nsning: Inga dubbla datatyper av namn-typ ("tokens"): Notationsnamn i en Notationsattribut-sdeklaration, sÃ¥vÃ¤l som NmToken-typer i en UpprÃ¤kningsattribut-sdeklaration, MÃSTE all vara urskiljbara ["unika"].
GiltighetsbegrÃ¤nsning: UpprÃ¤kning: VÃ¤rden av denna typ MÃSTE Ã¶verensstÃ¤mma med en av namntyps-typerna ("Nmtoken tokens") i deklarationen.

FÃ¶r utbyte gÃ¤ller att samma namntyp BÃR INTE fÃ¶rekomma mer Ã¤n en gÃ¥ng i upprÃ¤kningsattributtyperna fÃ¶r en elementtyp.

3.3.2 IngÃ¥ngsvÃ¤rden fÃ¶r attribut ("Attribute Defaults")

En attributdeklaration ger information om huruvida attributets nÃ¤rvaro krÃ¤vs och om inte, hur en XML-tolk fÃ¶rvÃ¤ntas reagera om ett deklarerat attribut inte finns i ett dokument.

IngÃ¥ngsvÃ¤rden fÃ¶r attribut

#REQUIRED i en attributdeklaration betyder att attributet alltid MÃSTE anges, #IMPLIED att ett ingÃ¥ngsvÃ¤rde saknas. [Definition: Om deklarationen varken anger #REQUIRED eller #IMPLIED innehÃ¥ller attributvÃ¤rdet det deklarerade ingÃ¥ngsvÃ¤rdet ("default value"). Nyckelordet #FIXED ["lÃ¥st"] anger dÃ¥ att attributet alltid MÃSTE anta ingÃ¥ngsvÃ¤rdet. NÃ¤r en XML-tolk mÃ¶ter ett element utan en attributspecifikation, fÃ¶r vilken den lÃ¤st deklarationen fÃ¶r ingÃ¥ngsvÃ¤rdet, MÃSTE den rapportera attributet med det deklarerade ingÃ¥ngsvÃ¤rdet till applikationen.]

GiltighetsbegrÃ¤nsning: Obligatoriskt attribut: Om ingÃ¥ngsdeklarationen har nyckelordet #REQUIRED ["obligatorisk"] MÃSTE attributet specificeras fÃ¶r alla element med den angivna attributtypen i attributlist-deklarationen.
GiltighetsbegrÃ¤nsning: Syntaktiskt korrekt ingÃ¥ngsvÃ¤rde fÃ¶r attribut: Det deklarerade ingÃ¥ngsvÃ¤rdet MÃSTE mÃ¶ta de syntaktiska begrÃ¤nsningarna fÃ¶r den deklarerade attributtypen.; Notera att enbart de syntaktiska begrÃ¤nsningningarna fÃ¶r datatypen krÃ¤vs hÃ¤r; andra begrÃ¤nsningar (t.ex. att vÃ¤rdet skall vara namnet pÃ¥ en deklarerad icke analyserad entitet fÃ¶r ett attribut av typen ENTITY) kan komma att beaktas om det deklarerade ingÃ¥ngsvÃ¤rdet verkligen anvÃ¤nds (t.ex. ett element utan en specifikation fÃ¶r detta attribut upptrÃ¤der).
GiltighetsbegrÃ¤nsning: LÃ¥st ingÃ¥ngsvÃ¤rde fÃ¶r attribut: Om ett attribut har ett ingÃ¥ngsvÃ¤rde deklarerat tillsammans med nyckelordet #FIXED, MÃSTE exempel pÃ¥ attributet Ã¶verensstÃ¤mma med ingÃ¥ngsvÃ¤rdet.

Exempel pÃ¥ attributlist-deklarationer:

<!ATTLIST termdef

            id       ID      #REQUIRED 

            name     CDATA   #IMPLIED> 

  <!ATTLIST list

            type     (bullets|ordered|glossary)  "ordered"> 

  <!ATTLIST form 

            method   CDATA   #FIXED "POST">

3.3.3 Normalisering av attributvÃ¤rden

Innan ett attributvÃ¤rde skickas till applikationen eller analyseras med avseende pÃ¥ giltighet, MÃSTE XML-tolken normalisera attributvÃ¤rdet genom att tillÃ¤mpa nedanstÃ¥ende algoritm eller nÃ¥gon annan metod sÃ¥ att vÃ¤rdet som skickas till applikationen Ã¤r samma som det som genereras av algoritmen.

Alla radbrytningar MÃSTE normaliseras till #xA som beskrivits i 2.11 Hantering av radbrytning, sÃ¥ att resten av algoritmen arbetar med text som Ã¤r normaliserad pÃ¥ detta sÃ¤tt.
BÃ¶rja med ett normaliserat vÃ¤rde som bestÃ¥r av en tom strÃ¤ng.
FÃ¶r varje, tecken, entitets- eller teckenanrop i det icke normaliserade attributvÃ¤rdet med bÃ¶rjan med det fÃ¶rsta och sedan med fortsÃ¤ttning till det sista, gÃ¶r fÃ¶ljande:
- FÃ¶r ett teckenanrop; hÃ¤mta det anropade tecknet till det normaliserade vÃ¤rdet.
- FÃ¶r ett entitetsanrop; tillÃ¤mpa rekursivt steg 3 pÃ¥ denna algoritm pÃ¥ ersÃ¤ttningstexten fÃ¶r entiteten.
- FÃ¶r tomrumstecken (#x20, #xD, #xA, #x9); hÃ¤mta ett blanktecken #x20 som normaliseringsvÃ¤rde.
- FÃ¶r Ã¶vriga tecken; hÃ¤mta tecknet fÃ¶r det normaliserade vÃ¤rdet.

Om attributtypen inte Ã¤r CDATA, MÃSTE XML-tolken bearbeta det normaliserade attributvÃ¤rdet ytterligare genom att ta bort inledande och avslutande blanktecken (#x20) och genom att ersÃ¤tta sekvenser av blanktecken (#x20) med ett blanktecken (#x20).

Notera att om det icke normaliserade attributvÃ¤rdet innehÃ¥ller ett teckenanrop till ett annat tomrumstecken Ã¤n blanktecken (#x20), innehÃ¥ller det normaliserade vÃ¤rdet det anropade tecknet i sig (#xD, #xA or #x9). Detta kontrasterar mot fallet dÃ¤r det icke normaliserade vÃ¤rdet innehÃ¥ller ett tomrumstecken (inte ett anrop), som ersÃ¤tts med ett blanktecken (#x20) i det normaliserade vÃ¤rdet och kontrasterar Ã¤ven mot fallet dÃ¤r det icke normaliserade vÃ¤rdet innehÃ¥ller ett entitetsanrop vars ersÃ¤ttningstext innehÃ¥ller ett tomrumstecken, som bearbetas rekursivt och ersÃ¤tter tomrumstecknet med ett blanktecken (#x20) i det normaliserade vÃ¤rdet.

Alla attribut som inte har nÃ¥gon inlÃ¤st deklaration BÃR av en icke-validerande XML-tolk behandlas som om de vore deklarerade som CDATA.

HÃ¤r fÃ¶ljer exampel pÃ¥ attributnormalisering. Med fÃ¶ljande deklarationer givna:

<!ENTITY d "&#xD;">
<!ENTITY a "&#xA;">
<!ENTITY da "&#xD;&#xA;">

normaliseras attributspecifikationerna i den vÃ¤nstra kolumnen nedan till teckenfÃ¶ljderna i mittenkolumnen om attributet a deklareras som NMTOKENS och till dem i de hÃ¶gra kolumnernas om a deklareras som CDATA.

Attributspecifikation a Ã¤r NMTOKENS a Ã¤r CDATA a="xyz" x y z #x20 #x20 x y z a="&d;&d;A&a; &a;B&da;" A #x20 B #x20 #x20 A #x20 #x20 #x20 B #x20 #x20 a="A

B
" #xD #xD A #xA #xA B #xD #xA #xD #xD A #xA #xA B #xD #xA

Notera att det sista exemplet inte Ã¤r giltigt (men vÃ¤lutformat) om a Ã¤r deklarerat som typen NMTOKENS.

3.4 Villkorliga avsnitt

[Definition: Villkorliga avsnitt Ã¤r delar av dokumenttypsdeklarationens externa delmÃ¤ngd eller av av externa parameterentiteter vilka ingÃ¥r i eller har uteslutits ur DTDns logiska struktur baserat pÃ¥ nyckelordet som styr dem.]

GiltighetsbegrÃ¤nsning: Riktigt villkorligt avsnitt/PE-inkapsling: Om nÃ¥got av "<![", "[", eller "]]>" i ett villkorligt avsnitt ligger i ersÃ¤ttningstexten fÃ¶r ett parameterentitetsanrop, MÃSTE de alla ligga i samma ersÃ¤ttningstext.

Villkorliga avsnitt kan liksom interna och externa DTD-delmÃ¤ngder innehÃ¥lla en eller flera kompletta deklarationer, kommentarer, processinstruktioner eller inkapslade villkorliga avsnitt blandade med tomrum.

Om nyckelordet fÃ¶r det villkorliga avsnittet Ã¤r INCLUDE, Ã¤r innehÃ¥llet i det villkorliga avsnittet en del av DTDn. Om nyckelordet fÃ¶r det villkorliga avsnittet Ã¤r IGNORE, Ã¤r innehÃ¥llet i det villkorliga avsnittet inte en logisk del av DTDn. Om ett villkorligt avsnitt med nyckelordet INCLUDE fÃ¶rekommer inom ett stÃ¶rre villkorligt avsnitt med nyckelordet IGNORE, fÃ¶rkastas bÃ¥de det yttre och det inre villkorliga avsnittet. InnehÃ¥llet i ett fÃ¶rbisett villkorligt avsnitt kontrolleras genom att fÃ¶rbise alla tecken efter "[" som kommer efter nyckelordet, utom villkorliga avsnitt som bÃ¶rjar med "<![" och slutar med "]]>", tills det Ã¶verensstÃ¤mmande villkorliga avsnittets slut Ã¤r funnet. Parameterentitetsanrop Ã¤r inte accepterade i denna process.

Om nyckelordet fÃ¶r det villkorliga avsnittet Ã¤r ett parameterentitetsanrop, MÃSTE parameterentiteten ersÃ¤ttas med sitt innehÃ¥ll innan XML-tolken bestÃ¤mmer om den skall lyfta in eller fÃ¶rkasta det villkorliga avsnittet.

Ett exempel:

<!ENTITY % utkast 'INCLUDE' > 

  <!ENTITY % klart  'IGNORE' > 
  <![%utkast;[


  <!ELEMENT bok (kommentarer*, rubrik, text,  bilaga?)>

  ]]>

  <![%klart;[ 

  <!ELEMENT bok (rubrik, text, bilaga?)> 

  ]]>

4 Fysiska strukturer

[Definition: Ett XML-dokument kan bestÃ¥ av en eller flera lagringsenheter. Dessa kallas entiteter; de har alla innehÃ¥ll och Ã¤r alla (utom dokumententiteten, se den externa DTD-delmÃ¤ngden) identifierade genom entitetsnamn. ] Varje XML-dokument har en entitet kallad dokumententiteten, som tjÃ¤nar som startpunkten fÃ¶r XML-tolken och kan innehÃ¥lla hela dokumentet.

Entiteter kan vara endera analyserade eller icke analyserade. [Definition: En analyserad entitets innehÃ¥ll refereras till genom sin ersÃ¤ttningstext. Denna text anses som en integrerad del av dokumentet.]

[Definition: En icke analyserad entitet Ã¤r en resurs vars innehÃ¥ll kan men inte behÃ¶ver vara text och Ã¤r den text behÃ¶ver den inte vara XML. Varje icke analyserad entitet har en associerad notation, som identifieras av namnet. UtÃ¶ver kravet att en XML-tolk gÃ¶r identifieringarna av entiteter och notationer tillgÃ¤ngliga fÃ¶r applikationen, lÃ¤gger XML inte nÃ¥gra begrÃ¤nsningar pÃ¥ innehÃ¥llet i icke analyserade entiteter.]

Analyserade entiteter anropas med namn genom entitetsanrop. Icke analyserade entiteter anropas med namn, givna i vÃ¤rdet pÃ¥ ENTITY- eller ENTITIES-attribut.

[Definition: Generella entiteter Ã¤r entiteter fÃ¶r anvÃ¤ndning inom dokumentinnehÃ¥llet. I denna specifikation Ã¤r generella entiteter ibland refererade till med den icke kvalificerande termen entitet nÃ¤r det inte leder till nÃ¥gon tveksamhet.] [Definition: Parameterentiteter Ã¤r analyserade entiteter fÃ¶r anvÃ¤ndning inom DTDn.] Dessa tvÃ¥ typer av entiteter anvÃ¤nder olika former av anrop och Ã¤r tillÃ¤mpbara i olika sammanhang. Dessutom tar de olika namnrymder i ansprÃ¥k; en parameterentitet och en generell entitet med samma namn Ã¤r tvÃ¥ Ã¥tskilda entiteter.

4.1 Tecken- och entitetsanrop

[Definition: Ett teckenanrop refererar till ett sÃ¤rskilt tecken i teckenuppsÃ¤ttningen ISO/IEC 10646, t.ex. till ett tecken som inte gÃ¥r att fÃ¥ fram direkt frÃ¥n tillgÃ¤ngliga inmatningsverktyg.]

Teckenanrop [66] CharRef ::= '&#' [0-9]+ ';' | '&#x' [0-9a-fA-F]+ ';' [ WFC: Giltigt tecken ]

VÃ¤lutformningsbegrÃ¤nsning: Giltigt tecken: Vid anvÃ¤ndning av teckenanrop MÃSTE det anropade tecknet Ã¶verensstÃ¤mma med en definition av Char ["tecken"].

Om teckenanropet bÃ¶rjar med "&#x", utgÃ¶r siffrorna och bokstÃ¤verna fram till det avslutande ; en hexadecimal representation av tecknets kodnummer i ISO/IEC 10646. Om det enbart bÃ¶rjar med "&#", utgÃ¶r siffrorna fram till det avslutande ; en decimal representation av tecknets kodnummer.

[Definition: Ett entitetsanrop refererar till innehÃ¥llet i en namngiven entitet.] [Definition: Anrop till analyserade generella entiteter anvÃ¤nder och-tecken (&) och semikolon (;) som skiljetecken.] [Definition: Parameterentitetsanrop anvÃ¤nder procenttecken (%) och semikolon (;) som skiljetecken.]

VÃ¤lutformningsbegrÃ¤nsning: Deklarerad entitet: I ett dokument utan nÃ¥gon DTD, ett dokument med enbart en intern DTD-delmÃ¤ngd som inte innehÃ¥ller nÃ¥got parameterentitetsanrop eller ett dokument med "standalone='yes'", MÃSTE fÃ¶r ett entitetsanrop som inte fÃ¶rekommer i den externa delmÃ¤ngden eller en parameterentitet namnet i entitetsanropet Ã¶verensstÃ¤mma med det i en entitetsdeklaration, som inte fÃ¶rekommer i den externa delmÃ¤ngden eller en parameterentitet, med det undantaget att vÃ¤lformade dokument inte behÃ¶ver deklarera nÃ¥gon av fÃ¶ljande entiteter: amp, lt, gt, apos, quot. Deklarationen av en generell entitet MÃSTE fÃ¶regÃ¥ varje anrop till den i form av ett ingÃ¥ngsvÃ¤rde i en attributlist-deklaration.; Notera att om entiteter Ã¤r deklarerade i parameterentiteter eller i den externa delmÃ¤ngden, behÃ¶ver inte ("are not obligated to") icke-validerande XML-tolkar lÃ¤sa och bearbeta deras deklarationer. FÃ¶r sÃ¥dana dokument gÃ¤ller regeln att en entitet mÃ¥ste vara deklarerad bara som en vÃ¤lutformningsbegrÃ¤nsning om standalone='yes'.
GiltighetsbegrÃ¤nsning: Deklarerad entitet: I ett dokument med en extern delmÃ¤ngd eller externa parameterentiteter med "standalone='no'", MÃSTE det angivna namnet i entitetsanropet Ã¶verensstÃ¤mma med det i en entitetsdeklaration. FÃ¶r utbyte BÃR giltiga dokument deklarera entiteterna amp, lt, gt, apos, quot, i den form som specificerats i "4.6 FÃ¶rdefinierade entiteter". Deklarationen av en parameterentitet MÃSTE fÃ¶regÃ¥ varje anrop till den. PÃ¥ samma sÃ¤tt MÃSTE deklarationen av en generell entitet fÃ¶regÃ¥ varje direkt eller indirekt anrop till den i form av ett ingÃ¥ngsvÃ¤rde i en attributlist-deklaration.
VÃ¤lutformningsbegrÃ¤nsning: Analyserad entitet: Ett entitetsanrop FÃR INTE innehÃ¥lla namnet pÃ¥ en icke analyserad entitet. Icke analyserade entiteter fÃ¥r endast anropas i attributvÃ¤rden som deklarerats som ENTITY eller ENTITIES.
VÃ¤lutformningsbegrÃ¤nsning: Ingen rekursivitet: En analyserad entitet FÃR INTE innehÃ¥lla ett rekursivt anrop till sig sjÃ¤lv, vare sig direkt eller indirekt.
VÃ¤lutformningsbegrÃ¤nsning: I DTDn: Parameterentitetsanrop FÃR INTE fÃ¶rekomma utanfÃ¶r DTDn.

Exempel pÃ¥ tecken- och entitetsanrop:

Tryck pÃ¥ <tangent>mindre Ã¤n</tangent>  (&#x3C;) fÃ¶r att spara alternativ. 

  Detta dokument gjordes pÃ¥ &docdate; och 

  Ã¤r sekretessbelagt &sÃ¤kerhets-nivÃ¥;.

Exempel pÃ¥ ett parameterentitetsanrop:

<!-- deklarera parameterentiteten "ISOLat2"...  -->

  <!ENTITY % ISOLat2 

            SYSTEM "http://www.xml.com/iso/isolat2-xml.entities" > 

  <!-- ... referera till den. --> 

  %ISOLat2;

4.2 Entitetsdeklarationer

[Definition: Entiteter deklareras som fÃ¶ljer:]

Namnet identifierar entiteten i ett entitetsanrop eller, om det gÃ¤ller en icke analyserad entitet, i vÃ¤rdet pÃ¥ ett ENTITY- eller ENTITIES-attribut. Om samma entitet deklareras fler Ã¤n en gÃ¥ng Ã¤r den fÃ¶rst pÃ¥trÃ¤ffade deklarationen bindande. PÃ¥ anvÃ¤ndarens initiativ FÃR en XML-tolk utfÃ¤rda en varning om entiteter Ã¤r deklarerade flera gÃ¥nger.

4.2.1 Interna entiteter

[Definition: Om entitetsdefinitionen Ã¤r ett entitetsvÃ¤rde, kallas den definierade entiteten en intern entitet. Det finns inget separat fysiskt lagringsobjekt och entitetens innehÃ¥ll Ã¤r givet i deklarationen.] Notera att viss behandling av entitets- och teckenanrop i the literal entity value ["en strÃ¤ng avgrÃ¤nsad av anfÃ¶ringstecken"] kan krÃ¤vas fÃ¶r att skapa korrekt ersÃ¤ttningstext: se "4.5 Konstruktion av ersÃ¤ttningstext fÃ¶r interna entiteter".

En intern entitet Ã¤r en analyserad entitet.

Exempel pÃ¥ en intern entitetsdeklaration:

<!ENTITY Pub-Status "Detta Ã¤r en fÃ¶rhandspublicering av specifikationen."> 4.2.2 Externa entiteter

[Definition: Om en entitet inte Ã¤r intern, Ã¤r det en extern entitet, som deklareras enligt fÃ¶ljande:]

Extern entitetsdeklaration

Om NDataDecl fÃ¶religger, handlar det om en generell icke analyserad entitet, annars Ã¤r det en analyserad entitet.

GiltighetsbegrÃ¤nsning: Deklarerad notation: Namnet MÃSTE Ã¶verensstÃ¤mma med det deklarerade namnet pÃ¥ en notation.

[Definition: SystemLiteral kallas entitetens systemadress. Det Ã¤r tÃ¤nkt att konverteras till ett URI-anrop (definierat i [IETF RFC 2396], uppdaterat av [IETF RFC 2732]), som en del i processen att ge Ã¥tkomst ("dereference") fÃ¶r att fÃ¥ indata till en XML-tolk fÃ¶r att konstruera entitetens ersÃ¤ttningstext.] Det Ã¤r ett fel om en fragmentidentifikation (som bÃ¶rjar med ett hash-tecken #) ingÃ¥r som en del i en systemadress. Om inte annat anges genom information utanfÃ¶r omfattningen av denna specifikation (t.ex. en speciell XML-elementtyp definierad av en sÃ¤rskild DTD eller en processinstruktion definierad av en sÃ¤rskild applikationsspecifikation), Ã¤r relativa URIer relativa i fÃ¶rhÃ¥llande till lÃ¤get pÃ¥ den resurs dÃ¤r entitetsdeklarationen finns. Detta definieras vara den externa entitet som innehÃ¥ller det '<' som inleder deklarationen, i det Ã¶gonblicket den analyseras som en deklaration. En URI kan sÃ¥ledes vara relativ i fÃ¶rhÃ¥llande till dokumententiteten, till entiteten som innehÃ¥ller den externa DTD-delmÃ¤ngden eller till nÃ¥gon annan extern parameterentitet. FÃ¶rsÃ¶k att bearbeta den resurs som identifierats av en URI FÃR omdirigeras pÃ¥ analysnivÃ¥ (t.ex. i en entitetsupplÃ¶sare ("entity resolver")) eller under (pÃ¥ protokollnivÃ¥, t.ex. via ett HTTP-Location:- huvud). I frÃ¥nvaron av ytterligare information inom resursen, utanfÃ¶r omfattningen av denna specifikation, Ã¤r bas-URIn ("the base URI") hos en resurs alltid URIn fÃ¶r den aktuella resursen som skickas tillbaka. Med andra ord Ã¤r det URIn hos resursen bearbetad efter att alla omdirigeringar har gjorts.

Systemadresser (och andra XML-strÃ¤ngar avsedda att anvÃ¤ndas som URI-anrop) FÃR innehÃ¥lla tecken som enligt [IETF RFC 2396] och [IETF RFC 2732], mÃ¥ste undvikas innan en URI kan anvÃ¤ndas fÃ¶r att bearbeta den anropade resursen. Tecknen som skall undvikas Ã¤r kontrolltecknen #x0 till #x1F och #x7F (av vilka de flesta inte kan finnas i XML), blanktecken (#x20), uppmÃ¤rkningstecken '<', #x3C, '>' #x3E och '"' #x22, de okloka tecknen '{' #x7B, '}' #x7D, '|' #x7C, '\' #x5C, '^' #x5E och '`' #x60, liksom alla tecken Ã¶ver #x7F. Eftersom undvikande inte alltid Ã¤r en helt reversibel process, MÃSTE det utfÃ¶ras bara nÃ¤r det Ã¤r absolut nÃ¶dvÃ¤ndigt och sÃ¥ sent som mÃ¶jligt i processkedjan. SÃ¤rskilt gÃ¤ller att varken processen att konvertera en relativ URI till en absolut eller processen att skicka ett URI-anrop till en process eller en mjukvarukomponent ansvarig fÃ¶r att ge Ã¥tkomst till den BÃR utlÃ¶sa undvikande. NÃ¤r undvikande fÃ¶rekommer, MÃSTE det utfÃ¶ras enligt fÃ¶ljande:

Varje tecken som skall undvikas Ã¤r representerat i UTF-8 [Unicode3] som en eller flera bytes.
Resulterande bytes undviks genom URI-undvikningsmekanismen ("the URI escaping mechanism") (dvs konverteras till %HH, dÃ¤r HH Ã¤r den hexadecimala representationen av bytevÃ¤rdet).
Det ursprungliga tecknet ersÃ¤tts av den resulterande teckenfÃ¶ljden.

[Definition: Som tillÃ¤gg till en systemadress FÃR en extern adress innehÃ¥lla en allmÃ¤n adress.] En XML-tolk som fÃ¶rsÃ¶ker att tolka en entitets innehÃ¥ll FÃR anvÃ¤nda alla kombinationer av allmÃ¤nna adresser och systemadresser sÃ¥vÃ¤l som ytterligare information utanfÃ¶r omfattningen av dennna specifikation fÃ¶r att fÃ¶rsÃ¶ka att skapa ett alternativt URI-anrop. Om XML-tolken inte kan gÃ¶ra det, MÃSTE den anvÃ¤nda URI-anropet sÃ¥som det har specificerats i innehÃ¥llet mellan anfÃ¶ringstecknen i systemadressen. Innan en test av Ã¶verensstÃ¤mmelse gÃ¶rs, MÃSTE alla tomrumsstrÃ¤ngar i en allmÃ¤n adress normaliseras till ett blanktecken (#x20) samt inledande och avslutande tomrum tas bort.

Exempel pÃ¥ externa entitetsdeklarationer:

<!ENTITY open-hatch

            SYSTEM  "http://www.textuality.com/boilerplate/OpenHatch.xml"> 

  <!ENTITY open-hatch 

           PUBLIC  "-//Textuality//TEXT Standard open-hatch boilerplate//EN" 

            "http://www.textuality.com/boilerplate/OpenHatch.xml">

  <!ENTITY  hatch-pic

           SYSTEM  "../grafix/OpenHatch.gif"

            NDATA gif >

4.3 Analyserade entiteter 4.3.1 Textdeklarationen

Externa analyserade entiteter BÃR var och en bÃ¶rja med en textdeklaration.

Textdeklarationen MÃSTE skrivas ut explicit, inte anges som anrop till en analyserad entitet. I en extern analyserad entitet FÃR INTE en textdeklaration fÃ¶rekomma pÃ¥ annan plats Ã¤n i bÃ¶rjan pÃ¥ entiteten. Textdeklarationen i en extern analyserad entitet anses inte som en del dess ersÃ¤ttningstext.

4.3.2 VÃ¤lformade analyserade entiteter

Dokumententiteten Ã¤r vÃ¤lformad om den Ã¶verensstÃ¤mmer med en dokument-definition. En extern generell analyserad entitet Ã¤r vÃ¤lformad om den Ã¶verensstÃ¤mmer med definitionen av en extParsedEnt ["se nedan"]. Alla externa parameterentiteter Ã¤r vÃ¤lformade per definition.

VÃ¤lformad extern analyserad entitet

En intern generell analyserad entitet Ã¤r vÃ¤lformad om dess ersÃ¤ttningstext Ã¶verensstÃ¤mmer med definitionen av innehÃ¥ll. Alla interna parameterentiteter Ã¤r vÃ¤lformade per definition.

En konsekvens av vÃ¤lutformning i generella entiteter Ã¤r att den logiska och fysiska strukturen i ett XML-dokument Ã¤r korrekt inkapslade; ingen starttagg, sluttagg, tomelementstagg, inget element, ingen kommentar, processinstruktion, teckenanrop eller entitetsanrop kan bÃ¶rja i en entitet och sluta i en annan.

4.3.3 Teckenkoder i entiteter

Varje extern analyserad entitet i ett XML-dokument FÃR anvÃ¤nda olika koder fÃ¶r sina tecken. Alla XML-tolkar MÃSTE kunna lÃ¤sa entiteter i bÃ¥de UTF-8 och UTF-16. Termerna "UTF-8" och "UTF-16" i denna specifikation Ã¤r inte kopplade till teckenuppsÃ¤ttningar med utvidgningar, Ã¤ven om teckenuppsÃ¤ttningarna eller deras utvidgningar i mycket liknar UTF-8 eller UTF-16

Entiteter kodade i UTF-16 MÃSTE och entititeter i UTF-8 FÃR bÃ¶rja med den byteordningsmÃ¤rkning ("Byte Order Mark") som Ã¤r beskriven i Bilaga H i [ISO/IEC 10646:2000], avsnitt 2.4 i [Unicode] och avsnitt 2.7 i [Unicode3] (the ZERO WIDTH NO-BREAK SPACE character, #xFEFF). Detta Ã¤r en kodsignatur, inte en del av vare sig uppmÃ¤rkning eller teckendata i XML-dokumentet. XML-tolkar MÃSTE kunna anvÃ¤nda detta tecken fÃ¶r att skilja mellan UTF-8- och UTF-16-kodade dokument.

Ãven om det bara krÃ¤vs av en XML-tolk att den skall kunna lÃ¤sa entiteter i UTF-8- och UTF-16-kodning, Ã¤r det erkÃ¤nt att andra teckenuppsÃ¤ttningar anvÃ¤nds runt om i vÃ¤rlden och det kan bli Ã¶nskvÃ¤rt fÃ¶r XML-tolkar att kunna lÃ¤sa entiteter som Ã¤ven anvÃ¤nder sÃ¥dana. I frÃ¥nvaron av en extern teckenkodsinformation (som t.ex. MIME-huvuden) MÃSTE analyserade entiteter som lagras i en annan teckenkod Ã¤n UTF-8 eller UTF-16 bÃ¶rja med en textdeklaration (se 4.3.1 Textdeklarationen) som innehÃ¥ller en teckenkodsdeklaration:

Teckenkodsdeklaration [80] EncodingDecl ::= S 'encoding' Eq ('"' EncName '"' | "'" EncName "'" ) [81] EncName ::= [A-Za-z] ([A-Za-z0-9._] | '-')* /* Teckenkodsnamnet innehÃ¥ller bara latinska tecken */

I dokumententiteten Ã¤r teckenkodsdeklarationen en del av XML-deklarationen. EncName ["Teckenkodsnamnet"] Ã¤r namnet pÃ¥ den teckenuppsÃ¤ttning som anvÃ¤nds.

I en teckenkodsdeklaration BÃR vÃ¤rdena "UTF-8", "UTF-16", "ISO-10646-UCS-2" och "ISO-10646-UCS-4" anvÃ¤ndas fÃ¶r de olika teckenkoderna och transformationerna av Unicode /ISO/IEC 10646, vÃ¤rdena "ISO-8859-1", "ISO-8859-2", ... "ISO-8859-n" (dÃ¤r n Ã¤r delnumret) BÃR anvÃ¤ndas fÃ¶r de aktuella delarna av ISO 8859 samt vÃ¤rdena "ISO-2022-JP", "Shift_JIS" och "EUC-JP" BÃR anvÃ¤ndas fÃ¶r de olika formerna fÃ¶r teckenkodning i JIS X-0208-1997. XML-tolkar fÃ¥r stÃ¶dja andra teckenkoder. Det REKOMMENDERAS att teckenkoder fÃ¶rutom de nyss nÃ¤mnda Ã¤r registrerade (som charsets ["teckenuppsÃ¤ttningar"]) hos the Internet Assigned Numbers Autority [IANA-CHARSETS], skall anropas med sina registrerade namn. Andra teckenkoder BÃR anvÃ¤nda namn som bÃ¶rjar med ett "x-"prefix. XML-tolkar BÃR kunna kontrollera teckenkoder oberoende av kast ["versaler eller gemener"] och BÃR endera kunna tolka ett IANA-registerat namn som den registerade teckenkoden hos IANA fÃ¶r det namnet eller behandla det som okÃ¤nt (processorer mÃ¥ste naturligtvis inte stÃ¶dja alla IANA-registerade teckenkoder).

I frÃ¥nvaron av information frÃ¥n ett externt Ã¶verfÃ¶ringsprotokoll (t.ex. HTTP eller MIME), Ã¤r det ett kritiskt fel fÃ¶r en entitet som innehÃ¥ller en teckenkodsdeklaration att presenteras fÃ¶r XML-tolken i en annan teckenkod Ã¤n den som Ã¤r angiven i deklarationen. Det Ã¤r ocksÃ¥ ett fel fÃ¶r en entitet som varken bÃ¶rjar med en byteordningsmÃ¤rkning ("Byte Order Mark") eller en teckenkodsdeklaration att anvÃ¤nda nÃ¥gon annan teckenkod Ã¤n UTF-8. Notera att eftersom ASCII Ã¤r en delmÃ¤ngd av UTF-8, behÃ¶ver normala ASCII-entiteter strikt sett inte en teckenkodsdeklaration.

Det Ã¤r ett kritiskt fel om en extern textdeklaration fÃ¶rekommer nÃ¥gon annanstans Ã¤n i bÃ¶rjan av en extern entitet.

Det Ã¤r ett kritiskt fel nÃ¤r en XML-tolk mÃ¶ter en entitet med en teckenkod som den inte kan bearbeta. Det Ã¤r ett kritiskt fel om en XML-entitet Ã¤r bestÃ¤md (via ingÃ¥ngsvÃ¤rde, teckenkodsdeklaration eller hÃ¶gnivÃ¥protokoll) att vara i en viss teckenkod men innehÃ¥ller byte-fÃ¶ljder som inte Ã¤r giltiga i den teckenkoden. I synnerhet Ã¤r det ett kritiskt fel om en entitet kodad i UTF-8 innehÃ¥ller nÃ¥gra oregelbundna kodenhetsfÃ¶ljder, som defierats i Unicode 3.1 [Unicode3]. Om inte nÃ¥gon teckenkod Ã¤r bestÃ¤md av ett hÃ¶gnivÃ¥protokoll, Ã¤r det ocksÃ¥ ett kritiskt fel om en XML-entitet inte innehÃ¥ller nÃ¥gon teckenkodsdeklaration och dess innehÃ¥ll inte Ã¤r giltig UTF-8 eller UTF-16.

Exempel pÃ¥ textdeklarationer med teckenkodsdeklarationer:

<?xml encoding='UTF-8'?>

  <?xml  encoding='EUC-JP'?>

4.3.4 Versionsinformation i entiteter

Varje entitet, inklusive dokumententiteten, kan deklareras separat som XML 1.0 eller XML 1.1. Den versionsdeklaration som fÃ¶rekommer i dokumententiteten bestÃ¤mmer versionen hos dokumentet i sin helhet. Ett XML 1.1-dokument kan ropa in externa entiteter i XML 1.0 sÃ¥ att annars kopierade versioner av externa entiteter, sÃ¤rskilt externa DTD-delmÃ¤ngder, inte behÃ¶ver sparas. I sÃ¥dant fall tillÃ¤mpas emellertid reglerna fÃ¶r XML 1.1 fÃ¶r hela dokumentet.

Om en entitet (inklusive dokumententiteten) inte Ã¤r mÃ¤rkt med ett versionsnummer, behandlas den som om den vore mÃ¤rkt som version 1.0.

4.4 Bearbetning av entiteter och anrop i en XML-tolk

Tabellen nedan summerar det sammanhang som teckenanrop, entitetsanrop och anrop av icke analyserade entiteter kan fÃ¶rekomma i och det OBLIGATORISKA beteendet hos en XML-tolk i respektive fall. Uttrycken i den vÃ¤nstra kolumnen beskriver sammanhanget:

Anrop i innehÃ¥ll: som ett anrop var som helst efter starttaggen och fÃ¶re sluttaggen i ett element; motsvarar begreppet innehÃ¥ll.
Anrop i attributvÃ¤rde: som ett anrop inom endera ett attributvÃ¤rde i en starttagg eller ett ingÃ¥ngsvÃ¤rde i en attributdeklaration; motsvarar begreppet attributvÃ¤rde.
Finns som attributvÃ¤rde: som ett namn - inte ett anrop - i endera ett attributvÃ¤rde som har deklarerats som typen ENTITY eller som en av de datatyper i attributvÃ¤rdet som Ã¥tskiljs med tomrum och som har deklarerats som typen ENTITIES.
Anrop i entitetsvÃ¤rde: som ett anrop inom en parameter- eller en intern entitets entitetsvÃ¤rdet inom anfÃ¶ringstecken i entitetsdeklarationen; motsvarar begreppet entitetsvÃ¤rde.
Anrop i DTD: som ett anrop inom endera den interna eller den externa delmÃ¤ngden i DTDn, men utanfÃ¶r ett entitetsvÃ¤rde, attributvÃ¤rde, PI, kommentar, systemadress, allmÃ¤n adress eller innehÃ¥llet i ett fÃ¶rbisett villkorligt avsnitt (se 3.4 Villkorliga avsnitt).

4.4.1 Inte accepterat

UtanfÃ¶r DTDn har %-tecknet ingen sÃ¤rskild betydelse. Det som Ã¤r ett parameterentitetsanrop i DTDn Ã¤r sÃ¥ledes inte accepterat som uppmÃ¤rkning i innehÃ¥llet. PÃ¥ samma sÃ¤tt Ã¤r namn pÃ¥ icke analyserade entiteter inte accepterade, utom nÃ¤r de fÃ¶rekommer i vÃ¤rdet pÃ¥ ett korrekt deklarerat attribut ["deklarerat som ENTITY eller ENTITIES"].

4.4.2 Infogat

[Definition: En entitet Ã¤r infogad nÃ¤r dess ersÃ¤ttningstext Ã¤r Ã¥terfunnen och bearbetad i stÃ¤llet fÃ¶r sjÃ¤lva anropet som om den vore del av dokumentet pÃ¥ det stÃ¤lle dÃ¤r anropet lÃ¥g.] ErsÃ¤ttningstexten FÃR innehÃ¥lla bÃ¥de teckendata och (utom fÃ¶r parameterentiteter) uppmÃ¤rkning, som MÃSTE accepteras pÃ¥ vanligt sÃ¤tt. (StrÃ¤ngen "AT&T;" expanderas till "AT&T;" och det Ã¥terstÃ¥ende och-tecknet blir inte tolkat som ett skiljetecken fÃ¶r ett entitetsanrop.) Ett teckenanrop Ã¤r infogat nÃ¤r det avsedda tecknet har placerats pÃ¥ platsen fÃ¶r sjÃ¤lva anropet.

4.4.3 Infogat vid validering

NÃ¤r en XML-tolk accepterar ett anrop till en analyserad entitet, MÃSTE den, fÃ¶r att validera dokumentet, infoga entitetens ersÃ¤ttningstext. Om entiteten Ã¤r extern och XML-tolken inte fÃ¶rsÃ¶ker validera XML-dokumentet, FÃR XML-tolken, men behÃ¶ver inte, infoga entitetens ersÃ¤ttningstext. Om en icke-validerande XML-tolk underlÃ¥ter att infoga ersÃ¤ttningstexten, MÃSTE den underrÃ¤tta applikationen att den accepterade, men inte lÃ¤ste entiteten.

Denna regel Ã¤r baserad pÃ¥ konstaterandet att den automatiska infogningen som SGMLs och XMLs entitetsmekanismer erbjuder fÃ¶r att i fÃ¶rsta hand stÃ¶dja moduluppbyggt fÃ¶rfattande, inte nÃ¶dvÃ¤ndigtvis Ã¤r lÃ¤mplig fÃ¶r andra applikationer - sÃ¤rskilt inte dokumentlÃ¤sning ("-browsing"). En lÃ¤sare som till exempel stÃ¶ter pÃ¥ ett anrop till en extern analyserad entitet kan vÃ¤lja att erbjuda en visuell indikation pÃ¥ entitetens nÃ¤rvaro och hÃ¤mta den fÃ¶r att endast visa pÃ¥ uppmaning.

4.4.4 FÃ¶rbjudet

FÃ¶ljande Ã¤r fÃ¶rbjudet och utgÃ¶r kritiska fel:

fÃ¶rekomsten av ett anrop till en icke analyserad entitet ["icke analyserade entiteter anropas med entitetsnamn"], utom i entitetsvÃ¤rdet i en entitetsdeklaration.
fÃ¶rekomsten av ett anrop till en teckenentitet eller en generell entitet i DTDn utom inom ett entitetsvÃ¤rde eller attributvÃ¤rde.
ett anrop till en extern entitet i ett attributvÃ¤rde ["som sÃ¥ledes inte Ã¤r deklarerat som ENTITY eller ENTITIES"].

4.4.5 Infogat inom anfÃ¶ringstecken

NÃ¤r ett entitetsanrop fÃ¶rekommer i ett attributvÃ¤rde, eller ett parameterentitetsanrop fÃ¶rekommer i ett entitetsvÃ¤rde innanfÃ¶r anfÃ¶ringstecken, behandlas deras ersÃ¤ttningstext i stÃ¤llet fÃ¶r sjÃ¤lva anropet som om de vore del av dokumentet pÃ¥ det stÃ¤lle dÃ¤r anropet lÃ¥g, utom att ett enkelt eller dubbelt anfÃ¶ringstecken i ersÃ¤ttningstexten alltid behandlas som normala datatecken och inte avslutar texten inom anfÃ¶ringstecknen. Till exempel Ã¤r detta vÃ¤lutformat:

<!ENTITY % JN '"Ja"' > 

  <!ENTITY VadHanSa "Han sa %JN;"  >

medan detta inte Ã¤r:

<!ENTITY EndAttr "27'" > 

  <element attribute='a-&EndAttr;>

4.4.6 UnderrÃ¤tta

NÃ¤r namnet pÃ¥ en icke analyserad entitet fÃ¶rekommer som en datatyp i vÃ¤rdet pÃ¥ ett attribut med den deklarerade typen ENTITY eller ENTITIES, MÃSTE en validerande XML-tolk underrÃ¤tta applikationen fÃ¶r systemadressen eller den allmÃ¤nna adressen (om det finns nÃ¥gon) om bÃ¥de entiteten och dess anknutna notation.

4.4.7 Ãverhoppat ("Bypassed")

NÃ¤r ett anrop till en generell entitet fÃ¶rekommer i entitetsvÃ¤rdet i en entitetsdeklaration, blir det Ã¶verhoppat och lÃ¤mnat som det Ã¤r.

4.4.8 Infogat som PE

Precis som med externa analyserade entiteter behÃ¶ver parameterentiteter bara bli infogade vid validering. NÃ¤r ett parameterentitetsanrop Ã¤r accepterat i DTDn och infogat, blir dess ersÃ¤ttningstext utÃ¶kad med tillÃ¤gg av ett inledande och ett avslutande blanktecken (#x20). Syftet Ã¤r att begrÃ¤nsa ersÃ¤ttningstexten i parameterentiteter till att innehÃ¥lla ett lÃ¥st antal grammatiska begrepp i DTDn. Detta beteende Ã¤r inte kopplat till parameterentitetsanrop inom entitetsvÃ¤rden; dessa beskrivs i 4.4.5 Infogat inom anfÃ¶ringstecken.

4.4.9 Fel

Det Ã¤r ett fel fÃ¶r ett anrop till en icke analyserad entitet att upptrÃ¤da i entitetsvÃ¤rdet i en entitetsdeklaration.

4.5 Konstruktion av ersÃ¤ttningstext fÃ¶r interna entiteter

Vid diskussionen om behandlingen av entiteter, Ã¤r det lÃ¤mpligt att urskilja tvÃ¥ former av entitetsvÃ¤rden. [Definition: FÃ¶r en intern entitet Ã¤r entitetsvÃ¤rdet inom anfÃ¶ringstecken den citerade strÃ¤ngen i entitetsdeklarationen motsvarande begreppet entitetsvÃ¤rde.] [Definition: FÃ¶r en extern entitet, Ã¤r literal entity value den exakta text som ligger i entiteten.] [Definition: FÃ¶r en extern entitet Ã¤r ersÃ¤ttningstexten innehÃ¥llet i entiteten nÃ¤r man har tagit bort textdeklarationen, om det finns nÃ¥gon (och lÃ¤mnat kvar omgivande tomrum), men utan ersÃ¤ttning av teckenanrop och parameterentitetsanrop.]

PÃ¥ det sÃ¤tt som entitetsvÃ¤rdet inom anfÃ¶ringstecken Ã¤r angivet i en intern entitetsdeklaration (entitetsvÃ¤rde) FÃR det innehÃ¥lla tecken-, parameterentiteter och generella entitetsanrop. SÃ¥dana anrop MÃSTE helt inkapslas i entitetsvÃ¤rdet inom anfÃ¶ringstecknen. Den faktiska ersÃ¤ttningstexten som Ã¤r infogad (eller infogad inom anfÃ¶ringstecken) pÃ¥ ovan angivet sÃ¤tt, MÃSTE innehÃ¥lla ersÃ¤ttningstexten frÃ¥n varje anropad parameterentitet och MÃSTE innehÃ¥lla det anropade tecknet i stÃ¤llet fÃ¶r varje teckenanrop i entitetsvÃ¤rdet inom anfÃ¶ringstecken. Emellertid MÃSTE generella entitetsanrop bli lÃ¤mnade som de Ã¤r, oexpanderade. Till exempel med fÃ¶ljande deklarationer givna:

<!ENTITY % pub    "&#xc9;ditions Gallimard" > 

  <!ENTITY   rights  "All rights reserved" > 

  <!ENTITY   book   "La Peste: Albert Camus,  

  &#xA9; 1947 %pub;. &rights;"  >

blir ersÃ¤ttningstexten fÃ¶r entiteten "book":

La Peste: Albert Camus,  

  Â© 1947 Ãditions Gallimard. &rights;

Om anropet till den generella entiteten "&rights;" skulle ha expanderats bÃ¶r anropet "&book;" fÃ¶rekomma i dokumentets innehÃ¥ll eller i ett attributvÃ¤rde.

Dessa enkla regler kan fÃ¥ en komplex vÃ¤xelverkan. FÃ¶r en detaljerad diskussion om ett svÃ¥rt exempel, se "D. Expansion av entitets- och teckenanrop".

4.6 FÃ¶rdefinierade entiteter

[Definition: Entitets- och teckenanrop FÃR bÃ¥de anvÃ¤ndas fÃ¶r att undvika mindre-Ã¤n-tecknet, och-tecknet och andra skiljetecken. En uppsÃ¤ttning av generella entiteter (amp, lt, gt, apos, quot) har specificerats fÃ¶r detta Ã¤ndamÃ¥l. Numeriska teckenanrop FÃR ocksÃ¥ anvÃ¤ndas; de blir omedelbart expanderade nÃ¤r de har accepterats och MÃSTE behandlas som teckendata. De numeriska teckenanropen "<" och "&" FÃR sÃ¥ledes anvÃ¤ndas fÃ¶r att undvika < och & nÃ¤r de upptrÃ¤der i teckendata.]

Alla XML-tolkar MÃSTE acceptera dessa entiteter, oberoende av om de Ã¤r deklarerade eller inte. FÃ¶r utbyte BÃR ett giltigt XML-dokument deklarera dessa entiteter precis som alla andra entiteter innan de anvÃ¤nds. Om entiteterna lt eller amp Ã¤r deklarerade, MÃSTE de vara deklarerade som interna entiteter vilkas ersÃ¤ttningstext Ã¤r ett teckenanrop till respektive tecken (mindre-Ã¤n- och och-tecken) som undantas; det dubbla undantaget krÃ¤vs fÃ¶r dessa entiteter sÃ¥ att anrop till dem ger ett vÃ¤lutformat resultat. Om entiteterna gt, apos eller quot deklareras, MÃSTE de deklareras som interna entiteter vilkas ersÃ¤ttningstext Ã¤r det enstaka tecken som undantas (eller ett teckenanrop till det tecknet; det dubbla undantaget Ã¤r hÃ¤r onÃ¶digt men harmlÃ¶st). Till exempel:

<!ENTITY lt     "&#38;#60;">  

  <!ENTITY gt     "&#62;">  

  <!ENTITY amp    "&#38;#38;">  

  <!ENTITY apos   "&#39;">  

  <!ENTITY quot   "&#34;">

4.7 Notationsdeklarationer

[Definition: Notationer identifierar med namn formatet pÃ¥ icke analyserade entiteter, formatet pÃ¥ element som bÃ¤r ett notationsattribut eller den applikation som en processinstruktion anropar.]

[Definition: Notationsdeklarationer anger ett namn pÃ¥ notationen fÃ¶r anvÃ¤ndning i entitets- och attribut-listdeklarationer och i attributspecifikationer samt en extern adress fÃ¶r den notation som fÃ¥r tillÃ¥ta en XML-tolk eller dess klientapplikation att lokalisera en hjÃ¤lpapplikation som kan bearbeta data i den angivna notationen.]

GiltighetsbegrÃ¤nsning: Unikt notationsnamn: Ett angivet namn FÃR INTE deklareras i mer Ã¤n en notationsdeklaration.

XML-tolkar MÃSTE fÃ¶rse applikationer med namnet och de externa adresserna fÃ¶r alla notationer som deklarerats och som anropats i ett attributvÃ¤rde, en attributdefinition eller en entitetsdeklaration. De FÃR dessutom lÃ¶sa upp den externa adressen till en systemadress, ett filnamn eller annan information som Ã¤r nÃ¶dvÃ¤ndig fÃ¶r att tillÃ¥ta applikationen att kalla pÃ¥ en behandlare av data i den beskrivna notationen. (Det Ã¤r emellertid inte ett fel fÃ¶r XML-dokument att deklarera och anropa notationer fÃ¶r vilka notationsspecifika applikationer inte Ã¤r tillgÃ¤ngliga inom det system dÃ¤r XML-tolken eller applikationen arbetar.)

4.8 Dokumententitet

[Definition: Dokumententiteten tjÃ¤nar som rot fÃ¶r entitetstrÃ¤det och en startpunkt fÃ¶r en XML-tolk]. Denna specifikation specificerar inte hur dokumententiteten skall lokaliseras av en XML-tolk. I motsats till andra entiteter har dokumententiteten inget namn och kan mycket vÃ¤l fÃ¶rekomma i inmatningsflÃ¶det hos en XML-tolk utan nÃ¥gon identifikation alls.

5 Konformitet 5.1 Validerande respektive icke-validerande XML-tolkar

Konforma XML-tolkar delar upp sig i tvÃ¥ klasser; validerande respektive icke-validerande.

SÃ¥vÃ¤l validerande som icke-validerande XML-tolkar MÃSTE rapportera Ã¶vertrÃ¤delser av vÃ¤lutformningsbegrÃ¤nsningar enligt denna specifikation frÃ¥n innehÃ¥llet i dokumententiteten och alla andra analyserade entiteter som de lÃ¤ser.

[Definition: Validerande XML-tolkar MÃSTE pÃ¥ anvÃ¤ndarens initiativ kunna rapportera Ã¶vertrÃ¤delser av de begrÃ¤nsningar som uttryckts av deklarationerna i DTDn och varje icke uppfylld giltighetsbegrÃ¤nsning som angetts i denna specifikation.] FÃ¶r att uppnÃ¥ det MÃSTE validerande XML-tolkar lÃ¤sa och bearbeta hela DTDn och alla externa analyserade entiteter som anropats i dokumentet.

Icke-validerande XML-tolkar behÃ¶ver bara analysera dokumententiteten, inklusive hela den interna DTD-delmÃ¤ngden med avseende pÃ¥ vÃ¤lutformning. [Definition: Eftersom de inte behÃ¶ver analysera dokumentet med avseende pÃ¥ giltighet, Ã¤r det OBLIGATORISKT fÃ¶r dem att bearbeta alla deklarationer de lÃ¤ser i den interna DTD-delmÃ¤ngden och i alla parameterentiter som de lÃ¤ser Ã¤nda fram till det fÃ¶rsta anropet till en parameterentitet som de inte lÃ¤ser. Dvs de MÃSTE anvÃ¤nda informationen i dessa deklarationer fÃ¶r att normalisera attributvÃ¤rdena, infoga ersÃ¤ttningstexten fÃ¶r interna entiteter och fÃ¶rse attributen med ingÃ¥ngsvÃ¤rden.] Med undantag fÃ¶r nÃ¤r standalone="yes", FÃR de INTE bearbeta entitetsdeklarationer eller attributlist-deklarationer som de mÃ¶ter efter ett anrop till en parameterentitet som inte Ã¤r lÃ¤st, eftersom entiteten kan ha innehÃ¥llit Ã¶vertrumfande deklarationer; nÃ¤r standalone="yes" MÃSTE XML-tolkar bearbeta dessa deklarationer.

Notera att nÃ¤r ogiltiga dokument bearbetas med en icke-validerande XML-tolk blir applikationen inte matad med konsistent information. T.ex. kan Ã¥tskilliga krav pÃ¥ unikhet inom dokumentet inte mÃ¶tas, inklusive fler Ã¤n ett element med samma id, dubbla deklarationer av element eller notationer med samma namn etc. I dessa fall blir beteendet hos tolken odefinierat med avseende pÃ¥ rapportering av sÃ¥dan information till applikationen.

5.2 AnvÃ¤ndning av XML-tolkar

Beteendet hos en validerande XML-tolk Ã¤r hÃ¶gst fÃ¶rutsÃ¤gbart; den mÃ¥ste lÃ¤sa varje del av ett dokument och rapportera alla vÃ¤lutformnings- och giltighetsÃ¶vertrÃ¤delser. Mindre krÃ¤vs av en icke-validerande XML-tolk; den behÃ¶ver inte lÃ¤sa nÃ¥gon annan del av dokumentet Ã¤n dokumententiteten. Detta har tvÃ¥ konsekvenser som kan vara viktiga fÃ¶r anvÃ¤ndare av XML-tolk:

Vissa vÃ¤lutformningsfel, i synnerhet de som krÃ¤ver inlÃ¤sning av externa entiteter, kanske undgÃ¥r att bli upptÃ¤ckta av en icke-validerande XML-tolk. Exempel pÃ¥ detta inbegriper sÃ¥vÃ¤l begrÃ¤nsningar kallade deklarerad entitet, analyserad entitet och ingen rekursivitet som vissa av de fall som beskrivits som fÃ¶rbjudna i "4.4 Bearbetning av entiteter och anrop i en XML-tolk".
Informationen som fÃ¶rmedlas av XML-tolken till applikationen kan variera, beroende pÃ¥ om XML-tolken lÃ¤ser parameter- och externa entiteter. T.ex. kanske en icke-validerande XML-tolk undgÃ¥r att normalisera attributvÃ¤rden, att infoga ersÃ¤ttningstexten fÃ¶r interna entiteter eller att ange ingÃ¥ngsvÃ¤rden fÃ¶r attribut fÃ¶r avsnitt dÃ¤r det Ã¤r avhÃ¤ngigt om den har lÃ¤st deklarationer i parameter- eller externa entiteter.

FÃ¶r maximal tillfÃ¶rlitlighet i samarbetet mellan olika XML-tolkar BÃR applikationer som anvÃ¤nder icke-validerande XML-tolkar INTE bygga pÃ¥ beteenden som inte krÃ¤vs av sÃ¥dana verktyg. Applikationer som krÃ¤ver DTD-egenskaper som inte Ã¤r knutna till validering, som anvÃ¤ndningen av deklaration av ingÃ¥ngsvÃ¤rden fÃ¶r t.ex. attribut och interna entiteter, vilka fÃ¶rekommer eller kan fÃ¶rekomma i externa entiteter, BÃR anvÃ¤nda validerande XML-tolkar.

6 BeteckningssÃ¤tt

Den formella grammatiken i XML Ã¤r given i denna specifikation genom en enkel anvÃ¤ndning av beteckningssÃ¤ttet Extended Backus-Naur Form (EBNF). Varje regel i grammatiken definierar ett begrepp i formen:

Begrepp Ã¤r skrivna med en inledande versal om de Ã¤r inledande symboler fÃ¶r ett reguljÃ¤rt sprÃ¥k, annars med en inledande gemen ["liten bokstav"]. InnehÃ¥llet i "literal strings" Ã¤r placerat mellan anfÃ¶ringstecken.

Inom uttrycket som anges pÃ¥ hÃ¶gersidan av en regel anvÃ¤nds fÃ¶ljande uttryck fÃ¶r att kontrollera Ã¶verensstÃ¤mmelse med strÃ¤ngar som innehÃ¥ller ett eller flera tecken:

#xN: dÃ¤r N Ã¤r ett hexadecimalt heltal; uttrycket ansluter till tecknet vars nummer (kodnummer) i ISO/IEC 10646 Ã¤r N. Antalet inledande nollor i #xN-formen har ingen betydelse.
[-'()+,./:=?;!*#@$_%]: Ã¶verensstÃ¤mmer med nÃ¥got av de angivna tecknen.
[a-zA-Z], [#xN-#xN]: Ã¶verensstÃ¤mmer nÃ¥got tecken med ett vÃ¤rde inom och inklusive det angivna intervallet/en.
[^a-z], [^#xN-#xN]: Ã¶verensstÃ¤mmer med alla tecken med ett vÃ¤rde utanfÃ¶r det angivna intervallet.
[^abc], [^#xN#xN#xN]: Ã¶verensstÃ¤mmer med alla tecken med ett vÃ¤rde som inte Ã¤r bland de angivna tecknen. UpprÃ¤kningar och intervall av fÃ¶rbjudna vÃ¤rden kan blandas inom en hakparentes.
"string": Ã¶verensstÃ¤mmer med en "literal string" som Ã¶verensstÃ¤mmer med det som anges innanfÃ¶r citationstecknen.
'string': Ã¶verensstÃ¤mmer med en "literal string" som Ã¶verensstÃ¤mmer med det som anges innanfÃ¶r apostroftecknen.

Dessa begrepp kan vara kombinerade fÃ¶r att Ã¶verensstÃ¤mma med mer komplexa mÃ¶nster som nedan, dÃ¤r A och B representerar enkla uttryck:

(uttryck): uttryck behandlas som en enhet och kan kombineras som beskrivs i denna lista.
A?: Ã¶verensstÃ¤mmer med A eller ingenting; valfritt A.
A B: Ã¶verensstÃ¤mmer med A fÃ¶ljt av B. Denna operator har fÃ¶retrÃ¤de framfÃ¶r alternering sÃ¥ att A B | C D Ã¤r identisk med (A B) | (C D).
A | B: Ã¶verensstÃ¤mmer med A eller B.
A - B: Ã¶verensstÃ¤mmer med varje strÃ¤ng som Ã¶verensstÃ¤mmer med A men inte Ã¶verensstÃ¤mmer med B.
A+: Ã¶verensstÃ¤mmer med en eller flera fÃ¶rekomster av A. Konkatenering har fÃ¶retrÃ¤de framfÃ¶r alternering, sÃ¥ att A+ | B+ Ã¤r identiskt med (A+) | (B+).
A*: Ã¶verensstÃ¤mmer med ingen, en eller flera fÃ¶rekomster av A. Konkatenering har fÃ¶retrÃ¤de framfÃ¶r alternering, sÃ¥ att A* | B* Ã¤r identiskt med (A*) | (B*).

Andra beteckningssÃ¤tt som anvÃ¤nds i definitionerna Ã¤r:

/* ... */: kommentar.
[ wfc: ... ]: vÃ¤lutformningsbegrÃ¤nsning ("well-formedness constraint"); detta identifierar namnet pÃ¥ en begrÃ¤nsning fÃ¶r vÃ¤lformade dokument anknuten till en definition.
[ vc: ... ]: giltighetsbegrÃ¤nsning ("validity constraint"); detta identifierar namnet pÃ¥ en begrÃ¤nsning fÃ¶r giltiga dokument anknuten till en definition.

Bilagor A Referenser A.1 Normativa referenser

IANA-CHARSETS: (Internet Assigned Numbers Authority) Official Names for Character Sets, ed. Keld Simonsen m.fl. Se http://www.iana.org/assignments/character-sets.
IETF RFC 1766: IETF (Internet Engineering Task Force). RFC 1766: Tags for the Identification of Languages, ed. H. Alvestrand. 1995. (Se http://www.ietf.org/rfc/rfc1766.txt.)
IETF RFC 2396: IETF (Internet Engineering Task Force). RFC 2396: Uniform Resource Identifiers (URI): Generic Syntax. T. Berners-Lee, R. Fielding, L. Masinter. 1998. (Se http://www.ietf.org/rfc/rfc2396.txt.)
IETF RFC 2732: IETF (Internet Engineering Task Force). RFC 2732: Format for Literal IPv6 Addresses in URL's. R. Hinden, B. Carpenter, L. Masinter. 1999. (Se http://www.ietf.org/rfc/rfc2732.txt.)
IETF RFC 3066: IETF (Internet Engineering Task Force). RFC 3066: Tags for the Identification of Languages, ed. H. Alvestrand. 2001. (Se http://www.ietf.org/rfc/rfc3066.txt.)
ISO/IEC 10646: ISO (International Organization for Standardization). ISO/IEC 10646-1:2000. Information technology â Universal Multiple-Octet Coded Character Set (UCS) â Part 1: Architecture and Basic Multilingual Plane and ISO/IEC 10646-2:2001. Information technology â Universal Multiple-Octet Coded Character Set (UCS) â Part 2: Supplementary Planes, liksom, frÃ¥n tid till annan, tillagd med, ersatt av en ny upplaga eller utÃ¶kad med tillÃ¤gg av nya delar. [Geneva]: International Organization for Standardization. (Se http://www.iso.ch/ fÃ¶r den senaste versionen.)
Unicode: The Unicode Consortium. The Unicode Standard, Version 4.0. Reading, Mass.: Addison-Wesley, 2003, Ã¤ven uppdaterad frÃ¥n tid till annan genom publicering av nya versioner. (Se http://www.unicode.org/unicode/standard/versions fÃ¶r den senaste versionen och tillÃ¤ggsinformation om versioner av standarden och av the Unicode Character Database).
XML-1.0: W3C. Extensible Markup Language (XML) 1.0 (Third Edition). Tim Bray, Jean Paoli, C.M. Sperberg-McQueen, Eve Maler, FranÃ§ois Yergeau (editors) (Se http://www.w3.org/TR/REC-xml.)

A.2 Andra referenser

Aho/Ullman: Aho, Alfred V., Ravi Sethi och Jeffrey D. Ullman.Compilers: Principles, Techniques, and Tools. Reading: Addison-Wesley, 1986, rpt. corr. 1988.
Berners-Lee m.fl.: Berners-Lee, T., R. Fielding och L. Masinter. Uniform Resource Identifiers (URI): Generic Syntax and Semantics. 1997. (PÃ¥gÃ¥ende arbete; se uppdateringar till RFC1738.)
BrÃ¼ggemann-Klein: BrÃ¼ggemann-Klein, Anne. Formal Models in Document Processing. Habilitationsschrift. Matematikfakulteten vid Freiburgs universitet, 1993. (Se ftp://ftp.informatik.uni-freiburg.de/documents/papers/brueggem/habil.ps.)
BrÃ¼ggemann-Klein och Wood: BrÃ¼ggemann-Klein, Anne och Derick Wood. Deterministic Regular Languages. UniversitÃ¤t Freiburg, Institut fÃ¼r Informatik, Bericht 38, Oktober 1991. Utvecklad artikel i A. Finkel, M. Jantzen, Hrsg., STACS 1992, S. 173-184. Springer-Verlag, Berlin 1992. FÃ¶relÃ¤sningsnoter i Computer Science 577. Full version med titeln One-Unambiguous Regular Languages i Information and Computation 140 (2): 229-253, February 1998.
Charmod: W3C. Character Model for the World Wide Web. Martin J. DÃ¼rst, FranÃ§ois Yergeau, Richard Ishida, Misha Wolf, Asmus Freytag, Tex Texin. (Se http://www.w3.org/TR/charmod/.)
Clark: James Clark. Comparison of SGML and XML. Se http://www.w3.org/TR/NOTE-sgml-xml-971215.
IANA-LANGCODES: (Internet Assigned Numbers Authority) Registry of Language Tags, ed. Keld Simonsen m.fl. (Se http://www.iana.org/assignments/language-tags.)
IETF RFC 2141: IETF (Internet Engineering Task Force). RFC 2141: URN Syntax, ed. R. Moats. 1997. (Se http://www.ietf.org/rfc/rfc2141.txt.)
IETF RFC 3023: IETF (Internet Engineering Task Force). RFC 3023: XML Media Types. eds. M. Murata, S. St.Laurent, D. Kohn. 2001. (See http://www.ietf.org/rfc/rfc3023.txt.)
IETF RFC 2781: IETF (Internet Engineering Task Force). RFC 2781: UTF-16, an encoding of ISO 10646, ed. P. Hoffman, F. Yergeau. 2000. (See http://www.ietf.org/rfc/rfc2781.txt.)
ISO 639: (International Organization for Standardization). ISO 639:1988 (E). Code for the representation of names of languages. [Geneva]: International Organization for Standardization, 1988.
ISO 3166: (International Organization for Standardization). ISO 3166-1:1997 (E). Codes for the representation of names of countries and their subdivisions â Part 1: Country codes [Geneva]: International Organization for Standardization, 1997.
ISO 8879: ISO (International Organization for Standardization). ISO 8879:1986(E). Information processing -- Text and Office Systems -- Standard Generalized Markup Language (SGML). First edition -- 1986-10-15. [Geneva]: International Organization for Standardization, 1986.
ISO/IEC 10744: ISO (International Organization for Standardization). ISO/IEC 10744-1992 (E). Information technology -- Hypermedia/Time-based Structuring Language (HyTime). [Geneva]: International Organization for Standardization, 1992. Extended Facilities Annexe. [Geneva]: International Organization for Standardization, 1996.
WEBSGML: ISO (International Organization for Standardization). ISO 8879:1986 TC2. Information technology -- Document Description and Processing Languages. [Geneva]: International Organization for Standardization, 1998. (Se http://www.sgmlsource.com/8879rev/n0029.htm.)
XML Names: Tim Bray, Dave Hollander, and Andrew Layman, editors. Namespaces in XML. Textuality, Hewlett-Packard, and Microsoft. World Wide Web Consortium, 1999. (Se http://www.w3.org/TR/REC-xml-names/.)

B Definitioner fÃ¶r teckennormalisering

Denna bilaga innehÃ¥ller nÃ¶dvÃ¤ndiga definitioner fÃ¶r teckennormalisering. FÃ¶r ytterligare bakgrundsinformation och exempel, se [Charmod].

[Definition: Text anses vara i en Unicode-kodform om den Ã¤r kodad i UTF-8, UTF-16 eller UTF-32.]

[Definition: FÃ¶rÃ¥ldrad kodning ("legacy encoding") anses gÃ¤lla varje teckenkodning som inte baseras pÃ¥ Unicode.]

[Definition: A normaliseringsomkodare ("normalizing transcoder") Ã¤r en omkodare som konverterar frÃ¥n en fÃ¶rÃ¥ldrad kodning till en Unicode-kodform och tillfÃ¶rsÃ¤krar att resultatet Ã¤r i Unicode Normalization Form C (se UAX #15 [Unicode]).]

[Definition: Ett teckenundvikande ("character escape") Ã¤r en syntaktisk metod definierad i ett mÃ¤rk- eller programsprÃ¥k som tillÃ¥ter en eller flera av:]

anvÃ¤ndning av tecken med syntaxinnebÃ¶rd ("syntax-significant characters") samtidigt som det bortses frÃ¥n deras innebÃ¶rd i syntaxen i sprÃ¥ket , eller
anvÃ¤ndning av tecken som inte kan representeras i den teckenkoden som gÃ¤ller fÃ¶r en instans i det sprÃ¥ket, eller
anvÃ¤ndning av tecken generellt, utan anvÃ¤nding av tillhÃ¶rande teckenkoder.

[Definition: Certifierad text Ã¤r text som uppfyller Ã¥tminstone ett av fÃ¶ljande villkor:]

den har bekrÃ¤ftats genom inspektion att vara text i normaliserad form
den anvÃ¤nda textbehandlingskomponenten Ã¤r identifierad och Ã¤r kÃ¤nd fÃ¶r att producera enbart normaliserad text.

[Definition: Text Ã¤r, fÃ¶r syftet med denna specifikation, Unicode-normaliserad om den Ã¤r i en Unicode-kodform och Ã¤r i Unicode Normalization Form C, enligt en version av Unicode Standard Annex #15: Unicode Normalization Forms [Unicode] Ã¥tminstone sÃ¥ sen som den Ã¤ldsta versionen av the Unicode Standard som innehÃ¥ller alla tecken som faktiskt finns i texten, men inte tidigare Ã¤n version 3.2.]

[Definition: Text Ã¤r infogningsnormaliserad ("include-normalized") om:]

texten Ã¤r Unicode-normaliserad och inte innehÃ¥ller nÃ¥gra teckenundvikanden eller infogningar vilkas expansion skulle orsaka att texten inte lÃ¤ngre blir Unicode-normaliserad; eller
texten Ã¤r i en fÃ¶rÃ¥ldrad kodning och, om den vore omkodad till en Unicode-kodform via en normaliserande omkodare, den resulterande texten skulle uppfylla villkoret 1 ovan.

[Definition: Ett sammansÃ¤ttningstecken Ã¤r ett tecken som uppfyller ett eller bÃ¥da av fÃ¶ljande villkor:]

det andra tecknet i den kanoniska upplÃ¶sningskonverteringen ("canonical decomposition mapping") av vissa primÃ¤ra sammansÃ¤ttningar ("primary composite") (som definierats i D3 av UAX #15 [Unicode]), eller
av den kanoniska kombinationsklassen ("canonical combining class") non-zero (som definierats i Unicode [Unicode]).

[Definition: Text Ã¤r helnormaliserad ("fully-normalized") om:]

texten Ã¤r i en Unicode-kodform, Ã¤r infogningsnormaliserad och ingen av de relevanta konstruktioner som sammanfogar texten bÃ¶rjar med ett sammansÃ¤ttningstecken eller ett teckenundvikande som representerar ett sammansÃ¤ttningstecken; eller
texten Ã¤r i en fÃ¶rÃ¥ldrad kodning och, om den vore omkodad till en Unicode-kodform via en normaliserande omkodare, den resulterande texten skulle uppfylla villkor 1 ovan.

C Expansion av entitets- och teckenanrop (icke normativt)

Denna bilaga innehÃ¥ller nÃ¥gra exempel som illustrerar en fÃ¶ljd av identifieringar och expansioner av entitets- och teckenanrop, som har specificerats i "4.4 Bearbetning av entiteter och anrop i en XML-tolk".

Om DTDn innehÃ¥ller deklarationen

<!ENTITY exempel "<p>Ett och-tecken (&#38;#38;) fÃ¥r undvikas 

  numeriskt (&#38;#38;#38;) eller med en  generell entitet 

  (&amp;amp;).</p>" >

kommer XML-tolken att acceptera teckenanropen nÃ¤r den tolkar entitetsdeklarationen och lÃ¶sa upp dem innan den lagrar fÃ¶ljande strÃ¤ng som vÃ¤rde pÃ¥ entiteten "exempel":

<p>Ett och-tecken (&#38;) fÃ¥r undvikas 

  numeriskt (&#38;#38;) eller med en  generell entitet 

  (&amp;amp;).</p>

Ett anrop i dokumentet till "&exempel;" kommer att gÃ¶ra att text analyseras pÃ¥ nytt, varvid start- och slut-taggarna i elementet "p" kommer att accepteras och de tre anropen accepteras och expanderas, vilket resulterar i ett "p"-element med fÃ¶ljande innehÃ¥ll (allt Ã¤r data - inte skiljetecken eller uppmÃ¤rkning):

Ett och-tecken (&) fÃ¥r undvikas 

  numeriskt (&#38;) eller med en generell  entitet 

  (&amp;).

Ett mer komplext exempel illustrerar reglerna och deras konsekvenser fullt ut. I fÃ¶ljande exempel Ã¤r radnumren enbart till fÃ¶r referens.

1 <?xml version='1.0'?> 

  2 <!DOCTYPE test [ 

  3 <!ELEMENT test (#PCDATA) > 

  4 <!ENTITY % xx '&#37;zz;'> 

  5 <!ENTITY % zz '&#60;!ENTITY knepig "fel-benÃ¤gen" >' > 

  6 %xx; 

  7 ]>

  8 <test>Detta prov visar en &knepig; metod.</test>

Detta producerar fÃ¶ljande:

pÃ¥ rad 4; referensen till tecken 37 expanderas omedelbart och parameterentiteten "xx" lagras i begreppstabellen med vÃ¤rdet "%zz;". Eftersom ersÃ¤ttningstexten inte blir Ã¥terlÃ¤st, accepteras inte anropet till parameterentiteten "zz". (Och det skulle vara ett fel om den accepterades, eftersom "zz" inte Ã¤r deklarerad Ã¤n.)
pÃ¥ rad 5; teckenanropet "<" expanderas omedelbart och parameterentiteten "zz" lagras med ersÃ¤ttningstexten "<!ENTITY knepig "fel-benÃ¤gen" >", som Ã¤r en vÃ¤lformad entitetsdeklaration.
pÃ¥ rad 6; referensen till "xx" accepteras och ersÃ¤ttningstexten fÃ¶r "xx" (nÃ¤mligen "%zz;") analyseras. Anropet till "zz" accepteras i sin tur och dess ersÃ¤ttningstext ("<!ENTITY knepig "fel-benÃ¤gen" >") analyseras. Den generella entiteten "knepig" har nu blivit deklarerad med ersÃ¤ttningstexten "fel-benÃ¤gen".
pÃ¥ rad 8; anropet till den generella entiteten "knepig" accepteras och den blir expanderad, sÃ¥ att det fulla innehÃ¥llet i "test"-elementet blir den sjÃ¤lvbeskrivande (och ogrammatiska) strÃ¤ngen Detta prov visar en fel-benÃ¤gen metod.

D Deterministiska innehÃ¥llsmodeller (icke normativt)

Som angetts i 3.2.1 ElementinnehÃ¥ll, krÃ¤vs det att innehÃ¥llsmodeller i elementtypsdeklarationer Ã¤r deterministiska. Detta krav gÃ¤ller fÃ¶r kompatibilitet med SGML (som kallar deterministiska innehÃ¥llsmodeller "otvetydiga") ("unambiguous"); XML-tolkar som byggts fÃ¶r att anvÃ¤nda SGML-system kan signalera en icke deterministisk innehÃ¥llsmodell som fel.

T.ex. Ã¤r innehÃ¥llsmodellen ((b, c) | (b, d)) icke deterministisk, dÃ¤rfÃ¶r att givet ett inledande b kan inte XML-tolken avgÃ¶ra vilket b i modellen som stÃ¤mmer Ã¶verens utan att titta i fÃ¶rvÃ¤g fÃ¶r att se vilket element som fÃ¶ljer efter b. I detta fall kan de tvÃ¥ anropen till b reduceras till ett enda anrop, vilket ger modellen fÃ¶ljande utseende (b, (c | d)). Ett inledande b Ã¶verensstÃ¤mmer nu tydligt bara med ett enda namn i innehÃ¥llsmodellen. XML-tolken behÃ¶ver inte titta i fÃ¶rvÃ¤g fÃ¶r att se vad som fÃ¶ljer; endera c eller d kommer att accepteras.

Mer formellt sett: en Ã¤ndlig nivÃ¥-robot ("state automaton") kan skapas ur en innehÃ¥llsmodell med anvÃ¤ndning av standardalgoritmer, t.ex. algoritm 3.5 i avsnitt 3.9 av Aho, Sethi och Ullman [Aho/Ullman]. I mÃ¥nga sÃ¥dana algoritmer skapas en tillÃ¤ggsuppsÃ¤ttning fÃ¶r varje position i det reguljÃ¤ra uttrycket (dvs. fÃ¶r varje lÃ¶v-nivÃ¥ i syntaxtrÃ¤det fÃ¶r det reguljÃ¤ra uttrycket). Om nÃ¥gon position har en tillÃ¤ggsuppsÃ¤ttning i vilken mer Ã¤n en Ã¥tfÃ¶ljande position har samma elementtypsnamn, Ã¤r innehÃ¥llsmodellen felaktig och fÃ¥r anges som ett fel.

Det finns algoritmer som tillÃ¥ter att mÃ¥nga, men inte alla, icke deterministiska innehÃ¥llsmodeller fÃ¥r reduceras automatiskt till ekvivalenta deterministiska modeller; se BrÃ¼ggemann-Klein 1991 [BrÃ¼ggemann-Klein].

E Automatiskt faststÃ¤llande av teckenuppsÃ¤ttningar (icke normativt)

XMLs teckenkodsdeklaration fungerar som en intern etikett pÃ¥ varje entitet, som anger vilken teckenuppsÃ¤ttning som anvÃ¤nds. Innan en XML-tolk emellertid kan lÃ¤sa den interna etiketten, mÃ¥ste den uppenbarligen veta vilken teckenuppsÃ¤ttning som anvÃ¤nds - vilket Ã¤r vad den interna etiketten fÃ¶rsÃ¶ker att ange. I det generella fallet Ã¤r detta en hopplÃ¶s situation. I XML Ã¤r det emellertid inte helt hopplÃ¶st pÃ¥ grund av att XML begrÃ¤nsar det generella fallet pÃ¥ tvÃ¥ sÃ¤tt: varje tillÃ¤mpning antas stÃ¶dja bara en begrÃ¤nsad uppsÃ¤ttning teckenkoder och XMLs teckenkodsdeklaration Ã¤r begrÃ¤nsad i position och innehÃ¥ll fÃ¶r att kunna gÃ¶ra det mÃ¶jligt att automatiskt faststÃ¤lla den teckenuppsÃ¤ttning som anvÃ¤nds i varje entitet i normala fall. I mÃ¥nga fall finns ocksÃ¥ andra kÃ¤llor fÃ¶r information tillgÃ¤nglig utÃ¶ver sjÃ¤lva XML-dataflÃ¶det. TvÃ¥ fall kan urskiljas beroende pÃ¥ om XML-entiteten Ã¤r presenterad fÃ¶r XML-tolken utan eller med nÃ¥gon Ã¥tfÃ¶ljande (extern) information. Vi betraktar det fÃ¶rsta fallet fÃ¶rst.

E.1 FaststÃ¤llande utan extern teckenkodsinformation

Eftersom varje XML-entitet som inte Ã¤r Ã¥tfÃ¶ljd av en extern teckenuppsÃ¤ttningsinformation och som inte Ã¤r i UTF-8- eller i UTF-16-format mÃ¥ste bÃ¶rja med en teckenkodsdeklaration i XML, i vilken de fÃ¶rsta tecknen mÃ¥ste vara '<?xml', kan varje godkÃ¤nd XML-tolk efter tvÃ¥ till fyra inmatade oktetter faststÃ¤lla vilket av de Ã¥tfÃ¶ljande alternativen som gÃ¤ller. NÃ¤r den lÃ¤ser denna lista, kan den ha hjÃ¤lp av att veta att i UCS-4 motsvaras '<' av "#x0000003C" och '?' av "#x0000003F" samt byteordningsmÃ¤rkningen som krÃ¤vs fÃ¶r UTF-16-dataflÃ¶den Ã¤r "#xFEFF". Notationen ## anvÃ¤nds fÃ¶r att utesluta alla bytevÃ¤rden utom att tvÃ¥ ## i rad inte kan vara 00.

Med ett byteordningsmÃ¤rke:

00 00 FE FF UCS-4, big-endian machine (1234 order) FF FE 00 00 UCS-4, little-endian machine (4321 order) 00 00 FF FE UCS-4, ovanlig oktettordning (2143) FE FF 00 00 UCS-4, ovanlig oktettordning (3412) FE FF ## ## UTF-16, big-endian FF FE ## ## UTF-16, little-endian EF BB BF UTF-8

Med ett byteordningsmÃ¤rke:

00 00 00 3C UCS-4 eller andra koder med kodenheter pÃ¥ 32-bitar och ASCII-tecken kodade som ASCII-vÃ¤rden, i respective big-endian (1234), little-endian (4321) och tvÃ¥ ovanliga byteordningar (2143 och 3412). Teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att bestÃ¤mma vilken av UCS-4 eller andra stÃ¶dda 32-bitarskoder som gÃ¤ller. 3C 00 00 00 00 00 3C 00 00 3C 00 00 00 3C 00 3F UTF-16BE eller big-endian ISO-10646-UCS-2 eller annan kod med kodenheter pÃ¥ 16-bitar i big-endianordning och ASCII-tecken kodade som ASCII-vÃ¤rden (teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att bestÃ¤mma vilken) 3C 00 3F 00 UTF-16LE eller little-endian ISO-10646-UCS-2 eller annan kod med kodenheter pÃ¥ 16-bitar i little-endianordning och ASCII-tecken kodade som ASCII-vÃ¤rden (teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att bestÃ¤mma vilken) 3C 3F 78 6D UTF-8, ISO 646, ASCII, viss del av ISO 8859, Shift-JIS, EUC eller varje annan 7-bitars-, 8-bitars- eller kod med blandat antal bitar som tillfÃ¶rsÃ¤krar att ASCII-tecknen har sina normala positioner, antal bitar och vÃ¤rden; den aktuella teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att bestÃ¤mma vilken av dessa som gÃ¤ller, men eftersom alla dessa koder anvÃ¤nder samma bit-mÃ¶nster fÃ¶r de relevanta ASCII-tecknen, kan sjÃ¤lva teckenkodsdeklarationen lÃ¤sas tillfÃ¶rlitligt 4C 6F A7 94 EBCDIC (i nÃ¥gon variant; den fulla teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att tala om vilken kodsida som anvÃ¤nds) Annan UTF-8 utan en teckenkodsdeklaration eller annars Ã¤r datastrÃ¶mmen felaktigt etiketterad (saknar en obligatorisk teckenkodsdeklaration), korrupt, fragmentarisk eller ligger i en fÃ¶rpackning av nÃ¥gon sort

Not:

I fall ovan som inte krÃ¤ver att teckenkodsdeklarationen mÃ¥ste lÃ¤sas fÃ¶r att besÃ¤mma teckenkoden, krÃ¤ver avsnitt 4.3.3 Ã¤ndÃ¥ att teckenkodsdeklarationen lÃ¤ses, om den finns med, och att teckenkodsnamnet kontrolleras fÃ¶r Ã¶verensstÃ¤mmelse med den aktuella teckenuppsÃ¤ttningen hos entiteten. Det Ã¤r ocksÃ¥ mÃ¶jligt att nya teckenuppsÃ¤ttningar kommer att uppfinnas som gÃ¶r det mÃ¶jligt att anvÃ¤nda teckenkodsdeklarationen fÃ¶r att bestÃ¤mma teckenkoden i fall dÃ¤r detta inte behÃ¶vs fÃ¶r nÃ¤rvarande.

Denna nivÃ¥ av automatiskt faststÃ¤llande Ã¤r tillrÃ¤cklig fÃ¶r att lÃ¤sa teckenkodsdeklarationen i XML och tolka teckenuppsÃ¤ttningsidentifierare, som fortfarande Ã¤r nÃ¶dvÃ¤ndig fÃ¶r att urskilja de individuella medlemmarna i varje familj av kodningar (t.ex. att skilja UTF-8 frÃ¥n 8859 och delarna av 8859 frÃ¥n varandra eller att urskilja den specifika kodsidan i EBCDIC som anvÃ¤nds osv).

Eftersom innehÃ¥llet i teckenkodsdeklarationen Ã¤r begrÃ¤nsad till ASCII-tecknens repertoar (emellertid kodad), kan en XML-tolk tillfÃ¶rlitligt lÃ¤sa hela teckenkodsdeklarationen sÃ¥ fort den har faststÃ¤llt vilken kodfamilj som anvÃ¤nds. Eftersom i praktiken alla brett anvÃ¤nda teckenkoder hamnar i en av kategorierna ovan, medger teckenkodsdeklarationen i XML en godtagbart tillfÃ¶rlitlig beskrivning av teckenuppsÃ¤ttningar, Ã¤ven dÃ¥ externa informationskÃ¤llor pÃ¥ nivÃ¥n fÃ¶r operativsystem eller Ã¶verfÃ¶ringsprotokoll inte Ã¤r tillfÃ¶rlitliga. Teckenkoder som UTF-7, som gÃ¶r Ã¶verladdad ("overloaded") anvÃ¤ndning av ASCII kan misslyckas med ett tillfÃ¶rlitligt faststÃ¤llande.

NÃ¤r vÃ¤l XML-tolken har faststÃ¤llt den anvÃ¤nda teckenuppsÃ¤ttningen, kan den agera pÃ¥ fÃ¶rvÃ¤ntat sÃ¤tt genom att endera infoga en separat inmatningsrutin fÃ¶r varje alternativ eller kalla pÃ¥ sjÃ¤lva konverteringsfunktionen fÃ¶r varje inmatat tecken.

Liksom varje egendefinierat system kommer teckenkodsdeklarationen i XML inte att fungera om varje mjukvara byter entitetens teckenuppsÃ¤ttning eller -kod utan att uppdatera teckenkodsdeklarationen. De som tillÃ¤mpar teckenkodsrutiner bÃ¶r vara fÃ¶rsiktiga fÃ¶r att sÃ¤kra tillfÃ¶rlitligheten i den interna och externa information som anvÃ¤nds fÃ¶r att beskriva entiteten.

E.2 Prioritieringar i nÃ¤rvaro av extern teckenkodsinformation

Det andra mÃ¶jliga fallet uppkommer nÃ¤r XML-entiteten Ã¤r Ã¥tfÃ¶ljd av teckenkodsinformation, som i vissa filsystem och nÃ¤tverksprotokoll. NÃ¤r flera informationskÃ¤llor Ã¤r tillgÃ¤ngliga, bÃ¶r deras inbÃ¶rdes prioritet och den angivna metoden fÃ¶r att lÃ¶sa konflikter specificeras som en del av det hÃ¶gnivÃ¥-protokoll ("higher-level protocol") som anvÃ¤nds fÃ¶r XML. Referera, om mÃ¶jligt till [IETF RFC 3023] eller dess efterfÃ¶ljare, som definierar text/xml- och application/xml-MIME-typerna och ger viss praktisk ledning. Av utbytesskÃ¤l Ã¤r emellertid fÃ¶ljande regler rekommenderade.

Om en XML-entitet ligger i en fil, anvÃ¤nds byteordningsmÃ¤rkningen samt teckenkodsdeklarationen (om den finns) fÃ¶r att bestÃ¤mma teckenuppsÃ¤ttningen.

F W3Cs arbetsgrupp fÃ¶r XML ("W3C XML Working Group") (icke normativt)

Denna specifikation togs fram och godkÃ¤ndes fÃ¶r publicering av W3Cs arbetsgrupp fÃ¶r XML (WG). WGs godkÃ¤nnande av denna specifikation innebÃ¤r inte nÃ¶dvÃ¤ndigtvis att alla WG-medlemmar rÃ¶stade fÃ¶r dess godkÃ¤nnande. De aktuella och tidigare medlemmarna av XML WG Ã¤r:

Jon Bosak, Sun (ordfÃ¶rande)
James Clark (teknisk ledning)
Tim Bray, Textuality och Netscape (XML-redaktÃ¶r)
Jean Paoli, Microsoft (XML-redaktÃ¶r)
C. M. Sperberg-McQueen, U. of Ill. (XML-redaktÃ¶r)
Dan Connolly, W3C (W3C-kontaktman)
Paula Angerstein, Texcel
Steve DeRose, INSO
Dave Hollander, HP
Eliot Kimber, ISOGEN
Eve Maler, ArborText
Tom Magliery, NCSA
Murray Maloney, Muzmo and Grif
Makoto Murata, Fuji Xerox Information Systems
Joel Nava, Adobe
Conleth O'Connell, Vignette
Peter Sharpe, SoftQuad
John Tigue, DataChannel

G W3C XML Core Working Group (icke normativt)

Den aktuella upplagan av denna specifikation bereddes av the W3C XML Core Working Group (WG). Medlemmarna i arbetsgruppen vid tiden fÃ¶r publiceringen av denna upplaga var:

Leonid Arbouzov, Sun Microsystems
Mary Brady
John Cowan (RedaktÃ¶r fÃ¶r XML 1.1, fÃ¶rsta upplagan)
John Evdemon, Microsoft
Andrew Fang, Arbortext
Paul Grosso, Arbortext (Vice ordfÃ¶rande)
Arnaud Le Hors, IBM (Vice ordfÃ¶rande)
Dmitry Lenkov, Oracle
Anjana Manian, Oracle
Glenn Marcy, IBM
Jonathan Marsh, Microsoft
Sandra Martinez, NIST
Mark Needleman, SIRSI
Liam Quin, W3C (Staff Contact)
Lew Shannon
Richard Tobin, University of Edinburgh
Daniel Veillard
Norman Walsh, Sun Microsystems
FranÃ§ois Yergeau, Alis Technologies

H Produktionsuppgifter (icke normativt)

Denna upplaga kodades i XMLspec DTD, 2.5. XHTML-versionerna producerades med en kombination av XSLT-stilmallarna xmlspec.xsl, diffspec.xsl och REC-xml-3e.xsl.

I FÃ¶rslag till XML-namn (icke normativt)

FÃ¶ljande fÃ¶rslag definierar vad som anses som den bÃ¤sta tillÃ¤mpningen fÃ¶r konstruktionen av XML-namn anvÃ¤nda som elementnamn, attributnamn, mÃ¥l fÃ¶r processinstruktioner, entitetsnamn, notationsnamn och vÃ¤rden pÃ¥ attribut av typ ID och Ã¤r avsett som ledning fÃ¶r dokumentfÃ¶rfattare och schemabyggare. Alla referenser till Unicode fÃ¶rstÃ¥s som avseende en viss version av Unicode-standaren stÃ¶rre Ã¤n eller lika med 3.0. Vilken version som bÃ¶r anvÃ¤ndas Ã¤r upp till omdÃ¶met hos dokumentfÃ¶rfattaren eller schemabyggaren.

De fÃ¶rsta tvÃ¥ fÃ¶rslagen Ã¤r direkt hÃ¤rledda frÃ¥n de regler som ges fÃ¶r identifierare ("identifiers") i Unicode-standarden, version 3.0, och utesluter alla kontrolltecken, omslutande icke-utrymmeskrÃ¤vande markeringar ("enclosing nonspacing marks"), ickedecimala nummer, privatanvÃ¤nda tecken, interpunktionstecken (med angivna undantag), symboltecken, kodluckor ("unassigned codepoints) och tomrumstecken. De andra fÃ¶rslagen Ã¤r huvudsakligen hÃ¤rledda frÃ¥n [XML-1.0] Appendix B.

Det fÃ¶rsta tecknet i ett namn bÃ¶r tillhÃ¶ra Unicodes generella kategori ("General Category") Ll, Lu, Lo, Lm, Lt eller Nl eller annars vara '_' #x5F.
Andra tecken Ã¤n det fÃ¶rsta bÃ¶r tillhÃ¶ra Unicodes generella kategori Ll, Lu, Lo, Lm, Lt, Mc, Mn, Nl, Nd, Pc eller Cf eller annars vara nÃ¥got av fÃ¶ljande: '-' #x2D, '.' #x2E, ':' #x3A or 'Â·' #xB7 (mittpunkt). Eftersom Cf-tecken inte Ã¤r direkt synliga, bÃ¶r de anvÃ¤ndas med varsamhet och bara nÃ¤r det Ã¤r nÃ¶dvÃ¤ndigt, fÃ¶r att undvika att skapa namn som Ã¤r urskiljbara fÃ¶r XML-tolkar men ser likadana ut fÃ¶r mÃ¤nniskor.
Bildtecken ("ideographic characters") som har en kanonisk upplÃ¶sning ("decomposition") (inklusive dem i intervallen [#xF900-#xFAFF] och [#x2F800-#x2FFFD], med 12 undantag) bÃ¶r inte anvÃ¤ndas i namn.
Tecken som har en kompatibilitetsupplÃ¶sning ("compatibility decomposition") (de med en "kompatibilitetsformateringstagg" ("compatibility formatting tag") i fÃ¤lt 5 i Unicode-teckendatabasen -- markerad genom att fÃ¤lt 5 bÃ¶rjar med ett "<") bÃ¶r inte anvÃ¤ndas i namn. Detta fÃ¶rslag gÃ¤ller inte #x0E33 THAI CHARACTER SARA AM eller #x0EB3 LAO CHARACTER AM, som trots sina kompatibilitetsupplÃ¶sningar Ã¤r i reguljÃ¤r anvÃ¤ndning i vissa skrifter.
Kombinationstecken ("combining characters") enbart avsedda fÃ¶r anvÃ¤ndning med symboler (inklusive dem i intervallen [#x20D0-#x20EF] och [#x1D165-#x1D1AD]) bÃ¶r inte anvÃ¤ndas i namn.
Inskrivningstecken fÃ¶r anteckningar ("interlinear annotation characters") ([#xFFF9-#xFFFB) bÃ¶r inte anvÃ¤ndas i namn.
Avvikelseurvalstecken ("variation selector characters") bÃ¶r inte anvÃ¤ndas i namn.
Namn som Ã¤r meningslÃ¶sa, outtalbara, svÃ¥ra att lÃ¤sa eller lÃ¤tt fÃ¶rvÃ¤xlingsbara med andra namn bÃ¶r inte anvÃ¤ndas.

RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.3