Treballar amb el ressaltat de sintaxi

&traductor.Antoni.Bella; Treballar amb el ressaltat de sintaxi Vista general El ressaltat de sintaxi és el que fa que l'editor mostri automàticament text en diferents estils/colors, depenent de la funció de la cadena en relació al propòsit del fitxer. En el codi font d'un programa, per exemple, les sentències de control es poden presentar en negreta, mentre que els tipus de dades i els comentaris poden tenir diferents colors que la resta del text. Això millora considerablement la llegibilitat del text, i ajuda a l'autor a ser més eficient i productiu. Una funció de Perl, presentada amb ressaltat de sintaxi. Una funció de Perl, presentada amb ressaltat de sintaxi. La mateixa funció de Perl, sense ressaltat. La mateixa funció de Perl, sense ressaltat. Dels dues exemples, quin resulta més fàcil de llegir? &kate; compta amb un sistema de ressaltat de sintaxi flexible, configurable i capaç, la distribució estàndard proveeix definicions per a un ampli rang de llenguatges de programació, d'scripts i de marques. A més podeu proveir les vostres pròpies definicions en simples fitxers &XML;. &kate; detectarà automàticament les regles de sintaxi correctes quan obriu un fitxer, basant-se en el tipus &MIME; del fitxer, determinat per la seva extensió, o, si no en te, pel seu contingut. Si la elecció no és la correcta, podreu establir-la manualment des del menú DocumentMode de ressaltat. Els estils i colors usats per a cada definició de ressaltat de sintaxi es poden configurar usant la pàgina Aparença del Diàleg de configuració, mentre que els tipus &MIME; per als que s'hauran d'usar, es poden gestionar usant la pàgina Ressaltat. El ressaltat de sintaxi te el seu ús en la millora de la llegibilitat del text, però no podeu confiar-hi per a validar que el text és correcte. Marcar el text en funció de la seva sintaxi pot ser difícil, depenent del format que s'estigui usant, i en alguns casos els autors de les regles de sintaxi poden estar orgullosos si es processa correctament el 98% del text, si be caldrà un estil molt rar per a veure el 2% incorrecte. Podeu descarregar actualitzacions o definicions de ressaltat de sintaxi addicionals des del lloc web de &kate; fent clic en el botó Descarrega en la Pàgina de ressaltat del Diàleg de configuració. El sistema de ressaltat de sintaxi de &kate; Aquesta secció tractarà sobre el mecanisme de ressaltat de sintaxi de &kate; amb més detall. Recomanem la seva lectura si desitgeu aprendre a sobre seu, o si desitgeu crear o canviar les definicions de sintaxi. Com funciona Sempre que obriu un fitxer, una de les primeres coses que fa l'editor de &kate; és detectar quina definició de sintaxi s'usarà per al fitxer. Mentre va llegint el text del fitxer, i mentre hi va escrivint, el sistema de ressaltat de sintaxi analitza el text usant les regles establertes per la definició de sintaxi i marcant a on comencen i acaben els diferents contexts i estils. Quan escriviu en el document, el text nou és analitzat i marcat al vol, de manera que si esborreu un caràcter que marca el començament o el final d'un context, l'estil del text adjacent canviarà en conseqüència. Les definicions de sintaxi usades pel sistema de ressaltat de sintaxi de &kate; són fitxers &XML;, que contenen Regles per a detectar el paper del text, organitzades en blocs de context Llistes de paraules clau Definicions d'ítems d'estil Quan s'analitza el text, les regles de detecció són avaluades en l'ordre en el que estan definides, i si el començament de la cadena actual coincideix amb la regla, s'usarà el context relacionat. El punt d'inici del text es mou al punt final en el que la regla coincideix i comença un nou cicle de regles, començant en el context establert per la regla coincident. Regles Les regles de detecció són el nucli del sistema de detecció de ressaltat. Una regla és una cadena, un caràcter o una expressió regular contra la que haurà de coincidir el text que s'està analitzant. Conté informació sobre l'estil a usar per a la part coincident del text. Es pot canviar el context de treball del sistema, ja sigui cap a un context mencionat explícitament o cap l'anterior context usat pel text. Les regles s'organitzen en grups de context. Un grup de context s'usa per als conceptes del text principal dins del format, per exemple, les cadenes de text entre cometes o els blocs de comentaris en el codi font d'un programa. Això garanteix que el sistema de ressaltat no necessita realitzar un cicle per a totes les regles quan no és necessari, i que algunes seqüències de caràcters del text es poden tractar de forma diferent depenent del context actual. En les regles és possible generar contexts dinàmicament per a permetre l'ús de dades específiques d'una instància. Estils i paraules clau del context En alguns llenguatges de programació, els números enters són tractats pel compilador (el programa que converteix el codi font en un executable binari) d'una forma diferent als de coma flotant, i poden haver-hi caràcters que tinguin un significat especial dins d'una cadena entre cometes. En aquests casos, te sentit processar-los de diferent manera que el text adjacent, per a que resultin fàcils d'identificar. De manera que si no representen contexts especials, poden ser vistos com a tals pel sistema de ressaltat de sintaxi, així que són marcats per a un processat diferent. Una definició de sintaxi pot contenir tants estils com siguin requerits per a cobrir tots els conceptes del format per al que s'usa. En molts formats hi ha llistes de paraules que representen un concepte específic. Per exemple, en els llenguatges de programació, les sentències de control són un concepte, els noms de tipus de dades un altra, i les funcions encastades en el llenguatge són un tercer. El sistema de ressaltat de sintaxi de &kate; pot usar dites llistes per a detectar i marcar paraules en el text per emfatitzar conceptes dels formats de text. Estils per omissió Si obriu un fitxer de codi font de C++, un fitxer font de &Java; i un fitxer HTML en &kate; podreu comprovar que tot i que els formats són diferents, i per tant les paraules que reben un tractament especial també són diferents, els colors usats són els mateixos. Això es deu a que &kate; te una llista per omissió d'estils per omissió, que s'empren en les definicions de sintaxi individuals. Això facilita el reconèixer conceptes similars en diferents formats de text. Per exemple, els comentaris estan presents en pràcticament qualsevol llenguatge de programació, scripts o descripció, i si es presenten usant el mateix estil en tots els llenguatges, no haureu de parar-vos a pensar i identificar la seva posició en el text. Tots els estils de definició de sintaxi usen un dels estils per omissió. Hi ha poques definicions de sintaxi que usin més estils dels que hi ha per omissió, així que, si useu un format molt sovint, potser us val la pena obrir el diàleg de configuració per a veure si alguns conceptes estan usant el mateix estil. Per exemple, tan sols hi ha un estil per omissió per a les cadenes, però com el llenguatge de programació Perl usa dos tipus de cadena, podeu millorar el ressaltat configurant ambdues de forma lleugerament diferent. Més endavant s'explicaran tots els estils per omissió disponibles. El format &XML; de definició de ressaltat Vista general Aquesta secció és una introducció al format &XML; de definició de ressaltat. Descriu els components principals, el seu significat i utilització. La següent secció entra en detalls amb les regles de detecció. La definició formal, és a dir, el DTD, es desa en el fitxer language.dtd, el qual hauria d'estar instal·lat en la carpeta $TDEDIR/share/apps/katepart/syntax del vostre sistema. Principals seccions dels fitxers de definicions de ressaltat de &kate; Tots els fitxers de ressaltat contenen un capçalera que estableix la versió XML i el doctype (tipus de document): <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE language SYSTEM "language.dtd"> La part principal del fitxer de definició es l'ítem languaje. Els atributs disponibles són: Atributs requerits: name estableix el nom del llenguatge. Després apareixerà en el menú i en els diàlegs. section especifica la categoria. extensions defineix les extensions dels fitxers, com "*.cpp;*.h" Atributs opcionals: mimetype fitxers associats al tipus &MIME; en que es basen. version especifica la versió actual del fitxer de definició. kateversion especifica la última versió suportada per &kate;. casesensitive defineix quan les paraules clau són o no sensibles a majúscules i minúscules. priority es necessària si una altra definició de ressaltat usa les mateixes extensions. S'usarà la de major prioritat. author conté el nom de l'autor i la seva adreça de correu electrònic. license conté la llicència, normalment LPGL, Artistic, GPL i d'altres. hidden defineix quan hauria d'aparèixer el nom en els menús de &kate;. De manera que dita línia pot tenir un aspecte similar a: <language name="C++" version="1.00" kateversion="2.4" section="Sources" extensions="*.cpp;*.h" /> A continuació estaria l'element highlighting, el qual conté l'element opcional list i els elements requerits contexts i itemDatas. Els elements list contenen una llista de paraules clau. En aquest cas les paraules clau són class i const. Podeu afegir tantes llistes com us calguin. L'element contexts conté tots els contexts. El primer és l'usat per omissió i amb aquest s'iniciarà el ressaltat. Hi ha dues regles en el context Normal Text, que faran coincidir la llista de paraules clau amb el nom algun_nom i una regla que detecta una cometa i canvia el context a cadena. Per aprendre més sobre les regles llegiu el següent capítol. La tercera part és l'ítem itemDatas. Conté tots els colors i tipus de lletra que necessiten els contexts i les regles. En aquest exemple, s'usen itemData Normal Text, String i Keyword. <highlighting> <list name="algun_nom"> <item> class </item> <item> const </item> </list> <contexts> <context attribute="text_normal" lineEndContext="#pop" name="text_normal" > <keyword attribute="paraula_clau" context="#stay" String="algun_nom" /> <DetectChar attribute="cadena" context="string" char=""" /> </context> <context attribute="cadena" lineEndContext="#stay" name="cadena" > <DetectChar attribute="cadena" context="#pop" char=""" /> </context> </contexts> <itemDatas> <itemData name="text_normal" defStyleNum="dsNormal" /> <itemData name="paraula_clau" defStyleNum="dsParaula_clau" /> <itemData name="cadena" defStyleNum="dsCadena" /> </itemDatas> </highlighting> L'última part de la definició de ressaltat és la secció opcional general. Pot contenir informació sobre paraules clau, plegat de codi, comentaris i sagnat. La secció comment defineix amb quina cadena s'introdueix un comentari en una línia senzilla. També podeu definir comentaris en múltiples línies usant multiLine amb l'atribut addicional end. Això s'usa si l'usuari prem la drecera corresponent per a comenta/descomenta. La secció keywords defineix si les llistes de paraules clau són sensibles a majúscules i minúscules o no. Més endavant s'explicaran d'altres atributs. <general> <comments> <comment name="singleLine" start="#"/> </comments> <keywords casesensitive="1"/> </general> </language> Les seccions al detall Aquesta part descriu tots els atributs disponibles per als contexts, llistes de dades, paraules clau, comentaris, plegat de codi i sagnat. L'element context pertany al grup contexts. Un context defineix les regles específiques de context que s'han de seguir quan el sistema de ressaltat abasta el final d'una línia. Els atributs disponibles són: name és el nom del context. Les regles usaran el nom per especificar el context al que canviar si les regles coincideixen. lineEndContext defineix el context al que canviarà el sistema de ressaltat si abasta el final de la línia. Pot ser un nom o un altra context, #stay permetrà que no es canviï el context (&pex;, no fer res) o #pop farà que es surti aquest context. És possible usar per exemple #pop#pop#pop per a sortir tres vegades. lineBeginContext defineix el context si es troba el començament d'una línia. Per omissió: #stay. fallthrough defineix si el sistema de ressaltat canviarà al context especificat en fallthroughtContext si no coincideixen les regles. Per omissió: false. fallthroughContext especifica el context següent si no hi ha regles que coincideixin. dynamic si està a true, el context recordarà cadenes/ítems substituïbles desats per les regles dinàmiques. Això es necessita per als documents HERE, per exemple. Per omissió: false. L'element itemData es troba en el grup itemDatas. Defineix l'estil i els colors dels tipus de lletra. Per tant és possible definir els vostres propis estils i colors, encara que recomanem usar els estils per omissió, atès que així l'usuari veurà colors homogenis per als diferents llenguatges. Si be, algunes vegades no hi ha altres possibilitats i és necessari canviar el color i els atributs dels tipus de lletra. Els atributs name i defStyleNum són necessaris, els altres són opcionals. Els atributs disponibles són: name estableix el nom del itemData. Els contexts i les regles usaran aquest nom en els seus atributs attribute per a fer referència a un itemData. defStyleNum defineix quin estil s'usarà per omissió. Més endavant s'explicaran els estils per omissió disponibles. color defineix un color. Els formats vàlids són '#rrggbb' o '#rgb'. selColor defineix el color de la selecció. italic si està a true, el text es mostrarà en cursiva. bold si està a true, el text es mostrarà en negreta. underline si està a true, el text es mostrarà subratllat. strikeout si està a true, el text es mostrarà taxat. L'element keywords en el grup general defineix les propietats keyword. Els atributs disponibles són: casesensitive pot ser true o false. Si està a true, totes les paraules clau seran sensibles a majúscules i minúscules. weakDeliminator és una llista de caràcters que no actuen com a delimitadors de paraules (delimitador feble). Per exemple el punt '.' és un delimitador de paraula. Si tenim una paraula clau en una list que conté un punt, tan sols la trobareu si especifiqueu el punt com a delimitador feble. additionalDeliminator defineix delimitadors addicionals. wordWrapDeliminator defineix els caràcters al darrera dels quals pot ocórrer un ajust de línia. Els delimitadors per omissió i els d'ajust de línia són els caràcters .():!+,-<=>%&*/;?[]^{|}~\, space (' ') i tabulació ('\t'). L'element comment en el grup comments defineix les propietats dels comentaris emprats per EinesComenta i Eines Descomenta. Els atributs disponibles són: name pot ser singleLine o multiLine. Si escolliu multiLine es necessiten els atributs end i region. start defineix la cadena que s'usa per iniciar un comentari. En C++ seria "/*". end defineix la cadena usada per a tancar un comentari. En C++ seria "*/". region serà el nom amb el que es desarà el comentari multi-línia. Si assumim que tenim una regió beginRegion="Comentari" ... endRegion="Comentari" en les vostres regles, haureu d'usar region="Comentari". D'aquesta manera es descomentarà fins i tot si no heu seleccionat tot el text en un comentari multi-línia. Tan sols és necessari que el cursor estigui dins del comentari multi-línia. L'element folding en el grup general defineix les propietats de plegat de codi. Els atributs disponibles són: indentationsensitive si està a true, els marcadors de plegat de codi seran afegits al sagnat, com en el llenguatge d'script Python. Normalment no us caldrà establir-lo, pel que per omissió és false. L'element indentation en el grup general defineix quin sagnat s'usarà, encara que us recomanem fervorosament que l'ometeu, atès que el sagnat sol ser establert en el tipus de fitxer o a l'afegir el mode de línia al fitxer de text. Tot i que si especifiqueu un sagnat, podreu forçar un sagnat específic per a un usuari, per un altra que us agradi més. Els atributs disponibles són: mode és el nom del sagnat. Els sagnats disponibles a la dreta són: normal, cstyle, csands, xml, python i varindent. Estils per omissió disponibles Els estils per omissió ja s'han explicat, a mode de resum: Els estils per omissió estan predefinits per als estils de colors i tipus de lletra. Veurem la llista dels estils per omissió disponibles: dsNormal, usat per al text normal. dsKeyword, usat per a les paraules clau. dsDataType, usat per als tipus de dades. dsDecVal, usat per als valors decimals. dsBaseN, usat per als valors en una base diferent a 10. dsFloat, usat per a valors de coma flotant. dsChar, usat per a un caràcter. dsString, usat per a cadenes. dsComment, usat per a comentaris. dsOthers, usat per a d''altres' coses. dsAlert, usat per a missatges d'avis. dsFunction, usat per a crides a funcions. dsRegionMarker, usat per a marcadors de regió. dsError, usat per a errors de ressaltat i sintaxi incorrecta. Regles de detecció del ressaltat Aquesta secció descriu les regles de detecció del ressaltat. Cada regla pot coincidir en cap o amb varis caràcters del començament de la cadena amb la que es comparen. Si la regla coincideix, als caràcters coincidents se'ls assigna l'estil o attribute definit per la regla, tan mateix una regla pot demanar que es canviï el context actual. Una regla te aquest aspecte: <NomRegla attribute="(identificador)" context="(identificador)" [atributs específics de la regla] /> L'attribute identifica l'estil que usaran els caràcters coincidents per nom, i el context identifica el context a usar des d'aquí. El context es pot identificar per: Un identifier, que és el nom dels altres contexts. Una order us indica al motor que romandrà en el context actual (#stay), o que salti al context anterior (#pop). Per a retrocedir més passes, es pot repetir la paraula clau #pop: #pop#pop#pop Algunes regles poden tenir regles fill que s'executen únicament si la regla pare resulta aplicable. A tota la cadena coincident se us donarà l'atribut definit per la regla pare. Una regla amb regles fills te aquest aspecte: <NomRegla (atributs)> <NomReglaFill (atributs) /> ... </NomRegla> Els atributs específics de la regla varien, i es descriuen en les següents seccions. Atributs comuns Totes les regles tenen els següents atributs comuns i estan disponibles sempre que apareixen (atributs comuns). attribute i context són atributs requerits, els demés són opcionals. attribute: Un mapa d'atributs d'un definit itemData. context: Especifica el context al que canviarà el sistema de ressaltat si les regles coincideixen. beginRegion: Inicia un bloc de plegat de codi. Per omissió: unset. endRegion: Tanca un bloc de plegat de codi. Per omissió: unset. lookAhead: Si està a true, el sistema de ressaltat no processarà les longituds coincidents. Per omissió: false. firstNonSpace: Tan sols coincidiran si la cadena no conté un espai en blanc al començament de la línia. Per omissió: false. column: Tan sols coincideix, si la columna coincideix. Per omissió: unset. Regles dinàmiques Algunes regles permeten l'atribut opcional dynamic de tipus lògic que per omissió és false. Si dynamic està a true, la regla podrà usar arguments que representin el text coincident amb una regla d'una expressió regular que canviï al context actual per al contingut en els atributs string o char. En un string, l'argument %N (a on N és un número) es substituirà amb la corresponent N capturada des de l'expressió regular cridada. En un char l'argument haurà de ser un número N i serà substituït amb el primer caràcter de la corresponent N capturada des de l'expressió regular cridada. Sempre que un regla permeti aquest atribut haurà de contenir un (dynamic). dinàmic: pot ser (true|false). Les regles en detall DetectChar Detecta un únic caràcter específic. Normalment s'usa per a trobar el final de les cadenes entre cometes. <DetectChar char="(caràcter)" (atributs comuns) (dinàmic) /> L'atribut char defineix el caràcter a comparar. Detect2Chars Detecta dos caràcters especificats en l'ordre definit. <Detect2Chars char="(caràcter)" char1="(caràcter)" (atributs comuns) (dinàmic) /> L'atribut char defineix el primer caràcter a comparar, char1 el segon. AnyChar Detecta un caràcter d'un conjunt de caràcters especificats. <AnyChar String="(cadena)" (atributs comuns) /> L'atribut String defineix el conjunt de caràcters. StringDetect Detecta una cadena exacta. <StringDetect String="(cadena)" [insensitive="true|false"] (atributs comuns) (dinàmic) /> L'atribut String defineix la cadena a comparar. L'atribut insensitive per omissió és a false i es passa a la funció de comparació de cadena. Si el valor és true la comparació no serà sensible a majúscules i minúscules. RegExpr Cerca la coincidència amb una expressió regular. <RegExpr String="(cadena)" [insensitive="true|false"] [minimal="true|false"] (atributs comuns) (dinàmic) /> L'atribut String defineix l'expressió regular. insensitive per omissió és a false i és passada al motor d'expressions regulars. minimal per omissió és a false i és passada al motor d'expressions regulars. Atès que les regles coincideixen amb el començament de la cadena actual, una expressió regular que comenci amb el símbol del barret (^) indica que la regla tan sols s'haurà de comparar amb el començament d'una línia. Mireu la secció sobre expressions regulars per a obtenir més informació. keyword Detecta una paraula clau des d'una llista especificada. <keyword String="(nom de la llista)" (atributs comuns) /> L'atribut String identifica la llista de paraules clau pel seu nom. Haurà d'existir una llista amb aquest nom. Int Detecta un número enter. <Int (atributs comuns) (dinàmic) /> Aquesta regla no te atributs específics. Les regles fill normalment s'usen per a detectar combinacions de L i U després del número, indicant el tipus d'enter en el codi del programa. En realitat s'admeten totes les regles com a regles fill, tot i que, el DTD tan sols permet la regla fill StringDetect. El següent exemple troba números enters seguits del caràcter 'L'. <Int attribute="Decimal" context="#stay" > <StringDetect attribute="Decimal" context="#stay" String="L" insensitive="true"/> </Int> Float Detecta un número de coma flotant. <Float (atributs comuns) /> Aquesta regla no te atributs específics. Es permet AnyChar com a regla fill i normalment s'usa per a detectar combinacions, mireu la regla Int com a referència. HlCOct Detecta una representació numèrica d'un número octal. <HlCOct (atributs comuns) /> Aquesta regla no te atributs específics. HlCHex Detecta una representació numèrica d'un número hexadecimal. <HlCHex (atributs comuns) /> Aquesta regla no te atributs específics. HlCStringChar Detecta un caràcter escapat. <HlCStringChar (atributs comuns) /> Aquesta regla no te atributs específics. Localitza representacions literals de caràcters que s'usen habitualment en el codi de programació, per exemple \n (nova línia) o \t (TAB). Els següents caràcters coincideixen amb la regla si segueixen a una barra invertida (\): abefnrtv"'?\. A més seran vàlids els números hexadecimals escapats com per exemple \xff, i els números octals escapats, per exemple \033. HlCChar Detecta un caràcter C. <HlCChar (atributs comuns) /> Aquesta regla no te atributs específics. Localitza caràcters C tancats en una marca (Exemple: 'c'). La marca pot ser un caràcter simple o un caràcter escapat. Veure HICStringChar per a localitzar seqüències de caràcters escapats. RangeDetect Detecta una cadena amb caràcters d'inici i de final definits. <RangeDetect char="(caràcter)" char1="(caràcter)" (atributs comuns) /> char defineix el caràcter que inicia el rang, char1 el caràcter que finalitza el rang. És molt útil per a detectar per exemple petites cadenes entre cometes i similars, però tingueu en compte que el motor de ressaltat tan sols pot treballar amb una cada vegada, així que no es detectaran cadenes que estiguin dividides en dues línies o més. LineContinue Localitza el final de la línia. <LineContinue (atributs comuns) /> Aquesta regla no te atributs específics. Aquesta regla és pràctica per a canviar el context al final de la línia, si l'últim caràcter és una barra invertida ('\'). Això és necessari per exemple en C/C++ per a continuar macros o cadenes. IncludeRules Inclou regles des d'un altra context o llenguatge/fitxer. <IncludeRules context="contextlink" [includeAttrib="true|false"] /> L'atribut context defineix el context a incloure. Si és una cadena simple inclou totes les regles definides en el context actual, exemple: <IncludeRules context="anotherContext" /> Si la cadena comença amb ## el sistema de ressaltat cercarà una altra definició de llenguatge amb el nom indicat, exemple: <IncludeRules context="##C++" /> Si l'atribut includeAttrib està a true, canvia l'atribut de destí per un altra de la font. Això és necessari, per exemple, per al treball comentar, si el text coincideix amb el context introduït s'usa un ressaltat diferent que amb el context amfitrió. DetectSpaces Detecta espais en blanc. <DetectSpaces (atributs comuns) /> Aquesta regla no te atributs específics. Useu aquesta regla si sabeu que hi poden haver varis espais en blanc al davant, per exemple, al començament de les línies sagnades. Aquesta regla ometrà tots els espais en blanc a la vegada, en comptes de comprovar múltiples regles i saltar si no hi ha coincidències. DetectIdentifier Detecta identificadors de cadenes (com una expressió regular: [a-zA-Z_][a-zA-Z0-9_]*). <DetectIdentifier (atributs comuns) /> Aquesta regla no te atributs específics. Useu aquesta regla per a saltar d'una vegada una cadena de paraula de caràcters, en comptes de comprovar múltiples regles i saltar si no hi ha coincidències. Consells i trucs Una vegada que hageu entès com funciona el canvi de context serà fàcil escriure definicions de ressaltat. Tot i que hauria de tenir cura de comprovar quina situació s'hauria de seleccionar una regla. Les expressions regulars són molt potents, però són lentes en comparació amb d'altres regles. Per això haureu de tenir en compte els següents consells. Si tan sols heu de localitzar dos caràcters useu Detect2Chars en comptes de StringDetect. El mateix s'aplica a DetectChar. Les expressions regulars són fàcils d'usar però a vegades hi ha formes molt més ràpides d'obtenir el mateix resultat. Imagineu que tan sols desitgeu localitzar el caràcter '#' si aquest és el primer caràcter de la línia. Una solució basada en una expressió regular seria quelcom semblant a això: <RegExpr attribute="Macro" context="macro" String="^\s*#" />Podeu aconseguir el mateix molt més ràpid usant: <DetectChar attribute="Macro" context="macro" char="#" firstNonSpace="true" />Si desitgeu que l'expressió regular localitzi '^#' també podeu usar DetectChar amb l'atribut column="0". L'atribut column compta els caràcters base, per tant el tabulador és tan sols un caràcter. Podeu canviar de context sense processar caràcters. Suposeu que desitgeu canviar de context quan trobeu una cadena */, però us cal processar aquesta cadena en el següent context. La regla de a sota coincidirà, i l'atribut lookAhead farà que es desi la cadena coincident per al següent context. <Detect2Chars attribute="Comment" context="#pop" char="*" char1="/" lookAhead="true" /> Useu DetectSpaces si sabeu quants espais en blanc hi ha. Useu DetectIdentifier en comptes de l'expressió regular '[a-zA-Z_]\w*'. Usa els estils per omissió sempre que es pugui. D'aquesta manera l'usuari es trobarà un entorn familiar. Mireu d'altres fitxers XML per a comprovar de quina forma implementen regles delicades les altres persones. Podeu validar cadascun dels fitxers XML usant el comandament xmllint --dtdvalid llenguatge.dtd mevaSintaxi.xml. Si tot sovint repetiu expressions regulars complexes podeu usar ENTITATS. Exemple: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE language SYSTEM "language.dtd" [ <!ENTITY la_meva_ref "[A-Za-z_:][\w.:_-]*"> ]> Ara podeu usar &la_meva_ref; en comptes de l'expressió regular.