Unidad 7
7.1
Lenguajes de marcado
“Lenguaje
de marcado” o “lenguaje de
marcas” se puede definir como una forma de codificar un documento donde,
junto con el texto, se incorporan etiquetas, marcas o anotaciones con
información adicional relativa a la estructura del texto, su presentación.
Anotación
(metadatos): información añadida al documento
que no forman parte del texto en sí mismo.
Lenguajes
de marcado (de anotaciones): conjunto de reglas que
describen cómo deben realizarse anotaciones, bajo qué condiciones se permiten y
su significado.
Los
lenguajes de marcado permiten hacer explícita la estructura de un documento, su
contenido semántico o cualquier otra información lingüística o extralingüística
que se quiera hacer patente.
Ejemplos:
• <fecha>El día <date>22/11/2006
</date>tuvo lugar ...</fecha>
• <subr>Móstoles</subr>a<subr>2 de
noviembre</subr>
Los
lenguajes de marcado se pueden clasificar en:
• Procedimental:
– Describen operaciones tipográficas
• Estructural:
– Describen la estructura lógica de un documento,
pero no su tipografía
• Híbrido:
– Combinación de ambos
– Las hojas de estilo o lenguajes de transformación
permiten la “traducción” de anotaciones de tipo estructural a anotaciones de
carácter tipográfico.
Otra
posible clasificación sería:
• De
presentación:
– Indica el formato del texto (información para el maquetado).
• De
procedimientos:
– Orientado también a la presentación pero, en este
caso, se indican los procedimientos que deberá realizar el SW de representación.
• Descriptivo
o semántico:
– Describen las diferentes partes en las que se
estructura el documento pero sin especificar cómo deben representarse.
Algunos
lenguajes de marcado específicos:
– Documentación
electrónica
• RTF
• TeX
• Wikitexto
• DocBook
– Tecnologías
de internet
• HTML, XHTML
• RDF (recurso-propiedad (relación)-valor)
• RSS
– Otros
lenguajes especializados
• MathML
• VoiceXML
• SVG
• MusicXML
Haciendo un poco de
historia..
La
idea de introducir un marcado en un documento electrónico viene heredada de la
corrección manual de manuscritos. En la década de los 60' se empieza a
desarrollar la idea de separar presentación y estructura.
Desde
IBM se impulsa la creación del lenguaje GML, que resultó se la semilla de una
versión posterior estandarizada: SGML. La potencia de SGML implica una
dificultad en su aprendizaje y uso.
– El HTML se crea a partir del SGML.
– XML surge como respuesta al desorden que supuso
el rápido crecimiento del HTML.
7.1.1 SGML: Lenguaje
de marcado base
SGML
(Standard Generalized Markup Language, 1986): Es un metalenguaje que
permite definir lenguajes de marcado.
SGML
es un acrónimo de Standard Generalized Markup Language o Lenguaje de
Señalización General Normalizado.
Esta
es una norma ISO
derivada de una anterior (GML de IBM). SGML permite que la estructura de un
documento pueda ser definida en base a la relación lógica de sus partes. Esta
estructura puede ser validada por una Definición de Tipo Documento (DTD - Document
Type Definition). La norma SGML define la sintaxis del documento y la sintaxis y semántica de
DTD.
Un
documento SGML se marca
de modo que no dice nada respecto a su representación en la pantalla o en
papel. Un programa de presentación debe unir el documento con la información de
estilo a fin de producir una copia impresa
en la pantalla o en el papel.
La
sintaxis de SGML es suficiente para sus necesidades, pero pocos pueden decir
que es particularmente "bella". El lenguaje muestra que se originó en
sistemas donde el texto
era el contenido principal y el marcado era la excepción.
•
Especifica la sintáxis para la inclusión de marcas en los textos, así como la
sintáxis del documento que especifica qué etiquetas están permitidas y dónde:
el Document Type Definition.
• La
definición de la estructura y el contenido de un tipo de documento se realiza
por medio de su DTD (Document Type Definition)
Ventajas
de SGML:
– Reutilización de los datos
– Integridad y mayor control sobre los datos
– Portable
– Flexible
– Perdurabilidad de la información
Inconvenientes
de SGML:
– Alta complejidad
Ejemplo de SGML
<EMail>
<sender>
<person>
<firstname> Karen
</firstname>
<lastname> Lemone
</lastname>
</person>
</sender>
<receiver>
<person>
<distributionList> cs525@cs.com </distributionList>
</person>
</receiver>
<contents>¿no es
sencillo?</contents>
</EMail>
7.1.2
HTML
El HTML, Hyper
Text Markup Language (Lenguaje de marcación de Hipertexto) es el
lenguaje de marcas de texto utilizado normalmente en la www (World Wide Web). Fue creado en 1986 por el físico
nuclear Tim Berners-Lee; el cual tomo dos herramientas preexistentes: El concepto de Hipertexto (Conocido también como link o ancla) el
cual permite conectar dos elementos entre si y el SGML (Lenguaje
Estándar de Marcación General) el
cual sirve para colocar etiquetas o marcas en un texto que indique como debe
verse. HTML no es propiamente un lenguaje de programación como C++, Visual Basic, etc., sino un sistema de
etiquetas. HTML no presenta ningún compilador, por lo tanto algún error de
sintaxis que se presente éste no lo detectará y se visualizara en la forma como
éste lo entienda.
El entorno para trabajar HTML es
simplemente un procesador de texto, como el que ofrecen los sistemas operativos Windows (Bloc de notas), UNIX (el editor vi o ed) o el que ofrece MS Office (Word). El conjunto de etiquetas que se creen, se deben
guardar con la extensión .htm o .html
Estos documentos pueden ser
mostrados por los visores o "browsers" de paginas
Web en Internet, como Netscape Navigator, Mosaic, Opera y Microsoft Internet Explorer.
También existe el HTML Dinámico (DHTML), que es una mejora de Microsoft de la versión 4.0 de HTML que le permite crear efectos especiales como, por ejemplo, texto que vuela desde la página palabra por palabra o efectos de transición al estilo de anuncio publicitario giratorio entre página y página.
HTML:
lenguaje de marcado definido en SGML
• Origen:
1989 en el Laboratorio Europeo de Física de Partículas (CERN)
• Objetivo
inicial: presentar información estática. Jugó un papel fundamental en el
crecimiento de Internet.
• Presenta
limitaciones relacionadas con:
• Tratamiento de
información dinámica.
• No es un
metalenguaje, por lo que dispone de un número fijo de etiquetas.
• Su vocabulario es muy limitado.
Ventajas
de HTML:
– Es
muy simple y sencillo de aprender y usar.
– No
requiere herramientas especiales.
– Está
muy difundido.
Inconvenientes
de HTML:
– Carecer de chequeo sintáctico.
– Carecer de estructura lógica.
– Estar orientado fundamentalmente a la
representación de los datos y no a su estructura.
– Carecer de una semántica estándar.
– No ser adecuado para el intercambio de datos.
– No ser extensible.
– No permitir la reutilización de la información.
Ejemplo de HTML
<html>
<head>
<meta http-equiv="content-type"
content="text/html" charset="ISO-8859-1"/>
<meta name="generator"
content="Adobe GoLive 5"/>
<title>Archivo Léame de Adobe Acrobat para
Windows</title>
</head>
<body
bgcolor="#ffffff">
<p></p>
<p>
<b><font size="+1">21 de septiembre de
2003</font></b>
</p>
<p><b><font
size="+2">Archivo Léame de Adobe Acrobat para
Windows</font></b></p>
<p>Bienvenido al archivo Léame de
Adobe® Acrobat® 5.0.5.
Si lo desea, puede acceder al <a
href="http://www.adobe.com/supportservice/">
soporte técnico</a><br/> </p>
<p> Este archivo está dividido en los siguientes
apartados:<br/>
.... </p>
</body>
</html>
7.1.3 XML
XML es un
sistema estándar de codificación de información.
Los programas que utilizan el formato XML pueden intercambiar fácilmente sus
datos, ya que responden a una misma lógica interna.
Los
documentos XML son ficheros de texto que contienen la información
organizada en forma de árbol: cada rama puede tener unos atributos propios y
servir de base para otras ramas. Además, los documentos XML se pueden
transformar (por ejemplo, a formato HTML, para mostrar la información en una página
web), o combinar: un tronco con todas sus ramas puede pasar a ser una rama
de otro árbol mayor. Un ejemplo de documento XML abreviado podría ser:
<juegos>
<juego nombre="escondite" espacio="exteriores">
<jugadores min="2"
max="16" />
<edades min="3"
max="indefinido" />
<descripcion>
Los jugadores se reparten en dos
equipos y...
</descripcion>
</juego>
<juego nombre="ajedrez"
espacio="interiores">
.... etc.
</juego>
</juegos>
XML
(Extensible Markup Language): forma restringida de SGML optimizada
para su utilización en Internet.
• Origen: 1996 World Wide
Web Consorium (W3C)
• Objetivos
iniciales:
• Lenguaje
estructurado, extensible y que se pueda validar.
•
Permitir la transmisión de información realmente estructurada.
Características
de XML:
– Es un subconjunto de SGML (toma el 80% de sus
ventajas y le resta el 20% de complejidad).
– Es simple de usar y se basa en etiquetas de
texto.
– Es una tecnología madura puesto que se basa en
SGML.
– Soporta Unicode.
– Se orienta a los datos, su semántica y no a la
representación.
– Se está convirtiendo en el lenguaje de Bases de
Datos de la Web.
– Permite un fácil intercambio de información entre
aplicaciones.
Al
tratarse de un metalenguaje tiene un vocabulario extensible:
• Permite definir lenguajes de marcado por medio de
DTD’s (Document Type Definition) o de XML-Schemas
• Sirve para representar datos estructurados en un
fichero de texto.
• Usa etiquetas para delimitar los datos pero deja
su interpretación a la aplicación que lee el código XML.
Ventajas:
– Tecnologías
asociadas:
• XML
(Estructura de los datos)
• XSL=
XSLT+XSL-FO’s + XPath (hojas de estilo)
• XLL = XLink + XPointer+ Xpath (hiperenlaces)
• XQL
(consultas a bases de datos)
• DOM (Document Object Model)
• SAX (Simple Api for XML)
– La
Web Semántica se está construyendo sobre XML.
Ejemplo de XML
<?xml version="1.0" standalone="no"?>
<!DOCTYPE movies SYSTEM "Movies.dtd" [<!NOTATION JPEG
SYSTEM "Iexplore.exe">
<!ENTITY raposter SYSTEM "RAPoster.jpg" NDATA JPEG>
<!ENTITY mrposter SYSTEM "MRPoster.jpg" NDATA
JPEG>]>
<movies>
<movie rating="PG-13" review="5"
type="comedy" year="1987">
<title>Raising Arizona</title>
<writer>Ethan Coen</writer>
<writer>Joel
Coen</writer>
<producer>Ethan
Coen</producer>
<director>Joel
Coen</director>
<actor>Nicolas
Cage</actor><actor>Holly Hunter</actor><actor>John
Goodman</actor>
<poster
image="raposter"/>
<comments>A
classic one-of-a-kind screwball love story.</comments>
</movie>
<movie rating="R" review="5"
type="comedy" year="1988">
<title>Midnight
Run</title>
<writer>George
Gallo</writer>
<producer>Martin
Brest</producer>
<director>Martin
Brest</director>
<actor>Robert
De Niro</actor><actor>Charles Grodin</actor>
<poster
image="mrposter"/>
<comments>The
quintessential road comedy.</comments>
</movie>
</movies>
Conclusiones
Los lenguajes de marcado, tienen una gran cantidad
de software y herramientas para poder trabajar con ellos. Desde un simple bloc
de notas hasta los programas más desarrollados que permiten al mismo tiempo que
se escribe el código ver el resultado final.
Todo este software y herramientas están disponible
tanto de forma libre como de pago. Cada persona según sus necesidades elegirá
unos u otros.
Bibliografía
http://clic.xtec.cat/es/jclic/xml.htm
No hay comentarios.:
Publicar un comentario