ALDESOC pidió a Dabne, que prepara una exposición general sobre procedimientos y normas empleados en el libro y en la biblioteca digitales, que sirviera de base para fijar las ideas sobre las que discutir los diversos aspectos tecnológicos en los que se verá implicado el proyecto ELBA.
Conocemos la heterogeneidad del grupo de asistentes y la finalidad general del proyecto Elba dirigida principalmente a la formación de adultos, pero en la que la utilización de las nuevas tecnologías de la información deberá estar presente. Por tanto, me gustaría que mi presentación sirviera para facilitar la comunicación entre ustedes iniciando un lenguaje común. Por tanto pido comprensión a los tecnólogos presentes que ya conozcan los temas que voy a tratar y a los que esta tecnología les es lejana y tal vez sea esta la primera vez que observen sus entresijos.
Mi participación va a constar, de acuerdo con el programa, de las tres partes siguientes
1.Algunos procedimientos y normas para la creación de objetos digitales. (digitalización)
2.Algunas características y normas de las publicaciones digitales y de los repositorios digitales. (edición y almacenamiento)
3.Algunas ideas sobre la estructura y funciones de las Webs general y locales. (difusión)
1.- Algunos procedimientos y normas para la creación de objetos digitales.
El objetivo de la digitalización es convertir la información (en forma de textos, imágenes fija, música y voz, video, etc,) contenida en diversos soportes, a un soporte electrónico en el que información se codifica en forma numérica (de ahí la palabra digitalización [digit], y por eso los franceses llaman numerizar a lo que nosotros llamamos digitalizar). En el caso de los textos, que son a los que prestaremos mayor atención, la correspondencia entre cada símbolo alfanumérico (letras, números, puntuaciones) y su equivalente binario puede obtenerse utilizando diversos códigos de conversión. El código mas simple corresponde al formato ASCII (American Standard Code for Information Interchange).
El formato ASCII es un código de caracteres basado en el alfabeto latino (inicialmente solo mayúsculas), creado por ASA (American Standars Asociation) en 1963, como una refundición y evolución de los conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en 1967, se incluyen las minúsculas y se redefinen algunos códigos de control para formar el código conocido como ASCII ampliado. Casi todos los sistemas informáticos de hoy en día utilizan el código ASCII o una extensión compatible para representar textos y para el control de dispositivos que manejan texto. Con el código ASCII se obtiene una representación llamada texto plano, es decir, en ella no pueden representarse distintos tipos de caracteres (fonts) ni otras particularidades tipográficas (como negrita, versalita, subrayados etc...). Para usar toda la riqueza tipográfica se utilizan otros formatos como veremos más adelante.
El formato ASCII define 128 códigos posibles (letras mayúsculas, minúsculas, cifras, puntuación), ver tabla. Su principal ventaja, aparte de constituir un estándar, consiste en la ordenación alfabética de los códigos. Casi todos los sistemas informáticos de hoy en día utilizan el código ASCII o una extensión compatible para representar textos, para expresar las marcas y para el control de dispositivos que manejan texto.
* * *
En general, para cualquier tipo de información, ya provengan de texto, imagen o audio o cualquier combinación, correspondiente a cada una de las obras digitalizadas, la consideraremos un objeto digital, o sea un ítem considerado como un todo coherente, que es el equivalente del objeto físico, libro, folleto, imagen o audio del que proceden. (Esta definición concuerda con la definición de objeto primario de la Biblioteca del Congreso de EEUU http://www.loc.gov/standards/metadata.html ). En ciertos casos, conviene considerar cada subdivisión coherente de un objeto digital como un objeto digital secundario o de nivel inferior. Como puede ser el caso: en un concierto cada pieza de un autor, en un recital de poesía cada poema recitado, es un conferencia de varios autores la intervención de cada ponente, en un libro un capítulo particular, pueden ser un fichero de audio relativo a una cinta o cassette.
1.1.Proceso general de creación de objetos digitales
La figura que mostramos, es un esquema del proceso de digitalización o de creación de los objetos digitales, que serian los siguientes:
1.- Selección del material a digitalizar.En primer lugar se establecen los criterios de selección de material que se incorporará en nuestro proyecto. Al margen de los criterios de contenido, es conveniente tener en cuenta ciertos aspectos a la hora de elegir el material que se va a digitalizar, por ejemplo, la calidad del papel, el tipo de edición, si el texto contiene imágenes, etc.
2.- Digitalización. En segundo lugar se procederá a la digitalización del material, utilizando para ello el hardware (scanner, pletinas,...) y el software () y siguiendo las técnicas más adecuadas según sea el caso.
3.- Adecuación.- Según el tipo de material físico original se utilizaran distintos procedimientos posteriores para adecuar la digitalización en “en bruto” a la construcción de un objeto digital que tenga las características necesarias en la aplicación a que va destinado. Así, utilizaremos el OCR (Optical Charecter Recognition), cuando queramos obtener un texto digital capaz de ser procesado como tal, en el caso de las imágenes se retocan y convierten a diversos formatos para obtener la calidad adecuada, en el caso del sonido se quitan ruidos, se harán normalizaciones y compresión para su restauración u optimización,...
4.- Corrección.- Para garantizar la calidad de los diversos objetos digitales, se tendrá en cuenta que siempre es necesario un proceso comprobación y corrección.
5.- Almacenamiento en el depósito. Una ver digitalizados los materiales y creados los objetos digitales correspondientes, pasan al depósito para su almacenamiento, se realiza el control de calidad final, así como a la creación de los metadatos correspondientes para facilitar su posterior búsqueda y recuperación.
1.2.- Digitalización de textos
En el caso del proyecto ELBA, se deberá prestar mayor atención al proceso de digitalización de textos y de imágenes.
El procedimiento será el siguiente:
a) Escaneo: Consiste en obtener una imagen (facsimil) del texto en formato digital, es decir como una secuencia binaria. Podremos usar los originales o de fotocopias de los mismos: En la mayoría de los casos correspondientes a publicaciones recientes se procederá al escaneo de los textos originales, cuando la encuadernación no lo permita o cuando y se no encuentren en buen estado, se harían fotocopias de los originales y sobre éstas se efectuaría el escaneo.
Para la digitalización se necesita de un hardware y de un software.
El hardware consiste en un scanner, semejante a una fotocopiadora, de los que existen diversos modelos que se diferencian generalmente en la velocidad de escaneo (paginas por minuto), tamaño de los originales. Existen algunos scanner especiales adecuados para diversos materiales, que en nuestro caso no consideraremos.
También existen diversos software necesarios para la digitalización. Para nuestro caso estimamos suficiente uno como el ABBYY. Este software nos ayuda a la digitalización (y también al reconocimiento óptico de caracteres, como veremos en el punto siguiente). Es de muy sencilla operación, aprende con uso a reconocer tipos especiales y el estilo de los textos que se están digitalizando. En la figura vemos como es la pantalla principal de operación.
A la hora de hacer el escaneo hay que tener en cuenta si queremos digitalizar sólo texto o texto e imágenes, si el texto tiene asociadas imágenes.
También programas como el Photoshop o Gimp, especiales para la digitalización y tratamiento de imágenes, se pueden emplear para la digitalización de textos.
En cualquiera de los casos es recomendable, escanear a la máxima resolución posible (mínimo 600dpi), pues ganaremos en nitidez y calidad de la imagen a partir de la cual se obtendrán otros productos. Las imágenes escaneadas (incluso las del texto) serian la equivalencia de una fotografía. Estas imágenes procedentes directamente del scanner, deberán almacenarse, para usos ulteriores, en formato TIFF (Tagged Image File Format (formato de archivo de imágenes con etiquetas) se debe a que los ficheros TIFF contienen, además de los datos de la imagen propiamente dicha, "etiquetas" en las que se archiva información sobre las características de la imagen, que sirve para su tratamiento posterior.
Para la puesta al público de la imagen a través de la red, usaremos los formatos como los JPEG (Joint Photographic Experts Group) formato de fichero que utiliza el algoritmo de compresión llamado de la misma manera, y PNG, (Portable Network Graphics) es un formato gráfico basado en un algoritmo de compresión sin pérdida para bitmaps no sujeto a patentes. Este formato fue desarrollado en buena parte para solventar las deficiencias del formato GIF y permite almacenar imágenes con una mayor profundidad de color y otros importantes datos, en ambos casos de pierde, con relación a TIFF, cierta calidad en la imagen, aunque sea suficiente para nuestros propósitos, pero a cambio obtenemos un fichero ligero, es decir que ocupa poco espacio y que se puede trasmitir con gran velocidad. Debemos tener en cuenta que, por el momento, en la red no es recomendable usar imágenes más grandes de 200k-300K y un fichero .TIFF fácilmente ocupará como mínimos unos 3Mb-4Mb
Deberemos tener algunas precauciones. En el caso de que estemos escaneando sólo texto hay que ver la calidad y estado de la impresión del original, pues de ello dependerá la calidad que obtengamos en la digitalización. Si se lee con nitidez (como ocurre en textos impresos recientes) el escaneo deberemos hacer en B/N, el contraste realzará el texto y será más fácil hacer el reconocimiento de caracteres. Sin embargo si el texto impreso tiene manchas, el papel se ha oscurecido, tienen gráficos o imágenes pues entonces deberemos escanear en escala de grises o a color.
Una vez escaneadas las imágenes tenemos que asegurarnos de que la calidad sea la mejor posible, quizá en algunos casos, debamos retocar las imágenes con un programa de edición de imágenes (photoshop, gimp etc.) y optimizar brillos, contrastes, enderezar la imagen, etc.
b) Reconocimiento óptico de caracteres (OCR): Para garantizar una máxima calidad de los textos, poder efectuar funciones de búsqueda en el interior de los propios textos, etc. se realizará a los documentos digitalizados el reconocimiento óptico de caracteres (OCR), esto es, haciendo uso de un software se traducirán las imágenes de un texto escrito a un texto que pueda ser editado por el ordenador.
Para hacerlo de una manera adecuada, en los programas de OCR deberemos especificar en las imágenes que parte es texto, que parte es imagen y así desechar cualquier mancha que pueda haber quedado a la hora de escanear como es la parte central del libro que suele quedar oscura.
El software de OCR más recomendado, por su amplia utilización es ABBYY, un software que además tiene la capacidad de ir “aprendiendo”, de manera que una imagen que en primera instancia confunde a la hora de hacer el OCR, finalmente la reconoce correctamente. Además tiene incorporado el diccionario de MSWord, lo cual facilita la tarea de corrección posterior a la realización del OCR, pues el software no lo realiza de forma óptima es necesario revisar los textos y corregir o comprobar que es idéntico al original, esta tarea que posiblemente sea la más tediosa del proceso de digitalización, pero a su vez la más importante porque de ella dependerá la calidad del material que se genere.
2.- Algunas características y normas de las publicaciones digitales y de los repositorios digitales. (Edición y almacenamiento)
2.1 Formatos y normas de edición digital
Otras de las tareas que han de realizarse con objetos digitales son las relativas a su edición en la forma en que queramos visualizar nuestros textos y al almacenamiento ordenado de los distintos materiales asociados con los objetos digitales.
Estos materiales cumplen diversas funciones y en cada caso se usaran los formatos mas adecuados a ellas, que también deberán tenerse en cuenta en la organización y forma de almacenarse los objetos digitales.
De cada objeto deberemos almacenar su imagen en formato TIFF, que reservaremos como la fuente inicial de los demás formatos.
Al principio nos hemos referido al formato ASCII que daba origen a la representación del texto plano, es decir, sin ninguna característica tipográfica especial. Pero si queremos conservar los textos y mostrarlos con toda la riqueza tipográfica de los originales de que proceden debemos usar otros formatos, en general llamados de marcas, etiquetas o marcadores, con los que asignamos algunos calificativos para describir las diferentes peculiaridades, tipográficas u otras, de los textos. Se llevará a cabo una cierta edición de los textos digitalizados y corregidos el OCR. Se usaran para ello, según los casos, distintos formatos elegidos entre los más usuales de extensiones txt, rtf, html, xml, y pdf.
TXT es la extensión para denotar que un documento esta en texto plano o plain text, se refiere a datos textuales en formato ASCII. Este formato es el más portable ya que es compatible con prácticamente cualquier ordenador y cualquier aplicación. Ya vimos mas arriba sus características y limitaciones.
RTF es el acrónimo de Rich Text Format, lenguaje de descripción desarrollado por Microsoft que usa marcas para enriquecer el aspecto tipográfico de los documentos. Se usa para intercambiar información entre programas multiplataforma de edición de texto. El RTF es un pobre formato estandarizado con diversas incompatibilidades incluso entre distintas aplicaciones de Microsoft, y no es recomendable su uso para guardar documentación.
HTML es una especie de documento de texto que es usado por los navegadores para visualizar textos e imágenes. El texto incluye etiquetas como <p> para indicar el comienzo de un párrafo, y </p> para indicar la finalización del párrafo. Los documentos HTML suelen ser llamados páginas web. El navegador recupera páginas web de los servidores web y gracias a Internet, estos pueden estar en cualquier parte del mundo.
XML (eXtensible Markup Language) es un lenguaje de marcas o etiquetas ampliable o extensible desarrollado por el World Wide Web Consortium (W3C). Su objetivo principal es conseguir una página web más semántica. Nació como una generalización del HTML, separando la estructura del contenido y permitiendo el desarrollo de vocabularios modulares. Al igual que el HTML, se basa en documentos de texto plano en los que se utilizan etiquetas o marcas para delimitar los elementos de un documento. Sin embargo, XML define estas etiquetas en función del tipo de datos que está describiendo y no de la apariencia final que tendrán en pantalla o en la copia impresa, además de permitir definir nuevas etiquetas y ampliar las existentes.
El formato PDF (Portable Document Format), ideado por Adobe, es la herramienta pública empleada en empresas con estándares mundiales para una distribución e intercambio seguros y fiables de documentos electrónicos. Tiene las siguientes características:
Es multiplataforma, es decir, puede ser visualizado por los principales sistemas operativos (Windows, Linux o Mac), sin que se modifique su aspecto o estructura original.
Puede guardar una combinación de texto, gráficos, imágenes o incluso música.
Es uno de los formatos más extendidos en Internet para el intercambio de documentos. En este sentido, es muy utilizado por empresas, gobiernos e instituciones educativas.
Es una especificación abierta para la que se han generado herramientas de Software Libre que permiten crear, visualizar o modificar documentos en fomato PDF. Un ejemplo es la suite ofimática OpenOffice.org.
Puede cifrarse para proteger su contenido o incluso firmarlo digitalmente
El formato que se pondrá al público será pdf por ser el formato que se visualiza mejor en cualquier ordenador independientemente del sistema operativo sobre el que corra, sin embargo el formato rtf, que en muchas ocasiones usaremos para editar mínimamente el texto, no será puesto al público dada la arbitrariedad con la que se muestran los documentos en este formato en los distintos procesadores de textos y en las diversas plataformas.
Aun siendo los formatos pdf y rtf los que van a ser más usados a la hora de la creación de una Biblioteca Digital, también es recomendable tener una copia en ficheros de texto plano (txt) porque su lectura está garantizada en cualquier tipo de ordenador, no es visualemente atractiva su forma pero si nos asegura su difusión, el caso posiblemete más importante del uso de este formato en una Biblioteca digital, es el caso de Proyecto Gutemberg, un proyecto iniciado en los años 70, que es coordinado desde Inglaterra, y donde se encuentran digitaliados más .000 fichers, en 21 idiomas y 20 tipos de formato diferente.
En el caso se usar software como ABBYY, se puede generar, directamente sin necesidad de edición posterior , un pdf que refleje el formato original, y sin embargo mantenga la capacidad de búsqueda en el texto, puesto que debajo de la imagen que se visualiza se encuentra el texto puro (en cualquier caso ese texto tiene que haber sido corregido previamente)
2.2 Repositorio
Un Repositorio de objetos digitales, y en particular los usados en las Bibliotecas Digitales, es el lugar electrónico donde se alojan los objetos digitales que corresponden a los diversos materiales bibliográficos que se vayan incorporando a dicha bibli- oteca para posterior consulta privada o pública.
Al comenzar un proceso de digitalización debemos previamente definir la organización con que queremos almacenarlos para posteriores usos. Aunque al principio sean pocos los objetos a depositar y puedan pensarse almacenarlos “donde caigan”, ya que en este caso es algo relativamente sencillo saber donde están, cuales hay y como localizarlos. Sin embargo, es conveniente que antes de que se almacene el primer objeto se defina previamente un orden y los procedimientos necesarios para mantener y almacenar los objetos sistemáticamente organizados, es decir, deberemos definir una estructura para el repositorio.
En esta estructura se deberá tener en cuenta los tipos de materiales de los que se van a almacenar. Definir categorías para cada uno de esos tipos, como por ejemplo podría ser: artículos, libros, imágenes, audio, video. En el ordenador donde se aloje el repositorio, se deberá crear un directorio por cada uno de los tipos de objetos digitales, en cada uno de esos directorios se almacenarán los objetos que pertenezcan a cada categoría.
Otro punto importante una vez tenemos creada la estructura del repositorio es cuidar la nomenclatura de los objetos digitales. Aunque en un principio puede existir la tendencia de que el nombre del objeto digital de información sobre el contenido del propio objeto, este hecho se irá haciendo más confuso a medida que se vayan incluyendo nuevos materiales en la biblioteca digital, por ello la recomendación que hacemos es, nombrar los objetos digitales de forma consecutiva, luego si se ve conveniente y que facilita el reconocimiento a simple vista del objeto digital, el nombre puede tener como sufijo el tipo o categoría a la que pertenece, de modo que el nombre de los objetos digitales quede de la siguiente manera:
articulo-xxxxx.pdf
libro-xxxxx-pdf
imagen-xxxx.jpg
audio-xxx.wav
video-xxxx.mpeg
en donde como sufijo consta el tipo o categoría a la que pertenece el objeto. Después aparece xxxx que representa un numero correlativo de identificación que varia en este caso entre 00000 y 99999 (para artículos), 00000 y 99999 (para libros), 0000 y 9999 (para imagenes), 000 y 999 (audios), 0000 y 9999 (para videos). Dependiendo del tamaño de las colecciones documentales de partida o de la que vayamos a crear se hará una estimación del número máximo de objetos que se almacenarán en cada categoría. Por ultimo se indica la extensión (es decir el formato) con la que se ha almacenado el objeto.
Dado que el repositorio será el lugar donde se almacenan de forma definitiva los objetos digitales, en muchos casos, es conveniente crear un espacio intermedio para el control de calidad, en donde se harán las comprobaciones de que las nomenclaturas son las correctas, se realicen e integren los metadatos, si los objetos digitales han tenido que ser corregidos o comprobados pues se les da el visto bueno, y ese espacio creado será el “deposito”, el cual reproducirá la misma estructura que el repositorio, si bien, parte de los materiales pueden sufrir alguna modificación o si no cumplen todos los requisitos quedarán “congelados” antes de pasar al repositorio.
2.3 Estándares para la descripción de los recursos digitales (textos, imágenes, audio)
Hasta ahora hemos analizado cómo crear un objeto digital y cómo almacenarlo, pero además deberemos hacer las operaciones necesarias para facilitar difusión del mismo. Una forma de difundir puede ser anunciando que se tiene ese material y esperar a que la gente lo solicite. Como este método evidentemente no es el óptimo, tenemos que introducir otros elementos, agregados al objeto digital con esta finalidad, que no hemos comentado hasta este momento. En primer lugar consideraremos los metadatos de cada objeto y luego la forma de dar acceso público a los objetos digitales de nuestro repositorio o Biblioteca Digital.
Antes de hablar de los metadatos propiamente dichos, comentaremos de manera sucinta, cual es el futuro de la web y porqué son importantes los metadatos en la creación de Bibliotecas Digitales.
El desarrollo de la WWW está orientado hacia la web semántica, cuya intención principalmente es poder hacer una recuperación de documentos teniendo más en cuenta el significado semántico de su contenido, que en la extracción de cadenas (palabras o frases) dentro de los textos, como ocurre actualmente. Para poder realizar esas búsquedas semánticas debemos describir los recursos digitales de modo que de forma automática se puedan establecer relaciones entre los objetos. Para describir dichos recursos es imprescindible la elaboración de estándares internacionales de manera que a nivel mundial existan unas normas comunes que permitan a los robots, agentes, buscadores la extracción de información de forma correcta.
Los estándares están definidos a varios niveles, por una parte los propios formatos en los que se hace o escribe la web, y otros que definen cómo describir la información, es decir, los metadatos.
Metadatos
Definición: Para dar un acceso efectivo a los recursos que hay en la Biblioteca Digital, como ocurre con otros de la red, se deben describir mediante el uso de los metadatos. Los metadatos contendrán información descriptiva sobre las peculiaridades o atributos de cada objeto (consideraremos como objetos distintos los distintos formatos de una misma obra digitalizada, aunque usaremos una misma coda para todos los objetos correspondientes a un mismo contenido). Los metadatos proporcionarán información sobre la localización del objeto digital, los formatos en los que se encuentra, materia a la que pertenece, autor, lengua y otras características bibliográficas, etc...Su función es facilitar al usuario final, el descubrimiento y navegación por la información, ya que sin ellos es muy difícil unir repositorios de información con distintos orígenes.
En resumidas cuentas las metadatos son piezas de información con los que describir a los objetos digitales, compuestos de diferentes campos, cada uno de ellos puede alojar uno o varios atributos, también describirán a los objetos digitales secundarios asociados, y también a colecciones de objetos vinculados entre sí por alguna propiedad. Cuando se trate de colecciones de objetos digitales tendremos que especificar los metadatos, que ese objeto (en muchos casos inexistente físicamente) describe un conjunto de los objetos (y eventualmente los objetos secundarios asociados) . Así los metadatos referentes a los objetos digitales describirán las características específicas del objeto y reflejará las relaciones con otros objetos mientras que los asociados a las colecciones describirán las características generales de esa colección, es decir, información que no se encontrará en ninguno de los objetos de la misma.
3 Acceso a los recursos digitales
Ayer estuvimos viendo algunas ideas sobre los procedimientos y normas para la creación de objetos digitales y algunas características y normas de las publicaciones digitales y de los repositorios digitales,en este punto, contamos con una colección de objetos digitales la cual debemos poner de acceso público. Vamos a ver algunas de las opciones con las que contamos para hacer accesibles los materiales digitalizados, generación de páginas web estáticas, páginas web dinámicas y uso de gestores de contenido.
3.1 Páginas estáticas
Ayer vimos de forma sucinta, qué era el html, una especie de formato que se aplica a los documentos de texto que es usado por los navegadores para visualizar textos e imágenes, que incluía una serie de marcas o etiquetas en el texto, vamos a ver un poco más en detalle en qué consiste esa forma de etiquetado que da lugar a las páginas web. A la hora de elaborar páginas web debemos separar el contenido semántico del documento del formato de presentación del mismo, por eso en estos momentos estamos en un momento de cambio en la elaboración de las páginas web, por un lado se está marcando el contenido de la página web mediante el XHTML y luego se está realizando la parte gráfica mediante CSS.
CSS, hojas de estilo en cascada (Cascading Style Sheets) son un lenguaje formal usado para definir la presentación de un documento estructurado escrito en HTML o XML (y por extensión en XHTML). El W3C (World Wide Web Consortium) es el encargado de formular la especificación de las hojas de estilo que servirá de estándar para los agentes de usuario o navegadores.
Las ventajas de utilizar CSS (u otro lenguaje de estilo) son: Control centralizado de la presentación de un sitio web completo con lo que se agiliza de forma considerable la actualización del mismo. Los navegadores permiten a los usuarios especificar su propia hoja de estilo local que será aplicada a un sitio web remoto, con lo que aumenta considerablemente la accesibilidad. Por ejemplo, personas con deficiencias visuales pueden configurar su propia hoja de estilo para aumentar el tamaño del texto o remarcar más los enalces. Una página puede disponer de diferentes hojas de estilo según el dispositivo que la muestre o incluso a elección del usuario. Por ejemplo, para ser impresa, mostrada en un dispositivo móvil, o ser "leída" por un sintetizador de voz.
El documento HTML en sí mismo es más claro de entender y se consigue reducir considerablemente su tamaño.
Ejemplo de CSS:
body {
margin: 0; padding: 0;
background-color: #fff;
text-align:center;
font-family: Verdana, Arial, sans-serif; text-align: left;}
p {
margin: 5px; padding: 5px;
font-size: 0.7em;
line-height: 1.4em;
font-weight: normal;
color: #666;
}
h1 {
margin-top: 30px; margin-left: 12px; padding: 0;
font-size: 1.5em; font-weight: normal; font-style: italic;
line-height: 1.5em; color: rgb(210, 80, 60);
}
Como podemos observar una css está separa los bloques de información por y dentro de cada bloque se define el aspecto del contenido al que está referido, por ejemplo en body se define los márgenes de la página web, el color de fondo de la página, el tipo de fuente y la alineación del texto, en p se define la altura de la línea dentro de los párrafos, el margen del párrafo, el tamaño de la fuente, el color ,etc en h1 , se describe los márgenes, el estilo, el color de los encabezados H1, que son los de mayor tamaño dentro de un texto.
Así se iría haciendo con tantos elementos como quisiéramos, imágenes, enlaces, los distintos encabezados, etc...
Después de haber hecho nuestra hoja de estilo es recomendable comprobar que cumple los estándares y para ello existen validadores online que analizar que no hayamos cometido algún fallo respecto a la norma en nuestra css
XHTML, acrónimo inglés de eXtensible Hyper Text Markup Language (lenguaje extensible de marcado de hipertexto), es el lenguaje de marcado pensado para sustituir a HTML como estándar para las páginas web. XHTML es la versión XML de HTML, por lo que tiene, básicamente, las mismas funcionalidades, pero cumple las especificaciones, más estrictas, de XML. Su objetivo es avanzar en el proyecto del World Wide Web Consortium de lograr una web semántica, donde la información, y la forma de presentarla estén claramente separadas. En este sentido, XHTML serviría únicamente para transmitir la información que contiene un documento, dejando para hojas de estilo (como las hojas de estilo en cascada) y JavaScript su aspecto y diseño en distintos medios (ordenadores, PDAs, teléfonos móviles, impresoras...).
A continuación vamos a mostrar un ejemplo de una página hecha en XHTML, vamos a ver paso a paso que significa cada parte del documento.
Ejemplo:
1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
2 <html lang="es">
3 <head>
4 <title>Aldesoc </title>
5 <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
6 <meta name="DC.title" content="Aldesoc web site" />
<meta name="DC.description" content="Web site of Latinoamerican Asociation Aldesoc for the promotion of social knowledge." />
<meta name="DC.date" content="2005-09-22" />
<meta name="DC.format" content="text/html" />
<meta name="DC.language" content="es" />
<meta name="DC.publisher" content="Aldesoc" />
7 <link rel="stylesheet" type="text/css" href="gallerystyles.css" />
8 </head>
9 <body>
10 This is an example of a web page.
Inside the body goes the content of the document.
11 <b>You can have bold text</b>,
12 <em>italic or emphasis</em>,
13 <p> A paragraph is a block of text </p>
14 To make hiperlinks you have to put a tag like
<a href=”http://www.aldesoc.org”>Aldesoc</a>
15 To insert an image you would have to indicate the path to image's location
<imc src=”web/images/example_image.jpg” alt=”this is an example image” />
16 </body>
17 </html>
La línea 1, define el tipo de documento html, es decirm es XHTML 1.0 y la norma estandard según la cual se ha hecho el tipo documento, es decir la DTD, siendo la DTD Document Type Definition
La línea 2 da comienzo al documento, indicado con , esta etiqueta puede contener a su vez atributos como es en este caso lang, para indicar en qué idioma está hecha la página, así los robots podrán recuperar la información por idioma.
La línea 3 indica el comienzo de la cabecera del documento, es donde van a estar el título de la web, los metadatos, el enlace indicativo de donde está la css, el juego de caracteres usado, etc.
La línea 4 es el título que aparece en la barra superior del navegador
La línea 5 información sobre el juego de caracteres de codificación
La línea 6 y líneas posteriores son los metadatos usando la norma Dublin Core incorporados a la web
La línea 7 enlace indicando dónde está situada la css
La línea 8 final de la cabecera
La línea 9 Comienzo del cuerpo de texto
La línea 10 Texto dentro del documento
La línea 11 Texto en negrita
La línea 12 Texto en cursiva
La línea 13 Párrafo
La línea 14 La palabra Aldesoc en un hiperenlace
La línea 15 Inclusión de una imagen
La línea 16 Final del cuerpo del documento
La línea 17 Final del documento html
Al igual que decíamos con las hojas de estilo, es recomendable validar los documentos XHTML que hayamos generado, para ello recomendamos http://validator.w3.org
Los documentos html se pueden hacer desde un editor sencillo como el bloc de notas, en este caso se tendría que escribir a mano todas las etiquetas que se encuentran en el texto, pero también podemos hacer uso de editores de html, que nos facilitan la escritura en html/xhtml, existen algunos populares como el Dreamweaver y Frontpage, que son software privativo, pero también tenemos la opción de usar editor que son software libre y funcionan en plataforma linux y windows, como es el caso de
NVU -Editor (X)Html
3.2 Páginas dinámicas
Hasta ahora hemos visto como hacer páginas web estáticas, llamadas así porque todo el contenido está en la propia página y cualquier cambio que se haga deberá hacerse de manera manual.
Sin embargo, hoy en día dado que la cantidad de información que suele haber en una página web es considerable, que suele variar con frecuencia y que es habitual querer mantener historiales de contenidos previos de los sitios web, empieza a ser habitual que las páginas web sean dinámicas, es decir, el contenido de la página está almacenado en una base de datos, con un lenguaje de script se hace la consulta a la base de datos y se genera al vuelo el html que luego se muestra en el navegador.
El lenguaje de script más habitual que a día de hoy se utiliza para realizar páginas web es PHP, que en combinación con la bases de datos MySQL, son la pareja ideal para la creación de sitios dinámicos, además tenemos el valor añadido de que ambos tienen licencias open source y son gratis, su uso está optimizados para correr con el servidor web Apache y bajo un sistema operativo Gnu/Linux aunque también puede hacerse bajo Windows.
Para hacer un sitio dinámico tenemos dos opciones, una es desarrollar el sitio desde cero, es decir, contar con técnicos que sepan php para generar el html dinámico o bien utilizar gestores de contenido ya existentes que puedan cumplir las funcionalidades que queremos o bien que exista la posibilidad de modificarlos para que se adecuen a nuestras necesidades. Existe una amplia gama de gestores de contenido, pero vamos a presentar el creemos que se puedes ajustar en mejor medida a las necesidades del proyecto Elba.
El software al que nos referimos se llama SPIP (système de publication pour l’Internet), es el sistema de publicación desarrollado por el minirézo para la gestión del sitio uZine. SPIP se distribuye bajo licencia libre (GPL). Por lo tanto, puedes utilizarlo libremente para cualquier sitio web, ya sea personal, social, institucional o comercial.
SPIP es un software realizado en PHP y que utiliza una base de datos MySQL, donde almacena los contenidos del sitio, para hacer fácil la programación del sitio, los desarrolladores han creado una pseudo lenguaje SPIP que hace que sin saber PHP ni programación web, se puedan definir ciertas funcionalidades dentro de la página, para establecer que datos se quieren recuperar, cómo mostrarlos, etc., la existencia de este pseudo lenguaje es una de las grandes potencialidades de SPIP.
A nivel gráfico es un software muy maleable, con lo cual se puede adaptar nuestro diseño al sitio SPIP , de manera que está más personalizado el sitio, una de las características principales de los gestores de contenido es proporcionar una interfaz de administración, en el caso de SPIP la interfaz es muy sencilla y está preparada para gente que no tiene un perfil técnico, consiste en una serie de formularios y casillas de textos, en las cuales sólo hay que introducir el texto que queremos incorporar en nuestra web, no es necesario tener conocimientos previos e html, css, etc, esto hace que la publicación de textos, su actualización, la inclusión de imágenes, documentos adjuntos, el activar la opción de comentar los artículos de forma abierta o moderada no suponga una gran dificultad.
Aunque SPIP no tiene destinado ningún campo a los metadatos del sitio web, podemos hacer uso de alguno de los campos existentes para poner los metadatos y así estos podrán estar presentes en nuestra página de cara a los agentes y robots de la red.
Existen herramientas desarrolladas por entidades activas en el desarrollo e implementación de metadatos que cuentan con herramientas online para poder generar metadatos, la página que recomendamos para hacer dichos metados es la perteneciente a UKOLN (Universidad de Bath)
3.3 Accesibilidad (WAI)
En la actualidad el acceso a Internet cada vez es más generalizado, el público destinado cada vez es más variado en todos los sentidos, desde los ordenadores desde los que acceden, la calidad de las conexiones, los usuarios que acceden en muchos casos pueden tener algún tipo de discapacidad y otros muchos más factores, hacen que cada vez sea más importante cuidar cómo creamos las páginas de modo que nadie quede excluido de la red.
Una definición sobre accesibilidad la da la w3c y es:
La accesibilidad Web significa que personas con algún tipo de discapacidad van a poder hacer uso de la Web. En concreto, al hablar de accesibilidad Web se está haciendo referencia a un diseño Web que va a permitir que estas personas puedan percibir, entender, navegar e interactuar de forma efectiva con la Web, así como crear y aportar contenido.
Es importante resaltar el hecho de que la accesibilidad potencia o garantiza que exista una igualdad de oportunidades a la hora de dotar de contenidos a la red, que Internet como medio sea bidireccional.
3.4 Licencias
Uno de los grandes escollos que nos encontramos a la hora de realizar una libre difusión de la cultura y de la información en general, es el tema de los derechos de autor, el copyright, y la lucha contra la piratería que se está llevando a cabo.
Hasta ahora sólo existía una opción para poder poner de acceso público contenidos, ya sean textos, imágenes, audio, vídeo, era comprobar si los materiales se encontrarán en dominio público, es decir, que han pasado 70 años después de la muerte del autor (el número de años puede variar según el país), sino la acción del copyright impide cualquier difusión de los textos salvo permiso de la editorial (aunque estos se escudan en los autores, rara vez son estos quienes tienen en su mano decidir cómo difundir su obra).
Hace pocos años, surgió una iniciativa llamada Creative Commons, una seria de licencias que permiten ofrecer los materiales bajo las licencias Creative Commons, que no significa renunciar al copyright sino que pueden ofrecer alguno de tus derechos a cualquiera pero bajo determinadas condiciones. El autor, al crear la obra puede estipular si quiere que la copia, la distribución y la difusión se haga de forma gratuita, pero manteniendo la autoría, o que se realicen obras derivadas o no a partir de su trabajo, que pueda hacerse uso comercial de él o no, es decir , se pasa del “todos los derechos reservados” a “algunos derechos reservados”. En el caso más extremos el autor puede permitir que cualquiera pueda hacer lo quiera con su material. Este tipo de licencias es un uso determinado del copyright, no está al margen ni es ajeno a él, simplemente deja al autor establecer el uso de su obra.
APÉNDICE
Dublin Core
El objetivo del Dublín Core es definir un conjunto básico de atributos que sirvan para describir todos los recursos existentes en la red. La definición del conjunto básico de atributos se ha llevado a cabo a nivel internacional y con participantes de diversas disciplinas.
Podemos resumir las principales características de Dublín Core de la siguiente manera: Simplicidad, pensado para que pueda ser utilizado tanto por bibliotecarios como por cualquier autor que desee describir sus documentos y aumentar su visibilidad. Consenso internacional en el número y definición de los elementos. Flexibilidad, nada en el DC es obligatorio, todos los elementos son opcionales y repetibles, así el usuario elige la profundidad de una descripción.
Grupo de los 15 elementos básicos de Dublin Core
[DC Elements - 1 ]
1. Titulo (Etiqueta: TITLE). Nombre dado al documento por el creador o editor del recurso. 2. Autor o Creador. (Etiqueta: CREATOR). La persona, institución o congreso responsable principal de la creación intelectual del contenido del recurso. 3. Materia y palabras clave (Etiqueta: SUBJECT). Asunto o tema sobre el que versa el recurso. 4. Descripción (Etiqueta: DESCRIPTION). Descripción textual del contenido del recurso, incluyendo resúmenes en el caso de documentos, o descripción del contenido en el caso de recursos visuales. 5.Editor (Etiqueta: PUBLISHER). Entidad responsable de hacer disponible el recurso en la forma
[DC Elements - 2]
6. Colaborador (Etiqueta: CONTRIBUTOR). Persona a organización, que ha hecho contribuciones intelectuales significativas pero secundarias con respecto a las personas especificadas en el elemento CREATOR . 7. Fecha (Etiqueta: DATE). Fecha en la que el recurso ha sido publicado o puesto a disposición de los usuarios en la forma presente. 8. Tipo de recurso (Etiqueta: TYPE). La categoría del recurso, tales como página Web, novela, poema, informe técnico, ensayo, diccionario. 9. Formato (Etiqueta: FORMAT). El formato de un recurso se usa para reconocer el software y hardware que se necesitan para mostrar a operar con el recurso. 10. Identificador (Etiqueta: IDENTIFIER). Cadena de símbolos o numero utilizado para identificar unívocamente un recurso digital.
[DC Elements - 3]
11. Fuente (Etiqueta: SOURCE). Cadena de símbolos o numero usado para identificar unívocamente el objeto (tanto impreso como electrónico) del que se deriva el recurso, si es aplicable.
12. Lengua (Etiqueta: LANGUAGE). Es la Lengua en la que se expresa el contenido intelectual del recurso.. 13. Relación (Etiqueta: RELATION). Indica la relación de este recurso con otro. 14. Cobertura (Etiqueta: COVERAGE). Características espaciotemporales del recurso incluyendo datos geoespaciales.
15.Gestión de los derechos (Etiqueta: RIGHTS). Es un enlace electrónico a una noticia sobre el copyright, a una frase que indique cómo gestionar los derechos, o de un servicio que pudiera suministrar información sobre la forma legal de acceder al recurso.