Urteko galdera

Joseba Abaitua / Filólogo

2015/04/22

Joseba Abaitua / Filólogo

La fuerza de los microcontenidos

Microcontenido: microtexto, microrelato, refrán, proverbio, adagio, máxima, apotegma, dicho, sentencia, oración, frase, frase hecha, cláusula, término, fórmula, regla, precepto, veredicto, laudo, arbitrio, dictamen, epígrafe, aforismo, greguería, fragmento, segmento, inscripción, encabezamiento, cabecera, línea, rótulo, título, titular, definición, glosa, versículo, cita, referencia, hecho, evento, sucedido, acontecimiento, anécdota, chiste, moraleja, comentario, reseña, resumen, abstract, recorte, snippet, tuit (microentrada, micropost)... Todos los anteriores son ejemplos válidos de microcontenido, aunque entre algunos existan importantes diferencias. El elemento común y principal que caracteriza a un microcontenido es su reusabilidad, por lo que cuanto más breve, más fácil será recolocarlo. Asimismo, cuanto más preciso (no ambiguo), autocontenido, autorreferencial, independiente de discurso, abierto, enlazable y público (sin restricciones de reutilización) más útil resultará para construir con él nuevos discursos. Muchos microcontenidos que cumplen estas propiedades triunfan socialmente y son propios de la oralidad, como los refranes o los chistes; pero también hay citas o referencias, títulos, aforismos, oraciones o fórmulas que han llegado a hacerse muy populares: 'más vale pájaro en mano que ciento volando', 'antes se coge al mentiroso que al cojo', 'energía igual a masa por velocidad al cuadrado', 'La gata sobre el tejado de zinc', 'Los caballeros las prefieren rubias', 'pienso luego existo', 'Cantando bajo la lluvia', 'tocala de nuevo Sam', el texto del Padre Nuestro, las primeras líneas del Quijote, etc. Otra ventaja de los microcontenidos es que en la mayoría de los casos son unidades de traducción, por lo que pueden traducirse sin mucha dificultad; y de hecho existen diccionarios que los contienen. Wikipedia está llena de ellos, con versiones en múltiples lenguas. Además los microcontenidos suelen ser 'bombas' semánticas. Contienen muchísima información en pocas palabras. Por ejemplo, el resumen de un artículo científico. Así Eusko Ikaskuntza suele limitar los de sus revistas académicas a sesenta palabras. Copio el último que escribí con Isabel Echevarría Isusquiza:

"La toponimia de Treviño, representativa de Álava central y oriental, aporta valiosa información sobre la cronología del contacto vascorrománico. Analizamos la sufijación de topónimos castellanos, que permite esbozar una estratigrafía de la toponimización del territorio. Abordamos asimismo los rasgos occidentales de la toponimia vasca, documentados desde 1025 pero no anteriores al siglo VI, momento que enmarcaría el inicio del contacto."

Las referencias bibliográficas son otro claro ejemplo de reusabilidad, potenciada por los formatos de intercambio, como BibTeX (ponemos en negrita el término de búsqueda en cada caso, así como el número de citas que ha recibido la referencia seleccionada):
  • Mosel, Stephan. "Self directed learning with personal publishing and microcontent." In Microlearning 2005 Conference. 2005. [Citado por 25]
  • Mitxelena, Koldo. Apellidos vascos. Biblioteca Vascongada de los Amigos del País, 1953. [Citado por 124]
  • Trask, Robert Lawrence. The history of Basque. Routledge, 2013. [Citado por 312]
  • Abadie, Alberto, and Javier Gardeazabal. "The economic costs of conflict: A case study of the Basque Country." American economic review (2003): 113-132. [Citado por 951]
  • Chomsky, Noam. Syntactic structures. Walter de Gruyter, 2002. [Citado por 16.275]
  • Berners-Lee, Tim, James Hendler, and Ora Lassila. "The semantic web."Scientific american 284, no. 5 (2001): 28-37. [Citado por 18.304]
  • Livak, Kenneth J., and Thomas D. Schmittgen. "Analysis of relative gene expression data using real-time quantitative PCR and the 2- ""CT method."Methods 25, no. 4 (2001): 402-408. [Citado por 44.683]
Ejemplo de 'recorte' o snippet ofrecido por Google Scholar para un resultado de búsqueda::

[PDF] The semantic web

T Berners-Lee, J Hendler... - Scientific ..., 2001 - isel2918929391.googlecode.com

Abstract Until recently, the Semantic Web was little more than a name for the next-generation Web infrastructure as envisioned by its inventor, Tim Berners-Lee. With the introduction of XML and RDF, and new developments such as RDF Schema and DAML+ ...

Cited by 18304 Related articles All 133 versions Import into BibTeX Cite Saved View as HTML

Una referencia en formato BibTeX es un objeto documental estándar muy reutilizable porque es transparente, por ir en texto plano, y preciso, por ir anotado, de forma que cada dato está interpretado mediante su correspondiente atributo o metadato:

@article{livak2001analysis, title={Analysis of relative gene expression data using real-time quantitative PCR and the 2- $\Delta$$\Delta$CT method}, author={Livak, Kenneth J and Schmittgen, Thomas D}, journal={Methods}, volume={25}, number={4}, pages={402--408}, year={2001}, publisher={Elsevier} }

  La interoperabilidad es otra cualidad que favorece sobremanera la reutilización de datos y metadatos, de la que puede presumir el servicio Hedatuz de Euskomedia. Este es un ejemplo de referencia exportable en diecisiete formatos: BibTeX, OpenURL ContextObject in Span, OpenURL ContextObject, Dublin Core, DIDL, EDM, Europeana Semantic Elements, EndNote, HTML Citation, METS, MODS, PREMIS, Reference Manager, Refer, Simple Metadata, ASCII Citation, EP3 XML:

Mitxelena Elissalt, Koldo (1984) Los vascos y su nombre. Revista Internacional de los Estudios Vascos = Nazioarteko Eusko Ikaskuntzen Aldizkaria = Revue Internationale des Etudes Basques (29). pp. 9-29. ISSN 0212-7016 http://hedatuz.euskomedia.org/2035/

La empresa líder en gestión de información, Google, ha desarrollado técnicas admirables en el tratamiento de contenidos. Así Google Books ofrece ocasionalmente ejemplos de intertextualidad, como el de la página 44 de Snower, Dennis J., and Guillermo de La Dehesa, eds. Unemployment policy: Government options for the Labour Market. Cambridge University Press, 1997. http://books.google.es/books?id=LBexc2yilVUC, en la que se ha detectado un fragmento repetido literalmente en 1364 libros desde 1891-2008:

"But apart from this contemporary mood, the ideas of economists and political philosophers, both when they are right and when they are wrong, are more powerful than is commonly understood. Indeed the world is ruled by little else. Practical men, who believe themselves to be quite exempt from any intellectual influences, are usually the slaves of some defunct economist."

De entre las múltiples formas de representar formalmente el significado de los microcontenidos una que nos parece muy adecuada es el Modelo de Eventos Simples (conocida por sus siglas en inglés SEM) de Van Hage, Willem Robert, Véronique Malaisé, Roxane Segers, Laura Hollink, and Guus Schreiber. "Design and use of the Simple Event Model (SEM)." Web Semantics: Science, Services and Agents on the World Wide Web 9, no. 2 (2011): 128-136. [Citado por 100]. SEM podría llegar a ser el BibTeX de los microcontenidos composicionales, de forma que mediante una representación SEM y mucho RDFa los datos y los eventos (así como las entidades o las relaciones que contienen) podrían ser interpretados y reutilizados por algoritmos computacionales especializados en la gestión de la información.

¿Para qué tipo de reutilización sirven los microcontenidos? Para mejorar los procesos de tratamiento de datos (masivos o parciales), para optimizar las tareas de recuperación de información, así como para la construcción, difusión y aplicación del conocimiento. ¿Existen tecnologías y herramientas? La tecnología está avanzando a grandes pasos en áreas como la agregación y curación de contenidos, la fragmentación y (re)construcción de discursos, el reconocimiento de entidades y eventos, la resolución de ambigüedades, la extracción y categorización de datos (y eventos), la ponderación de relaciones intertextuales, la detección de opinión, etc. Antes de terminar una mención a la aplicación que de forma paradigmática ejemplifica el extraordinario poder de los microcontenidos,Twitter (abajo incluimos dos diapositivas autoexplicativas). Un tuit (o microentrada) puede contener la siguiente información: la identidad y prestigio del autor, sus intereses así como los de su red de contactos, la fecha de publicación, el público específico al que va dirigido, menciones expresas a otros usuarios, etiquetas de catalogación, datos de geolocalización, imágenes o audiovisuales, enlaces a objetos documentales externos (que Twitter adjunta cuando puede), la popularidad alcanzada por la microentrada (número de retuiteos o fav[orito]s), comentarios o conversaciones suscitadas. Y alguno más que se nos ha olvidado o que Twitter no documenta. La principal restricción es que el texto no exceda los 140 caracteres (pero en estos no se incluyen la mayoría de los metadatos mencionados: información sobre el autor, fecha de publicación, datos de geolocalización, objetos documentales adjuntados, conversaciones, popularidad...).

Twitter posee múltiples funcionalidades (sobre todo comunicativas, pero no solo). Tal vez una de las más reseñables sea la detección temprana de alarmas y amenazas sociales (como la que Doan y otros, de la División de Informática Biomédica de la Universidad de California San Diego presentaron en 2012). Continuará.


Joseba Abaitua Departamento de Lenguas Modernas y Estudios Vascos Universidad de Deusto
Partekatu
Facebook Twitter Google Whatsapp