Tecnología

Así alimentamos los algoritmos de Google (sin pretenderlo)

algoritmo google

Al preguntarme qué es escribir para internet me vienen la mente dos ideas: “escribir para” y “alimentar a” la máquina. En ambas, escribir no guarda relación con estilo, redacción, expresión o despertar interés, pero sí con vocabularios y gramáticas para máquinas digitales y en red, con menos tornillería que una nevera, pero igual de cotidianas e invisibles.

Ahora tenemos que aprender a escribir para Google. Cuando los trenes despertaron como animales mitológicos de caminos de hierro ávidos de carbón, el fogonero tenía que cargar una y otra vez a paletadas sus calderas para que el viajero recorriera un espacio determinado.

De la misma manera, la maquinaria que mueve las bielas del mundo digital también nos necesita como fogoneros: escribir nuevos contenidos, cargar fotos y vídeos, comentar, etiquetar, gustar, deslizar y volver a empezar.

El ecosistema de atención de la red vive de nuestras constantes tareas de alimentación: los medios generan noticias, las instituciones actualizan sus convocatorias, todo el mundo juega a estar vivo publicando contenidos.

Alimentando a la máquina tecnológica

Cada parpadeo en el móvil parece que susurra “¡Más madera!” para alimentar con microcontenidos a la máquina que podemos personalizar en “los cuatro jinetes” dueños del futuro: Google, Facebook, Apple y Amazon.

Los “microcontenidos” proliferan al lado de los “contenidos”, aquellos que poseen una cierta categoría de documentos identificables y con un discurso organizado (un disco, un episodio, un artículo de revista…).

Los microcontenidos en medios sociales requieren poca atención, poco tiempo y no los imaginamos como esforzadas paletadas de carbón, sino quizá como sacudirse el polvo: compartir, comentar y conectar. Nuestras acciones –lo que subimos y lo que bajamos– son el combustible de las plataformas sociales, y se convierten en datos, igual que el carbón en calor y en gota de sudor.

Cuidado con nuestros datos pasivos

Pero pensemos en nuestros datos no como datos personales –mi lugar de residencia, mis estudios, lo que digo…–, sino en nuestros datos pasivos, el resultado de nuestras microacciones de ver, mover, marcar, compartir: a quién leo, a quién valoro, con quién comparto, qué busco, cómo me muevo… Esos datos toman forma en una red de interacciones que no comprendemos del todo, que no sentimos del todo como propias, pero que permiten a las máquinas de la red perfilarnos y meternos en la picadora de sugerencias y recomendaciones.

Nuestros movimientos digitales son captados por la red y transformados en patrones para ser objeto de recomendaciones y para sugerir deseos a otros que, por increíble que parezca, no necesitan conocer la naturaleza de lo que leemos o compramos, sino tan solo ajustar algoritmos de reconocimiento de patrones conocidos como “filtrado colaborativo”.

Para lo anterior me gusta usar el término “alimentar a la máquina” y podría resultar revelador caer en la cuenta de que para ello usamos, sin apenas darnos cuenta, el idioma de los grafos, al que Orwell llamaría quizá la “grafolengua”. Un grafo es una estructura matemática de la que deriva el análisis de redes, y también otro de los modelos de base de datos donde las conexiones entre nodos son su componente esencial.

Grapho.

Grafos que operan en la sombra

Es raro el lugar al que miremos en el que no podamos apreciar un grafo operando en la sombra, especialmente en contextos intensivos en datos: transporte, comercio online, detección de fraude, análisis automáticos de procesos colectivos… Y cada uno de nosotros somos ajenos a los grafos, porque Twitter e Instagram nos han llevado a usar en nuestra comunicación espontánea una gramática apta para la máquina, que se corresponde con esta estructura matemática computable.

Un tuit no es un haiku, es una nueva pieza en un grafo monumental e instantáneo. Para una máquina, al encontrarse con un texto en cualquiera de nuestros idiomas humanos es muy difícil saber qué decimos en realidad, pese a tener acceso a todas las palabras que lo componen. Pero es un poco menos difícil adivinar y capturar de qué o quién estamos hablado, sobre todo si se lo ponemos fácil.

Lo que Twitter consigue de nosotros

Esto es lo que ha conseguido Twitter: que escribamos en piezas pequeñas e incluyendo punteros muy claros sobre quién hablamos –@Renfe– y sobre qué hablamos, #coronavirus. Con las inocentes menciones y hashtags resulta que directamente estamos dibujando un grafo: cada mención establece una conexión perfectamente clara con otras identidades digitales, organismos, marcas y temas de actualidad. Se corresponden con la estructura de un grafo dirigido: nodos y enlaces que son procesables por algoritmos sin más transformaciones, tal y como entran, salen.

Este increíble truco funciona como un tiro al escribir en plataformas sociales, pero no cuando escribimos textos en la web. Nuestros artículos, nuestros textos digitales, les suponen a los ingenios de búsqueda como Yandex, Bing, Google o Baidu, no solo darse cada día el inacabable trabajo de rastrear nuestras páginas web, sino la proeza de entender su contenido e indizarlo para servirlo luego en búsquedas que se apoyan, cómo no, en un grafo de relaciones, relevancia e importancia relativa.

Cómo nos interpretan Instagram y Google

A Instagram se lo damos ya hecho al escribir en la forma nativa de una máquina, preocupados de que entienda que estamos hablado específicamente sobre, por ejemplo, #OTDirecto18F. Y por eso el algoritmo puede funcionar en automático, los datos vienen limpios.

Ya no es que la máquina nos procese, es que escribimos rellenando huecos en blanco en su formulario. Tras pulsar intro, todo queda calculado al instante. Pero para Google no es así, y eso nos lleva a otra forma de escribir para la máquina.

El juego de palabras que funciona mejor con los contenidos web sería “escribir para la máquina”. Los contenidos –videos, textos, imágenes…– son la materia prima con la que Google está armando, más que un buscador, un increíble artefacto para organizar conocimiento y entender la expresión de los pensamientos colectivos que sugiere ramificaciones transgresoras en lo que se ha denominado sin excesiva hipérbole como la “googlización de todo”.

El filtro de nuestras publicaciones

Creamos contenidos para influir sobre personas, pero tenemos que pasar previamente por el filtro de la máquina. Queremos la atención de los buscadores, queremos que nos entiendan para que puedan recomendarnos. Por lo tanto, en este contexto, en la web silvestre y abierta, usamos una versión más sofisticada del idioma grafo y escribimos en algo así como la “seolengua”, volviendo al patrón orwelliano, a partir del término usado por las empresas de la red para el Search Engine Optimization (SEO).

Una de las técnicas y especificaciones con utilidad en optimización para buscadores es el marcado semántico que permite la creación de significados precisos en los contenido web. ¿Cómo hacemos para escribir nuestras páginas de forma que se entienda claramente si donde pone Santander hablamos del banco, del equipo de fútbol o de la ciudad? ¿Cómo decirle al buscador si lo que estamos contando es una receta o una crítica de una película, si aquello es un artículo científico y analiza un monumento histórico o si es un reportaje de investigación que menciona un determinado hotel?

¿Qué es y cómo funciona la burbuja de filtros de Internet?

Para ello nos apoyamos en una variante de la grafolengua más sutil, porque no es visible en la superficie, cuyo diccionario es Schema.org, y que también adopta estructura de grafo, aunque con cierto aire de ontología ligera. El marcado semántico está escrito en la parte de atrás de la hoja: en la cara principal, la del contenido que experimentamos en la web, sigue siendo un texto agradable y bien maquetado, lo que interesa del contenido para personas y lectores.

Además, está marcado en código HTML-CSS para que se visualice bien tanto en un portátil como en un móvil. Pero por debajo –y vale también decir por detrás o por dentro– el contenido está tejido con metadatos, que suponen la descripción formalizada de significados compartidos y comprensibles para que lo entienda Google.

¿De qué hablamos cuando escribimos “Pinocho”?

Aunque no podamos decir con seguridad que la máquina entienda lo que dicen nuestros textos, sí que al menos está consiguiendo saber a qué cosas reales nos referimos cuando escribimos: cosas que pueden ser tan reales como el Barroco, el túnel de Canfranc, Pinocho, el Mar Báltico, el colesterol o la primera epístola de San Pablo a los Corintios. Y lo sabe, con mayor certeza, cuando los editores se apoyan en potentes sistemas de gestión de contenidos a través de los cuales se integran descripciones de recursos de información con metadatos, vocabularios y taxonomías.

Publicar bien en internet es escribir bien para las máquinas, formateando el contenido de modo que tenga sentido para intermediarios automatizados que actúan como filtro, conectores y entornos de descubrimiento. Requiere hablar incorporando el idioma de los metadatos.

Las disciplinas de Ingeniería Informática y Ciencia de Datos están transformando la capacidad de organizar y procesar información en red, pero no están solas: el campo de la Gestión de Información y Contenidos Digitales está del lado de los productores de información, creando el contenido significativo que circula por la red, publicando con calidad combinaciones de contenidos multimedia y datos estructurados para construir un mejor espacio social para la información digital. Del “¡Mamá, mira!” al “¡Google, mira!”.The Conversation

Tomas Saorín, Coordinador del grado en Gestión de información y contenidos digitales, Universidad de Murcia

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Te recomendamos

Sobre el autor

The Conversation