Introducción
Ante un mundo repleto de estímulos, conseguir que una imagen quede fijada en la mente del espectador se ha convertido en una estrategia de nivel de diseño, publicidad, educación y plataforma digital. La interiorización de una imagen, esto es, la capacidad de un recordatorio visual para ser recordado, supone uno de los factores determinantes a la hora de evidenciar la eficiencia de una determinada campaña o de que el propio contenido sea entendido.
Durante décadas, la cuestión de interrogarse acerca de por qué unas determinadas imágenes son recordadas con mayor facilidad que otras ha sido objeto de análisis desde la psicología y desde las neurociencias. Pero desde hace unos años, y gracias a la evolución de la inteligencia artificial, esta pregunta ha dado un salto de escala, hasta el punto de poder predecir qué tan interiorizable será una imagen antes de llegar al público, al margen de realizar pruebas cara a cara o estudios de neuroimagen. Este artículo estudia esa convergencia: el nexo entre la neurociencia de la memoria visual y los modelos computacionales que son capaces de predecir el recuerdo, realizando una parada en los principales aportes del paper de Khosla et al. (ICCV, 2015), el cual supuso un hito para el campo.
También reflexionaremos sobre cómo estas tecnologías afectan sectores como el marketing, la experiencia de usuario (UX) design de contenidos y de comunicación estratégica.
Qué es la memorabilidad visual y por qué es importante.
La memorabilidad visual hace referencia a la probabilidad de que una imagen sea recuperada de la memoria por una persona a raíz de haberla visto una única vez. Es una propiedad de las imágenes, medible y sorprendentemente predecible de forma que algunas escenas son recordadas a la velocidad del rayo mientras que otras son olvidadas con facilidad, incluso cuando se trata de imágenes complejas visualmente.
La memorabilidad no debe interpretarse, sin embargo, desde el mundo cognitivo como ni impacto emocional ni como estética. Una imagen puede ser emocionalmente intensa pero poco recordable, o bien, al contrario; esto es, varios estudios han demostrado que la memorabilidad tiene más que ver con la estructura semántica y compositiva de la imagen que no con el contenido emocional o la novedad perceptiva.
Saber qué hace que una imagen sea memorable puede tener profundas implicaciones para otras disciplinas. Por ejemplo:
– En publicidad, puede servir para diseñar piezas que permanezcan en la mente del consumidor más allá del primer impacto.
– En educación, puede servir para diseñar contenidos que faciliten recordar los conceptos clave.
– En UX y en el diseño de productos digitales puede dar lugar a la mejora de las características de navegación y de recordar las funciones visuales que son relevantes.
– En branding puede ayudar a construir una identidad visual sólida y coherente a través del tiempo.
Ser capaz de anticipar qué imágenes pueden llegar a funcionar (o sea, no solamente ser bellas) puede dar lugar a abrir una nueva dimensión en el diseño de estrategias visuales orientadas a la evidencia. La explicación científica de aquellas imágenes memorables: ¿cómo reunimos lo que recuerda el cerebro?
Para conocer aquello que vuelve memorable una imagen hay que fijarse en el cerebro. La memoria visual humana no guarda en un disco rígido lo que hemos percibido. Por el contrario, filtra, selecciona y codifica solamente una pequeña parte de lo observado.
En el caso de las imágenes intervienen varias de las distintas formas de memoria:
Memoria episódica visual: permite recordar una imagen en un determinado contexto (una fotografía de un viaje).
Memoria semántica visual: se relaciona con el conocimiento de artículos, categorías y relaciones con independencia de haber visto estrictamente esa imagen;
Memoria implícita visual: formas de que elementos visuales influyan sobre nuestras decisiones, aunque no recordemos en forma consciente.
Lo curioso es que estos procesos no son solamente dependientes de la atención o el interés del observador. Los estudios que utilizan la electroencefalografía (EEG) y la resonancia magnética funcional (fMRI) han demostrado cómo ciertas imágenes desencadenan patrones de codificación constantes en áreas como el lóbulo temporal medial, lo que incrementa su capacidad de recuerdo posterior.
Uno de los hallazgos más sorprendentes a los que hemos llegado en los últimos años es que la memorabilidad no es únicamente una propiedad subjetiva, sino una propiedad objetiva de las imágenes. Es decir: si una imagen es altamente memorable para una persona, probablemente lo sea para muchas personas más, incluso haciendo referencia a quienes no la han visto antes. Esta regularidad implica la posibilidad de desarrollar predicciones computacionales sobre el recuerdo, algo inaudito hasta hace solamente una década atrás.
Del laboratorio al algoritmo: ¿cómo se construye un modelo que predice la memoria?
En el año 2015, en el ICCV (International Conference on Computer Vision), un grupo del MIT que tenía como novedad principal a Aditya Khosla, publicó un paper clave titulado “Understanding and Predicting Image Memorability at a Large Scale” . El objetivo de la investigación era muy ambicioso: desarrollar un modelo de IA que fuese capaz de predecir cuáles imágenes serían memorables por los humanos sin necesidad de realizar experimentos presenciales.
El punto de partida para fijar una sólida base de datos sobre memorabilidad fue construir una base robusta de datos reales acerca de la memorabilidad. Para ello, los investigadores definieron una tarea experimental basada en un «juego de memoria visual» que exponía a los participantes a miles de imágenes intercaladas con distractores. Los usuarios tenían que identificar cuándo estaban viendo una imagen repetida. A partir de dicha analítica, los investigadores computaban una métrica objetivo: la tasa de aciertos de una imagen repetida tras algunos segundos.
Esta métrica denominada memorability score representa la probabilidad de que una imagen sea recordada en la primera ocasión que se ve. Uno de los aspectos que más sorprendió fue el hecho de que esos puntajes fueran consistentes entre los distintos participantes. En otras palabras aquellas imágenes que tenían un puntaje alto, podían considerarse universales y, por eso, podían permanecer en la memoria, mientras que otras eran olvidadas de forma sistemática.
Con esta base empírica, el siguiente paso fue construir un modelo que pudiera aprender patrones visuales: así fue como nació MemNet, una red neuronal convolucional (CNN) que había sido entrenada con la finalidad de predecir la memorabilidad de imágenes en función de sus características visuales.
LaMem: el dataset más grande del mundo sobre memorabilidad visual
Para poder llegar a entrenar MemNet, los investigadores necesitaban un enorme número de ejemplos; por eso mismo desarrollaron LaMem, un dataset masivo con más de 60,000 imágenes, cada una con un puntaje de memorabilidad validado por humanos.
Las imágenes eran de diferentes fuentes: bancos de imágenes como MIR Flickr, bases de datos sobre estética visual como AVA, y colecciones psicológicas como IAPS (International Affective Picture System).
A partir de esta heterogeneidad, se logró constituir un conjunto de escenas naturales, objetos, personas, paisajes y situaciones de la vida cotidiana lo suficientemente amplio y representativo como para ser considerado elegible.
El verdadero «valor» de LaMem, no obstante, no radica solamente en su tamaño, sino que se encuentra en el proceso de recolección. Cada una de las imágenes se codificó a partir de la valoración de una misma imagen llevada a cabo por centenares de personas, resultando así en más de 5 millones de respuestas únicas. Debido a la escala de la misma, fue posible reducir ruido individual y poder desarrollar una métrica robusta que garantizase la comparabilidad entre imágenes.
Este conjunto de datos fue el que permitió a MemNet el aprendizaje de patrones visuales que correlacionan con la memoria, sin ningún tipo de intervención directa por parte de una persona. Lo que resulta un hallazgo fascinante es que el sistema puede elaborar predicciones con una precisión semejante a la de la consistencia existente entre humanos (correlación de 0.64 en comparación con una correlación de 0.68 existente entre personas).
O, dicho de otra forma, MemNet puede predecir qué imágenes se recordarán con una precisión que es casi equivalente a la humana, pero a diferencia de esto, a escala masiva y en milisegundos. ¿Qué es lo que hace memorable a una imagen?
Una de las grandes contribuciones del trabajo fue dar respuesta, por primera vez con sustento probado y comprobable, a una pregunta decisiva: ¿qué comparten las imágenes que llegamos a recordar?
Gracias a las visualizaciones internas de MemNet (los dichos activation maps) los investigadores pudieron identificar qué partes de las imágenes influyeron más en la predicción de memorabilidad; los resultados obtenidos fueron coherentes con años de hipótesis de psicología cognitiva, pero, esta vez, contaban con una precisión y con una escala nunca antes vista.
Primeros planos de personas: los rostros humanos, especialmente en primer plano y con expresiones que se pueden llegar a distinguir, son muy recordables. La conectividad social parece tener una importancia clave en la codificación visual.
Objetos fuera de lo común: los elementos concretos y que se pueden agrupar visualmente (un paraguas rojo en medio de una escena gris) tienden a ser más recordables. La singularidad y, a la vez, la familiaridad parecen tener un peso importante.
Composiciones bastante simples y claras: las imágenes con un punto de atención específico y no demasiado cargadas de elementos son más fácilmente recordadas. Un exceso de objetos o fondos poco definidos genera una menor tasa de recuerdo.
Escenas genéricas o abstractas: escenarios decorados con paisajes sin figuras humanas, con composiciones con gran complejidad geométrica o fondos un tanto desenfocados tienden a tener una menor memorabilidad. Esto no quiere decir que no puedan resultar impactantes, sino que tienen mayor probabilidad de generar una dispersión atencional impactando en la capadidad de retener en cuadro en la memoria.
Una de las herramientas más potentes del modelo es la de generar mapas de memorabilidad; estos índices muestran qué partes de la imagen serán recordadas en mayor o menor medida por el observador medio. Esta capacidad predictiva que por siglos ha estado restringida a estudios de fMRI o eye-tracking, ahora es accesible a cualquier persona creativa o analista visual que haga uso de esas tecnologías.
De la teoría a la práctica: cómo la IA transforma el diseño de campañas visuales
Durante décadas, la industria del marketing visual adoptó decisiones sobre creatividad con base en la experiencia, la intuición y A/B tests. Claro está que, aunque han sido métodos que han dado buen resultado, su limitación ha sido siempre la escalabilidad: precisan de tiempo, recursos y no siempre ofrecen la clara explicación sobre por qué una pieza es mejor que otra.
Hoy, esta lógica está cambiando. Los modelos como MemNet y datasets como LaMem permiten predecir sobre qué elementos visuales van a cumplir el viaje hacia la memoria el consumidor. Y lo más disruptivos de todos es que actualmente pueden ser predecidos justo antes de lanzar una campaña olvidando esperar qué ocurre con la pieza en el mercado.
Este salto tecnológico tiene enormes implicaciones:
Optimización creativa previa a la llegada de la campaña: los creativos pueden testear múltiples versiones de una pieza visual, comparar sus puntuaciones de memorabilidad y escoger la opción antes de haber invertido dinero en medios.
Ajustes precisos en el diseño visual: gracias a los mapas de memorabilidad se pueden detectar qué áreas de una imagen contrarrestaremos el medio del olvido y rediseñarlas focalizando la atención en el lugar donde más fracaso se requiere.
Segmentación emocional más certera: sabiendo qué tipo de imágenes traen mayor recuerdo, las marcas logran alinear mejor sus mensajes visuales con los valores, deseos o memorias culturales de su audiencia objetivo.
Evaluación objetiva de campañas pasadas: herramientas de análisis basadas en IA permiten auditar retrospectivamente qué materiales visuales fueron los más memorables y qué elementos contribuyeron al resultado.
En definitiva, se cambia el arte de la adivinanza por la ciencia de la predicción.