Llega la revolución AI Multimodal y UX al turismo

12 de Noviembre de 2023 10:23pm

Category

Para los que no estén al día, el ChatGPT de finales de 2022 nos regaló un ordenador capaz de entender y generar idiomas. A primera vista, puede parecer un pequeño paso. Pero no lo es.

Sí, tiene problemas con los hechos y los datos actualizados, pero esa parte tiene solución y a menudo no es tan crítica como se podría pensar.

Si esto no le parece suficientemente revolucionario, el siguiente cambio es la inteligencia artificial generativa (GenAI) multimodal. ChatGPT empezó como texto a texto. Multimodal es lo otro:

Texto a audio. Generar voz a partir de texto. Empresas como Elevenlabs, Google y Amazon ya pueden crear tanto voces preentrenadas como voces clonadas personalizadas que en muchos casos son indistinguibles de la voz humana. Todo el mundo tiene acceso a estas herramientas:

Audio a texto. Apple, Amazon y Google llevan años haciéndolo. Buena suerte si tienes acento. Hoy, a través de GenAI, se ha mejorado enormemente, incluso con ese acento. ChatGPT ahora tiene Audio-In > Audio-Out como opción para que puedas omitir el texto por completo.

Texto a imagen. Esta área ha mejorado rápidamente en el último año. Hace un año era divertido jugar con Dall-E de OpenAI. Hoy en día, la aplicación gratuita Bing.com/create está muy cerca de crear imágenes fotorrealistas utilizables. MidJourney también está ahí. ¿Deberías generar imágenes para tus campañas de marketing de viajes? Me mantengo al margen de esa discusión.

Imagen a texto. Esto acaba de ocurrir en el último par de semanas como parte de ChatGPT. Haz una foto, sube un dibujo, lo que quieras, y pide a la GenAI que describa, deduzca, cuente una historia... lo que quieras.

Texto-a-Vídeo y Vídeo-a-Texto. En realidad no difieren en nada de la tecnología para imágenes, salvo que hay muchos más datos (más computación, más dólares) que procesar. Aún no están listas para el prime time, pero están al caer. Es divertido jugar con ellas. Como lo eran las imágenes hace un año.

Así que si usted tomó cualquiera de estos modos de forma aislada - todos ellos son significativos. Pero cuando los conectas todos a la vez, empieza a ser realmente interesante.

Piense en las nuevas Ray-Ban Meta. Básicamente, se trata de un gran modelo de lenguaje multimodal (LLM, como ChatGPT) que se lleva en la cara. Puedes hacer lo básico, como escuchar música o hacer fotos y vídeos. Pero, en realidad, son una forma sencilla de conectar lo que ves, oyes y dices con el ordenador más potente del mundo (en un sentido práctico), un LLM.

Si tenemos en cuenta todos los sentidos humanos, podemos afirmar que la vista y el oído son las formas en que consumimos más datos. La voz y el texto son las formas en que comunicamos más datos. Todos ellos funcionan y están conectados.

Hoy ya utilizamos muchas de estas herramientas, pero a menudo no funcionan de forma muy cohesionada. Todavía están un poco parcheadas. Esto va a cambiar. Así que ahora, con mis gafas de sol puestas, puedo mirar Alcatraz por la ventana de mi hotel, y simplemente decir "Oye Meta, ¿qué es eso, y cómo lo visito?". Sin mirar nunca una pantalla, puedo recibir una serie de opciones, precios y disponibilidad. Y reservarlo sólo con la voz.

¿Las gafas de sol? No estoy seguro de que ese sea el futuro. Pero, de nuevo, ahórrate los comentarios sobre el fracaso de las Google Glass. No es muy diferente a apuntar con el teléfono a algo. La fluidez es importante. Un clic menos o dos acciones menos, como coger el teléfono y navegar hasta la aplicación correcta, son cosas que marcan la diferencia.

Hace quince años, oíamos historias de gente en Asia que reservaba hoteles, o incluso vuelos, con un smartphone. Nada de eso parecía plausible en aquel momento. Sin duda, es ir demasiado lejos. Nunca se pondrá de moda en Occidente. Estas cosas llevan tiempo. Los seres humanos son grandes en el estancamiento del progreso en el corto plazo. Pero al final, lo mejor es simplemente mejor, y los humanos encuentran la forma más fácil de realizar una tarea con las herramientas a las que tienen acceso.

Para muchas empresas heredadas (mi nueva definición es cualquier empresa de más de dos años), se enfrentan al dilema del innovador. Su experiencia de usuario está codificada en todo lo que hacen. No son sólo los clientes fieles los que utilizan su UX (experiencia del cliente) actual, sino también los diseñadores de la empresa, los analistas de datos, los expertos en marketing, los ingenieros y otros profesionales cuyas funciones se derivan del flujo y la UX actuales. Es bastante difícil alejarse de eso.

Esto podría abrir la puerta a nuevos actores. Hay muchas nuevas empresas que persiguen esa cuota de mercado. La mayoría son planificadores de viajes. La mayoría son difíciles de diferenciar entre sí en este momento. Pero una de ellas puede crear la próxima killer app y ponerlo todo patas arriba. Se avecinan tiempos emocionantes.

Etiquetas

Tecnología y Turismo