LMArena: el sabelotodo de la IA

LMArena está valorada en 1.700 millones de dólares tras recaudar una ronda de 150M$. Es una plataforma web que permite a los usuarios comparar grandes modelos de lenguaje (LLM)

LMArena es una plataforma web pública abierta que evalúa modelos de IA basándose en las preferencias de los usuarios. Anteriormente conocida como Chatbot Arena, LMArena permite a los usuarios comparar grandes modelos de lenguaje mediante evaluaciones anónimas y colaborativas.

La plataforma open source se ha convertido en un producto altamente viral, con participación de usuarios de todo el mundo. Aumenta así su capacidad para recopilar y analizar datos masivos de comparaciones reales, generando valor para mejorar modelos IA.

Liderada por Anastasios Angelopoulos (CEO) y Wei-Lin Chiang (CTO), ambos con experiencia relevante en investigación y desarrollo de IA, la startup anunciaba hace unos días haber alcanzado una valoración de 1.700 millones de dólares tras conseguir levantar una ronda de financiación por valor de 150 millones de dólares. Antes, en mayo del año pasado, había recaudado otra de 100 millones de dólares en fase semilla.

¿Cómo funciona?

El acceso a la plataforma es gratuito. Se basa en modelos de IA generativa como pueden ser ChatGPT de Open AI, Claude de Anthropic o Google Gemini. Sin embargo, LMArena se limita a comparar dichos modelos de lenguaje gracias a la interacción de intervención anónima de millones de usuarios por lo que se le presupone una evaluación imparcial.

Otra de sus peculiaridades, es la dualidad de las respuestas. Cuando un usuario entra en LMArena solicitando información, en lugar de una única respuesta, recibe dos. Una del asistente A y otra segunda del asistente B.

Es el usuario quien elige la opción que más le convence, con la posibilidad de votar su elección tras la consulta. Para votar, el comparador muestra distintas opciones: ‘A es mejor’; ‘es un empate’; ‘ambos son malos’, ‘B es mejor’. Según algunas fuentes, las opciones de ‘empate’ y ‘ambos son malos’ son prácticamente ignoradas en los cálculos.

La votación también es anónima y sin filtro de ningún tipo. Asimismo, los miembros de la comunidad pueden proponer nuevos modelos. Sin embargo, la visibilidad de un modelo depende de la frecuencia con la que se muestrea. Para reducir el riesgo de manipulación, LMArena.ai limita la frecuencia de votación y registra metadatos.

Se trata, en definitiva, de enfrentar grandes modelos del lenguaje (LLM) para que los usuarios elijan los que consideren mejores. Hay quien lo relaciona con una tabla ‘democrática’ de clasificación de la IA basado en un sistema de clasificación Elo, tomado de las competiciones de ajedrez.

Críticas

Pese a la popularidad alcanzada por la plataforma, también tiene sus críticas. La votación pública y colaborativa no es, a juicio de todos, garante de la credibilidad de los resultados que arroja.

Le han salido, además, competidores, como SEAL Showdown , de Scale AI, otra iniciativa de evaluación comparativa a gran escala para clasificar los modelos de IA. Esta cuenta ya con más de 235.000 usuarios en más de 80 países y más de 70 idiomas que abarcan todos los orígenes y profesional.

¿Para qué te puede servir?

La recomendación general es tomar los resultados con cautela teniendo en cuenta que el control de calidad no es muy riguroso. Sirve, sin embargo, como un indicador dinámico impulsado por la comunidad sobre la IA conversacional y como punto de referencia -no como un veredicto- a la hora de tomar determinadas decisiones. Entre estas, caben señalarse:

Consulta estratégica para tu negocio. Si diriges un negocio digital, puedes plantear a LMArena preguntas como: ¿Qué modelo de IA se adapta mejor a mi sector? o ¿dónde debería invertir para integrar la IA en mi estrategia?

Apoyo a fundadores de startups. La consulta en la plataforma ayuda a validar la posibilidad de levantar rondas grandes en sectores complementarios (desde data labeling hasta evaluación específica de IA aplicada). Algunos desarrolladores y laboratorios consultan las clasificaciones de Arena antes de los lanzamientos y las decisiones sobre productos.

Para inversores: Demuestra el atractivo de la infraestructura de IA y benchmarking como puertas de entrada a mercados billonarios.

Las españolas más prometedoras en IA

Aprovechando el fácil acceso y la gratuidad de la herramienta, hemos preguntado a LMArena cuáles son las startups españolas más prometedoras en IA.

Recordando la cautela señalada y las consabidas alucinaciones de la IA, el asistente A, con vistas al ya pasado 2024, recoge nombres como los de Factorial, Spotahome, Quibim, AURA, Bnext y Nannybag (en realidad de origen francés).

En lo que respecta al asistente B aparecen nombres como los de Sherpa.ai, BigML (fundada por un valenciano, pero establecida en EEUU), Stratio BD, CART, Clarity AI, Mitiga Solutions, Voicemod, Legit.Health o Tucuvi, entre otras.

Por

Ana Delgado

LMArena: el sabelotodo de la IA

¿Cómo funciona?

Críticas

¿Para qué te puede servir?

Las españolas más prometedoras en IA

Recomendados

Alucinando con las respuestas de ChatGPT

La competencia real al ChatGPT se llama Falcon 180B y llega de los Emiratos Árabes Unidos

Emprender en la era de la IA: la reputación ya no es un intangible, es un dato algorítmico

España se convierte en el 5º 'hub' europeo en inversión en IA

LMArena: el sabelotodo de la IA

¿Cómo funciona?

Críticas

¿Para qué te puede servir?

Las españolas más prometedoras en IA

Recomendados

Alucinando con las respuestas de ChatGPT

La competencia real al ChatGPT se llama Falcon 180B y llega de los Emiratos Árabes Unidos

Emprender en la era de la IA: la reputación ya no es un intangible, es un dato algorítmico

España se convierte en el 5º 'hub' europeo en inversión en IA

Suscríbete a nuestra newsletter semanal

Suscríbete a nuestra
newsletter semanal