La última gran clasificación de IAs que ha realizado la LMSYS destrona a GPT-4 del primer puesto. El innovador sistema Elo ha permitido a los investigadores conocer el nuevo mejor gran modelo de lenguaje. Se trata de Claude 3 Opus, creado por Anthropic, un sistema que ya supera a la joya de OpenAI.
El sistema Elo se ha utilizado durante mucho tiempo para clasificar jugadores de ajedrez, y ahora, se ha descubierto su potencial para evaluar inteligencias artificiales. Se nutre del factor humano para emitir las votaciones y basa su eficacia en la comparativa directa de modelos de lenguaje masivos (LLM).
El último ranking deja en muy buen lugar a OpenAI con GPT-4 y a Anthropic con Claude 3 Opus, que copan los primeros puestos con sus diversas actualizaciones. Entre el TOP 5 se deja ver Bard (Gemini Pro) de Google a una distancia prudencial.
Claude 3 domina y supera a GPT-4
El modelo de lenguaje de Anthropic ha conseguido 1.253 puntos, una cifra que es suficiente para coronarse como la IA con mejor rendimiento y resultados. Es importante recalcar que la puntuación está fijada con un sistema Elo, el cual, utiliza votaciones humanas para determinar la clasificación.
Claude 3 Opus ha sido probado por un total de 33,250 personas y es el único lenguaje que ha conseguido un +5/-5 en la tabla. Eso sí, GPT-4 se queda muy cerca con un total de 1.251 puntos y un +4/-4 en la tabla. Como dato importante, el modelo de OpenAI ha sido votado por 54.141 personas.
Según Simeón Emanuilov, la consistencia y rendimiento de Claude 3 Opus está por encima de GPT-4 en estos momentos, además, supera con creces a otros modelos en comprensión y generación de lenguaje.
OpenAI no ha dicho la última palabra
Si bien este ranking Elo ha situado a GPT-4 como la segunda mejor IA del momento, hay detalles que no podemos pasar por alto. Que esté 4 veces en la lista no es casualidad. Sus diferentes actualizaciones muestran que OpenAI mejora a pasos agigantados con cada versión.
Los avances de los grandes modelos de lenguaje son diarios y masivos, por lo que esta lista tiene una fecha de caducidad temprana. Cada actualización supera a la anterior, por lo que, probablemente, los mejores resultados a lo largo de los meses se consoliden en las compañías con mayor capacidad de mejora.
No se le puede restar mérito a Anthropic por lo que ha conseguido con Claude 3, pero tampoco se puede negar que OpenAI está al acecho y muy probablemente, más pronto que tarde, acabe colmando esa primera posición con una futura actualización.