DeepSeek revolucionó el mundo de la inteligencia artificial
La inteligencia artificial acaba de tener su momento Sputnik. El empresario Marc Andreessen hizo esa audaz afirmación en X, la plataforma de redes sociales antes conocida como Twitter, el domingo pasado. Silicon Valley, el mercado de valores y los pronosticadores en línea están tambaleándose por lo que parece ser una actividad de nivel sísmico en el espacio de la IA.
DeepSeek AI, un nuevo modelo de inteligencia artificial de China que ha llegado a la cima de la App Store de Apple , está teniendo repercusiones en todo Silicon Valley. DeepSeek afirma que su inteligencia artificial compite con el modelo de razonamiento o1 de OpenAI y, en algunos casos , lo supera por una fracción del costo. No solo eso, el modelo R1 de DeepSeek es completamente de código abierto, lo que significa que el código es de libre acceso y cualquiera puede usarlo de forma gratuita.
Un diferenciador clave entre DeepSeek R1 y o1 de OpenAI es que R1 permite ver su cadena de pensamiento. Es una visión increíble de cómo "piensa" la IA. De hecho, se la puede ver tratando de responder preguntas sobre la Plaza de Tiananmen antes de cancelar su respuesta, a mitad de camino. Nvidia, la empresa que fabrica los chips que impulsan la revolución de la IA, vio caer sus acciones un 18% y perder un récord de 600 mil millones de dólares después del ascenso de DeepSeek el fin de semana. Tiene sentido. Si lo que dice DeepSeek es cierto, está logrando un rendimiento cercano al nivel de o1 en chips Nvidia aparentemente más antiguos mientras gasta un pequeño porcentaje del costo.
Los comentaristas en línea todavía están tratando de entender la repentina aparición de DeepSeek en el mercado de la IA. ¿Es realmente eficiente con o1 a un costo menor? ¿Hasta qué punto pueden ser ciertas las afirmaciones de DeepSeek y China con respecto a las eficiencias? ¿Los ahorros de costos provienen de un importante desbloqueo técnico o hay otras áreas en la cadena de suministro de China que hacen que su uso sea más barato?
De todos modos, R1 es impresionante.
"Esta asequibilidad abre la puerta a que las empresas más pequeñas y las nuevas empresas aprovechen la tecnología de IA avanzada que antes era inaccesible", dijo Mel Morris, director ejecutivo de Corpora AI , un motor de investigación de IA, en un comunicado. Morris agregó que DeepSeek plantea competencia a los actores establecidos de IA y su "presencia probablemente estimule avances más rápidos en la tecnología de IA, lo que conducirá a soluciones más eficientes y accesibles para satisfacer la creciente demanda".
Podría ser por eso que el CEO de OpenAI redujo los precios de sus mini consultas o3 de gama alta el sábado.
Mientras las grandes tecnológicas invierten miles de millones de dólares, potencia de procesamiento y energía en la IA, el desbloqueo de la eficiencia de DeepSeek podría ser similar al tipo de salto que vimos cuando los coches pasaron de los carburadores a los sistemas de inyección de combustible. A diferencia de OpenAI, el modelo R1 de DeepSeek es de código abierto, lo que significa que cualquiera puede utilizar la tecnología. Es una importante disrupción para el mercado, actualmente dominado por ChatGPT de OpenAI y Gemini de Google, ambos de código cerrado y que requieren que los usuarios paguen para obtener acceso completo a su conjunto de funciones.
En la carrera de la IA entre Estados Unidos y China, Estados Unidos se ha mantenido a la cabeza gracias a la masiva inversión de Silicon Valley y al bloqueo del gobierno a la venta de los últimos chips de IA de Nvidia a China. Sin embargo, ese bloqueo podría haber incentivado a China a fabricar sus propios chips más rápido . El dinero, más el proteccionismo, se consideraba una forma de mantener a China en segundo lugar, haciendo que el mundo dependiera de la tecnología estadounidense. Esa dinámica puede haber cambiado. Ahora, los consumidores y las corporaciones de todo el mundo tienen acceso a un modelo de "razonamiento" de alto rendimiento a una fracción del costo. No solo eso, la empresa matriz de TikTok, ByteDance, lanzó un rival aún más barato para R1 .
A medida que los mercados y las redes sociales reaccionan a los nuevos acontecimientos que surgen de China, puede que sea demasiado pronto para decir que Estados Unidos ha sido derrotado. Pero, por lo menos, China se está poniendo al día rápidamente.
"China ya ha producido modelos de calidad GPT-4, pero hubo un retraso mayor, como un año, un año y medio, algo así. Pero ahora hay un modelo chino, que tal vez esté solo seis meses por detrás, y creo que esa es una diferencia", dijo Lucas Hansen, cofundador de CivAI , una organización sin fines de lucro que utiliza software para demostrar de qué es capaz la IA. "Por lo tanto, Estados Unidos todavía tiene una ventaja, pero no es tan grande como antes".
Una cosa que sin duda ayudará a las empresas de IA a ponerse al nivel de OpenAI es la capacidad de R1 para que los usuarios lean su cadena de pensamiento. Incluso si R1 no responde todas las respuestas correctamente, poder ver cómo razona puede ayudar a desarrollarlo mejor. La "conmoción y asombro" que la gente siente con R1 proviene de la capacidad de leer su cadena de pensamiento, según Hansen. OpenAI no ha dado acceso a esta información con su modelo o1, ya que ocultar la fórmula secreta hace que la gente siga pagando una suscripción mensual para acceder a ella.
Aun así, hay que tener cierto escepticismo con respecto a la relación costo-rendimiento de R1. El informe técnico que publicó DeepSeek contó con más de 100 coautores . Eso es mucha capacidad intelectual para entrenar una IA por el bajo costo de 5,5 millones de dólares. Ese costo de 5,5 millones de dólares podría ser solo el costo de energía para entrenar el modelo, menos el salario individual de cada investigador, pero China no ha sido completamente transparente sobre cómo calculó estos costos de energía. El costo de establecer un centro de datos en China probablemente difiere del de establecer uno en los EE. UU. Y no se sabe con certeza si los costos fueron subsidiados por un proveedor de la nube o por el propio gobierno chino, según Hansen.
También hay escepticismo sobre los chips que DeepSeek utilizó para entrenar su modelo. ¿La empresa realmente está utilizando chips Nvidia A100 y H800 más antiguos o China está accediendo a los últimos chips H100 a través de otros medios , como afirma Alexandr Wang, director ejecutivo de Scale AI?
Incluso si tomamos esa cifra de 5,5 millones de dólares como una estimación muy conservadora, sigue siendo significativamente menor que los 100 millones de dólares que le costó a OpenAI entrenar GPT-4 , el modelo de IA anterior de la empresa. OpenAI no ha publicado cifras sobre lo que costó construir o1, pero dado que el costo del token para los clientes es mucho mayor, es probable que haya sido más caro.
"Se espera que la carga de los centros de datos en Estados Unidos se duplique o triplique para 2030, por lo que cualquier ahorro en eficiencia puede tener un impacto significativo", afirmó Mark James, director interino del Instituto de Energía y Medio Ambiente de la Facultad de Derecho y Posgrado de Vermont en un comunicado. Las empresas de servicios públicos ya están sufriendo la presión de las altas demandas energéticas de la IA .
Si las afirmaciones de DeepSeek son correctas, entonces podría aligerar enormemente la carga eléctrica potencial, aliviando la presión tanto sobre los consumidores como sobre el medio ambiente. "Por otro lado", dijo James, "los modelos más eficientes podrían generar un crecimiento aún mayor en el sector, lo que mitigaría los ahorros de eficiencia y exacerbaría la presión sobre nuestra red".
Las afirmaciones de que Estados Unidos ha perdido la guerra de la IA pueden ser prematuras. Por lo menos, el panorama se ha vuelto instantáneamente más competitivo y hay espacio para seguir innovando. DeepSeek tampoco significa que el mundo esté a punto de lograr una inteligencia artificial general o una IA super avanzada que sea más inteligente que los humanos y pueda aprender por sí sola.
"No creo que DeepSeek nos acerque ni un milímetro a la Inteligencia Artificial General, pero sí creo que nos acerca a aplicaciones de modelos de lenguaje de gran escala comercialmente viables, lo cual es fantástico", dijo Ben Goertzel, director ejecutivo de la Artificial Superintelligence Alliance y fundador de SingularityNET. DeepSeek todavía tiene las mismas limitaciones cognitivas que otros modelos de IA. A pesar de eso, las eficiencias de DeepSeek podrían democratizar aún más la IA.
Comentarios