Useful AI things with Nat - Vol IX - [EN] [ES] What's going on with these AI models from China?
[EN] DeepSeek and the Coming AI Cost Disruption
English version here, versión en Castellano más abajo.
[EN] Greetings earthlings,
You can try DeepSeek AI right now. Open the interface, ask it anything, and see how it responds. Maybe it’s answering your questions with hallucinations. Maybe its guardrails are different from ChatGPT’s or CoPilot, allowing for less filtering. Or maybe it’s still rough around the edges. But if you stop at just testing the chat, you’re missing the bigger picture.
The real story isn’t just about how DeepSeek R1 performs in a user interface—it’s about what’s happening under the hood and what that means for the future of AI. Because if you understand what’s happening at the technical level, you can start to see the long-term economic, business, and policy implications.
I haven’t tested DeepSeek’s R1 model in depth yet—mainly because I’ve been reading everything I could find about its technical aspects. And, honestly, I’m still kind of on medical leave. But if you want to try it yourself, there are ways to do it, some of them thanks to Amazon Web Services (AWS) . [Quick update, Deepseek R1 is also available on Microsoft Azure AI Foundry and Github]
So if you want to experiment with the model beyond the chat interface, these are your best options.
But the real question isn’t how well DeepSeek works today—it’s what changes when this kind of optimization becomes the norm. And that’s where we need to go deeper.
DeepSeek’s Breakthrough in AI Efficiency
Over the past year, AI companies have been spending billions of dollars on GPUs, assuming that this level of investment will always be necessary. That assumption is already baked into their stock prices, their valuations, and their business models. But DeepSeek challenges that assumption in a way that could reshape the economics of AI.
DeepSeek’s latest model was trained for just $5 million—a fraction of what leading AI companies are spending. How? Instead of throwing more hardware at the problem, they optimized how AI models handle data and computation.
Here’s what they did differently:
Their full research paper is available here, and if you’re technically inclined, you can read through the details of their optimizations.
But one of the most interesting aspects of DeepSeek is how it self-evaluates its performance and improves over time.
DeepSeek isn’t just optimized for efficiency—it’s also designed to continuously improve itself.
These aren’t just theoretical advancements—they directly impact how useful and scalable the model can be in real-world applications.
The Market Assumed AI Training Costs Would Stay High—That’s Changing
Right now, AI companies are valued based on the assumption that training large models will always require enormous amounts of compute. That’s why we’ve seen massive investments in:
But what happens if those assumptions are wrong? If models can be trained 10 times cheaper than expected, those valuations start to look bloated.
Consider the ripple effects:
AI is Becoming More Accessible—And More Decentralized
Lower training costs mean that AI development is no longer just for billion-dollar companies. This could accelerate decentralized AI, where models are trained and run on distributed infrastructure rather than centralized cloud services.
If more people can train high-quality models without needing a data center full of $25k H100 GPUs, we could see AI development move outside of the control of a few major players. That means:
The Future of AI Demand: More Inference, Less Training
IBM has already noted that demand for AI inference is four times larger than demand for training—and it’s growing. The cost of training has always been the bottleneck, but what happens when that bottleneck disappears?
When training costs fall, the entire AI industry shifts toward deploying more models in more places. That means:
What This Means for the Future
DeepSeek’s optimizations don’t just make AI cheaper—they make it faster, more efficient, and more widely available. That has enormous implications for:
Goldman Sachs says
The analysis examines model development costs versus compute costs and their impact on the AI investment cycle. It highlights how these shifts will continue, influencing productivity and global growth—one of the key reasons this trend is being closely monitored.
This is where critical thinking matters. If you only look at how well DeepSeek’s chatbot works, you’re missing the point. The real shift is happening beneath the surface, in the infrastructure that powers AI.
And understanding that shift is the key to anticipating what comes next.
Further Reading:
领英推荐
[ES] DeepSeek y lo que viene en disrupción de costos de IA
[ES] Saludos terrícolas,
Puedes probar DeepSeek AI ahora mismo. Abre la interfaz, pregúntale lo que quieras y observa cómo responde. Tal vez esté alucinando respuestas. Tal vez sus filtros sean diferentes a los de ChatGPT o CoPilot, permitiendo menos censura. O tal vez aún le falte pulirse. Pero si solo te quedas probando el chat, te estarías perdiendo la historia más grande.
El verdadero impacto de DeepSeek R1 no está solo en cómo responde en una interfaz, sino en lo que sucede detrás y lo que eso significa para el futuro de la IA. Porque si entiendes lo que pasa a nivel técnico, puedes anticipar sus implicancias económicas, empresariales y de políticas públicas a largo plazo.
Todavía no he podido probar el modelo R1 de DeepSeek en profundidad, principalmente porque he estado leyendo todo lo técnico que encontré sobre él. Y, siendo honesta, sigo medio de baja médica. Pero si quieres probarlo tú mismo, hay varias maneras de hacerlo, algunas gracias a Amazon Web Services (AWS) , [Actualización: Deepseek R1 está disponible en Microsoft Azure AI Foundry and Github]
Así que si quieres experimentar con el modelo más allá del chat, estas son tus mejores opciones.
Pero la verdadera pregunta no es cómo funciona DeepSeek hoy, sino qué cambia cuando este tipo de optimización se vuelve la norma. Y ahí es donde hay que ir más a fondo.
La revolución de DeepSeek en la eficiencia de la IA
Durante el último a?o, las empresas de IA han gastado miles de millones de dólares en GPUs, asumiendo que este nivel de inversión será siempre necesario. Esa suposición está reflejada en sus valuaciones y modelos de negocio. Pero DeepSeek desafía esa premisa de una manera que podría redefinir la economía de la IA.
El último modelo de DeepSeek se entrenó con solo $5 millones, una fracción de lo que gastan las grandes empresas de IA. ?Cómo lo lograron? En lugar de solo usar más hardware, optimizaron cómo los modelos manejan datos y cómputo.
Esto es lo que hicieron diferente:
Su paper completo está disponible para quien quiera leer los detalles técnicos de estas optimizaciones.
Pero uno de los aspectos más interesantes de DeepSeek es cómo evalúa su propio rendimiento y mejora con el tiempo.
Cómo DeepSeek se autoevalúa y mejora con el tiempo
DeepSeek no solo está optimizado para eficiencia, sino que está dise?ado para mejorarse a sí mismo.
Estos no son solo avances teóricos, sino mejoras prácticas que hacen que el modelo sea más útil y escalable en aplicaciones reales.
La industria asumió que entrenar IA siempre sería caro—Eso está cambiando
Las empresas de IA han sido valuadas bajo la premisa de que entrenar modelos grandes requerirá siempre enormes cantidades de cómputo. Por eso han invertido miles de millones en:
Pero, ?qué pasa si esas suposiciones son erróneas? Si los modelos pueden entrenarse 10 veces más barato de lo esperado, las valuaciones actuales podrían estar infladas.
Posibles efectos en el mercado:
IA más accesible y descentralizada
Si entrenar IA deja de ser tan costoso, la IA dejará de estar concentrada en unas pocas empresas con gran infraestructura. Esto podría acelerar el desarrollo de IA descentralizada, donde los modelos se entrenan y ejecutan en infraestructura distribuida en lugar de en grandes nubes centralizadas.
Esto significa:
El futuro de la IA: Más inferencia, menos entrenamiento
IBM ya identificó que la demanda de inferencia es cuatro veces mayor que la de entrenamiento, y sigue creciendo. Hasta ahora, el costo del entrenamiento ha sido el cuello de botella, pero ?qué pasa cuando desaparece?
Cuando el entrenamiento se abarata, la industria se mueve hacia desplegar más modelos en más lugares, lo que implica:
?Qué significa esto para el futuro?
Las optimizaciones de DeepSeek no solo hacen la IA más barata, sino también más rápida, eficiente y accesible. Esto tiene enormes implicancias para:
Goldman Sachs dice
El análisis examina los costos de desarrollo de modelos frente a los costos de cómputo y su impacto en el ciclo de inversión en IA. Destaca cómo estos cambios continuarán influyendo en la productividad y el crecimiento global, una de las razones clave por las que se monitorea de cerca esta tendencia.
Este es el punto donde el pensamiento crítico es clave. Si solo te fijas en qué tan bien funciona el chat de DeepSeek, te pierdes la historia real. El verdadero cambio está ocurriendo en la infraestructura que impulsa la IA.
Y entender ese cambio es la clave para anticipar lo que viene.
Lecturas recomendadas:
?Aún tienes preguntas sobre cómo aplicarlo? Agenda una reunión para profundizar en el tema.