A unos días de tomar por sorpresa a la industria de IA, DeepSeek continúa robándose los reflectores. Empresas como OpenAI y Microsoft han declarado estar sorprendidas de su desarrollo, aunque otros ya fueron más lejos e intentan descifrarla. Tal es el caso de Hugging Face, quien se ha dado a la tarea de replicar el modelo de razonamiento de DeepSeek, aunque como código abierto.
De acuerdo con una publicación en su blog, ingenieros de Hugging Face han comenzado a desarrollar Open-R1, una iniciativa para reconstruir el modelo DeepSeek-R1. «Al desarrollar Open-R1, nuestro objetivo es brindar transparencia sobre cómo el aprendizaje de refuerzo puede mejorar el razonamiento, compartir conocimientos reproducibles con la comunidad de código abierto y crear una base para que los modelos futuros aprovechen estas técnicas», mencionaron.
La iniciativa, liderada por el jefe de investigación de Hugging Face, Leandro von Werra, quieren contrarrestar las prácticas opacas de la empresa china. Si bien DeepSeek-R1 es técnicamente abierto, el modelo carece de transparencia en áreas clave como conjuntos de datos y métodos de entrenamiento. Otro detalle adicional es que el modelo R1 tiene una licencia permisiva, pero no es de código abierto en el sentido tradicional.
«El modelo R1 es, sin duda, impresionante, pero la ausencia de conjuntos de datos abiertos, experimentos detallados y modelos intermedios hace que tanto la replicación como la investigación adicional sean altamente desafiantes», dijo Elie Bakouch, ingeniero del proyecto, en una entrevista con TechCrunch.
- CHECALO -
Open-R1 intentará descifrar el misterio de DeepSeek
Open-R1 busca replicar R1 en cuestión de semanas. Para lograrlo, el equipo aprovechará el Science Cluster de Hugging Face, un recurso de computación de alto rendimiento equipado con 768 GPU Nvidia H100 que se utilizarán para generar conjuntos de datos similares a los utilizados por DeepSeek. Además, los investigadores invitarán a la comunidad de IA a que participe en su desarrollo.
«La implementación correcta de los algoritmos y recetas de entrenamiento es crucial», afirmó von Werra. «Aquí es donde un esfuerzo colectivo puede sobresalir, aportando experiencia diversa para abordar problemas complejos», añadió. De conseguirlo, Open-R1 proporcionará una base sólida y de código abierto para el desarrollo de modelos de razonamiento avanzados.
El proyecto Open-R1 se centra menos en la competencia geopolítica de la IA y más en abordar las barreras impuestas por los modelos de desarrollo de «caja negra». Según Bakouch, la ausencia del código de entrenamiento y las instrucciones de R1 dificulta el análisis profundo del modelo o la adaptación de su comportamiento.
Aunque la iniciativa es notable, algunos expertos han expresado su preocupación sobre el posible uso indebido de la IA de código abierto. Los ingenieros de Hugging Face reconocen estos riesgos, pero argumentan que las ventajas de la apertura los superan. «Una vez que se replique la arquitectura de R1, cualquiera con acceso a suficientes recursos computacionales podrá construir su propia variante», mencionó Bakouch.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://hipertextual.com/2025/01/deepseek-tendra-un-clon-100-abierto-desarrollado-por-hugging-face