Small Language Models: construyendo la arquitectura de las nuevas redacciones

Small Language Models: construyendo la arquitectura de las nuevas redacciones

Durante los últimos años, la carrera de la Inteligencia Artificial parecía regirse por la regla de que cuanto más grande sea el modelo de lenguaje, mejor. Sin embargo, estamos entrando en una fase de madurez, en la que el foco del mercado se desplaza desde la escala hacia la eficiencia, la especialización y el control de costes.

Según Gartner, las organizaciones, que necesitan una mayor eficiencia en tareas ordinarias pero un menor coste operativo,  utilizarán los modelos de IA específicos hasta tres veces más que los modelos generalistas.

En este contexto, los Small Language Models (SLM) pueden convertirse en una pieza clave dentro de la arquitectura de IA de las organizaciones en general, y las de medios en particular. A diferencia de los modelos fundacionales de gran escala, entrenados con billones de parámetros y que requieren infraestructuras masivas en la nube, los SLM se caracterizan por su especialización funcional y menor demanda computacional. Normalmente se trata de modelos basados en arquitecturas transformer con tamaños que oscilan entre cientos de millones y hasta varios miles de millones de parámetros (habitualmente por debajo de los 10B).

Desde un punto de vista estratégico, la diferencia es sustancial, ya que los SLM sacrifican cobertura generalista a cambio de un rendimiento óptimo, al tiempo que ofrecen menor latencia y mayor control sobre los datos, privacidad reforzada y un coste operativo significativamente inferior. Mientras que un LLM suele implicar elevados gastos en infraestructura, computación y llamadas constantes a APIs externas, los SLM pueden ejecutarse localmente en servidores propios, en portátiles o incluso dispositivos móviles, evitando que los datos salgan de la organización.

Una de las claves técnicas que permiten este salto de eficiencia es la cuantización, una técnica que reduce la precisión numérica de los parámetros del modelo (por ejemplo, de 16 a 8 bits). Esto puede hacer que el modelo sea hasta cuatro veces más ligero y requiera mucha menos memoria, manteniendo un rendimiento muy cercano al original en ciertas tareas. Esta técnica es uno de los enfoques principales dentro de lo que se conoce como model compression, que incluye también otras soluciones tecnológicas como el pruning y distillation.

Es decir, la competitividad real de los SLM se logra combinando varias técnicas de optimización, ampliamente documentadas en estudios comparativos de eficiencia y rendimiento:

  • Cuantización: reduce la precisión numérica de los pesos del modelo, disminuyendo de forma significativa el consumo de memoria y mejorando la velocidad de inferencia, con una pérdida mínima de exactitud en tareas bien definidas .
  • Pruning (poda):identifica y elimina conexiones con baja contribución al resultado final, compactando el modelo y acelerando su ejecución.
  • Knowledge Distillation (destilación de conocimiento): un LLM actúa como profesor” y transfiere su comportamiento a un modelo más pequeño. El resultado puede ser un SLM que conserve gran parte del rendimiento del modelo original, pero con una reducción considerable del coste de computación.

En el sector de los medios, estas características pueden ofrecer  soluciones antes inviables por coste, latencia o riesgos de privacidad. Entre los posibles casos extrapolables estarían la revisión de contratos confidenciales, el filtrado de contenido sensible y la implementación de guardrails o salvaguardas de IA en entornos locales, lo que garantiza que la propiedad intelectual y los datos internos no se utilicen para entrenar modelos de terceros.

Desde una perspectiva editorial y operativa, los SLM pueden funcionar como asistentes de código para equipos técnicos, sistemas de enrutamiento automático de tickets de soporte o como componentes clave en arquitecturas de búsqueda avanzada. En escenarios de Agentic RAG, los SLM pueden pre-procesar consultas, reescribirlas de forma contextual e inteligente y mejorar de manera significativa la recuperación de información en archivos históricos propios.

Por otra parte, son cada vez más las organizaciones que están adoptando estrategias de Intelligent Routing. En este enfoque, un módulo analiza la complejidad de cada consulta: si se trata de tareas sencillas como clasificación, extracción de datos o reformulación, el sistema recurre a un SLM. Solo cuando la tarea requiere razonamiento profundo o generación compleja se activa un LLM de gran escala. En despliegues bien optimizados, esta aproximación puede reducir la latencia de respuesta de segundos a cientos de milisegundos y disminuir los costes operativos de forma sustancial.

La gran apuesta estratégica para el sector de los medios no consiste únicamente en que los redactores utilicen herramientas de IA, sino en diseñar una arquitectura tecnológica propia que permita crear valor a partir de la riqueza de sus datos, su conocimiento editorial y las capacidades periodísticas de la redacción. En ese diseño, los Small Language Models no son un complemento, sino un bloque estructural fundamental.

Newsletter

Recibe nuestra newsletter semanal