LLM para estudiantes de primaria

La palabra clave más candente en la industria en estos días es LLM.
Modelos como Claude 3.5 y Grok3 siguen apareciendo,
y también aumentan los servicios que utilizan LLM, como Rütten y Zeta.

Como desarrolladores, en algún momento integraremos LLM en nuestro servicio,
¡para no estar perdidos en ese momento, creo que es mejor conocer los conceptos básicos de antemano!
Así que he resumido las palabras clave principales.

LLM

LLM (Large Language Model), en pocas palabras,
"es una IA que entiende el texto que se le introduce y responde con texto".
Modelos como GPT-4o, Claude 3 y Grok3 son ejemplos representativos.

Los LLM de hoy en día van más allá de la simple generación de oraciones,
realizan diversas tareas, como codificación, análisis de imágenes y resolución de ecuaciones.
Creo que ya no es la era en la que los desarrolladores utilizan la IA como una herramienta.

Tool Call, Function Call

LLM no solo da respuestas,
"también se le puede pedir que llame a las herramientas necesarias para ayudar con las tareas".

Por ejemplo,

Si el usuario dice "calcula este número",
el LLM solicita que se llame a la API de la calculadora,
y luego envía el resultado al usuario.

Sin embargo, el LLM no llama directamente a la API,
nosotros tenemos que implementar la llamada real en código ㅜㅜ

RAG (Retrieval-Augmented Generation)

Por muy inteligente que sea el LLM,
solo genera respuestas con los datos con los que ya ha sido entrenado.
¿Cómo se recupera información como noticias recientes o documentos internos?

Ahí es donde necesitamos RAG.

Primero busca (Retrieval) la información necesaria en una base de datos externa,
y luego genera (Generation) la respuesta basándose en esa información.

De esta manera, el LLM también puede reflejar la información más reciente.

Es decir, antes de que el LLM responda, primero se le proporciona la información necesaria para la respuesta, y el resumen o la respuesta basada en esto
todo se llamaRAG, ¿verdad?

¿Qué significan los números 4B, 8B, 308B?

Cuando vemos modelos LLM, vemos números como 8B y 70B.
Esto significael número de parámetros (Parameter) con los que se entrenó el modelo.

8B (8 mil millones) → modelo ligero, rápido
308B (308 mil millones) → modelo enorme, pero lento

Cuanto más grande sea el modelo, más preciso será, pero la velocidad y el costo pueden ser un problema.
Hoy en día, la tendencia es utilizar bien losmodelos ligeros.

Cuanto más pesado es el modelo, más lenta es la velocidad de respuesta,
por lo que aumenta la tasa de abandono de los usuarios finales.

Multi-agente (Multi-Agent)

LLM no lo hace todo solo,
sino que varios agentes de IA pequeños colaboran.

Por ejemplo:

Uno se encarga de la codificación,
otro del análisis de datos,
y otro de la organización de documentos.

Al dividir las tareas de esta manera,se puede obtener una respuesta más rápida y precisa.
¿No es como una empresa? Alguien se encarga del front-end... alguien del back-end...

Validación de retroalimentación (Feedback de validación)

LLM no siempre dice la verdad.
Puede dar respuestas incorrectas.

Por lo tanto,se necesita retroalimentación de validación.

Si el usuario proporciona retroalimentación sobre si la respuesta del LLM es correcta o incorrecta,
el modelo puede volverse cada vez más inteligente.

Esto se puede automatizar para crearun sistema de aprendizaje automático para LLM.

O cuando se ha definido una llamada de función o un formato de respuesta,
se puede obligar a seguir el formato si no lo hace.

Cómo usar Function Call en OpenAI

Para utilizar realmente Function Call con GPT-4o de OpenAI,
se puede implementar de la siguiente manera.

🔹 Ejemplo de TypeScript

Al utilizar Function Call de esta manera,
LLM no solo puede generar texto simple,
sino que también puede realizar funciones reales, convirtiéndose en una **"IA realmente útil"**.

Agentica

Rellenar los valores de los argumentos de FunctionCall en detalle puede ser muy molesto.
Por lo tanto, Vercel ai y LangChain, etc., utilizan la biblioteca zod para
validar la retroalimentación de los valores de los argumentos devueltos por LLM.

Se realiza una llamada Function Call con alta precisión.

Sin embargo, escribir un esquema con zod para cada argumento de una función compleja es inevitablemente molesto,
y los desarrolladores pueden sentir que es"una pérdida de tiempo".

Por lo tanto, recomiendo la bibliotecaAgentica.

Con solo este sencillo código, las funciones de las tres clases y los puntos finales de swagger
se establecen como Function Call y se configuran para que se llamen automáticamente durante la conversación.

De esta manera, se crea un simple"agente de chatbot".

De esta manera, el área que maneja LLM e IA se está volviendo cada vez más fácil.
Da miedo hasta dónde llegará el desarrollo de la tecnología.