LLM für Grundschüler

Der derzeit heißeste Begriff in der Branche ist LLM.
Modelle wie Claude 3.5 und Grok3 erscheinen ständig,
und es gibt immer mehr Dienste, die LLM verwenden, wie Rütten oder Zeta.

Als Entwickler werden wir irgendwann LLM in unseren Dienst integrieren,
aber um dann nicht in Panik zu geraten, sollten wir die grundlegenden Konzepte im Voraus kennenlernen!
Deshalb habe ich die wichtigsten Keywords einmal zusammengefasst.

LLM

LLM (Large Language Model) ist einfach gesagt
"eine KI, die Text versteht und mit Text antwortet".
Modelle wie GPT-4o, Claude 3 und Grok3 sind typische Beispiele.

Heutzutage geht LLM über die einfache Generierung von Sätzen hinaus,
und führt verschiedene Aufgaben aus, darunter Codierung, Bildanalyse und mathematische Problemlösung.
Ich denke, wir befinden uns jetzt in einer Ära, in der Entwickler KI als Werkzeug einsetzen.

Tool Call, Function Call

LLM antwortet nicht nur einfach,
sondern man kann es auch bitten, "die notwendigen Tools aufzurufen, um bei der Arbeit zu helfen".

Zum Beispiel,

Wenn der Benutzer sagt: "Berechne diese Zahl,"
fordert LLM den Aufruf der Taschenrechner-API an
und gibt das Ergebnis an den Benutzer zurück.

Aber LLM ruft nicht direkt die API auf,
den tatsächlichen Aufruf müssen wir im Code implementieren ㅜㅜ

RAG (Retrieval-Augmented Generation)

So intelligent LLM auch ist,
es erzeugt Antworten nur mit den Daten, die es bereits gelernt hat.
Wie ruft man dann aktuelle Nachrichten oder interne Dokumente ab?

Dann wird RAG benötigt.

Es sucht zuerst die notwendigen Informationen in einer externen Datenbank (Retrieval),
und erzeugt dann auf der Grundlage dieser Informationen eine Antwort (Generation).

Auf diese Weise kann LLM auch aktuelle Informationen berücksichtigen.

Das heißt, bevor LLM antwortet, werden zuerst die für die Antwort notwendigen Materialien eingefügt, und die Zusammenfassung oder die Antwort auf dieser Grundlage wird
alles als RAGbezeichnet.

4B, 8B, 308B? Was bedeuten diese Zahlen?

Bei LLM-Modellen sieht man oft Zahlen wie 8B oder 70B angehängt.
Dies steht für die Anzahl der Parameter (Parameter), die das Modell gelernt hat.

8B (8 Milliarden) → leichtes Modell, schnell
308B (308 Milliarden) → sehr großes Modell, aber langsam

Je größer das Modell, desto genauer, aber desto höher der Aufwand an Geschwindigkeit und Kosten.
Derzeit ist es Trend, leichtgewichtige Modellegut zu nutzen.

Je größer das Modell, desto langsamer die Antwortgeschwindigkeit,
deshalb ist die Abbruchrate der Endbenutzer höher.

Multi-Agent

LLM erledigt nicht alles alleine,
sondern mehrere kleine KIs (Agenten) arbeiten zusammen.

Zum Beispiel:

einer ist für die Codierung zuständig
einer für die Datenanalyse
einer für die Dokumentenorganisation.

Durch diese Arbeitsteilung ist es schneller und ermöglicht genauere Antworten.
Ist das nicht wie in einer Firma? Jemand macht Frontend... jemand macht Backend...

Validation Feedback (Validierungsfeedback)

LLM gibt nicht immer die richtige Antwort.
Es kann auch falsche Antworten geben.

Deshalb ist Validation Feedbacknotwendig.

Wenn der Benutzer Feedback gibt, ob die Antwort von LLM richtig oder falsch ist,
kann das Modell immer intelligenter werden.

Dies kann automatisiert werden, umein System zu erstellen, in dem LLM selbst lernt.

Oder wenn Function Call oder Antwortformat festgelegt sind,
kann man erzwingen, dass das Format eingehalten wird, wenn es nicht eingehalten wird.

So verwendet man Function Call bei OpenAI

Um Function Call tatsächlich mit OpenAIs GPT-4o zu verwenden,
kann man es wie folgt implementieren.

🔹 TypeScript-Beispiel

Durch die Verwendung von Function Call kann LLM
nicht nur einfachen Text generieren,
sondern sich zu einer **"wirklich nützlichen KI"** entwickeln, die tatsächlich Funktionen ausführt.

Agentica

Das detaillierte Ausfüllen von Argumentwerten für Function Call kann sehr mühsam sein.
Daher verwenden Vercel ai und LangChain die Bibliothek zod,
um ein Validation Feedback durchzuführen, ob die von LLM zurückgegebenen Argumentwerte korrekt sind.

So wird ein genauer Function Call durchgeführt.

Es ist jedoch unvermeidlich mühsam, die Argumentwerte komplexer Funktionen einzeln mit zod zu erstellen,
und Entwickler empfinden dies möglicherweise als"lästig".

Daher empfehle ich die BibliothekAgentica.

Mit diesem einfachen Code wurden die Funktionen in den drei Klassen und die Endpunkte von Swagger
als Function Call festgelegt und automatisch während des Gesprächs aufgerufen.

Dadurch wurde ein einfacher"Chatbot-Agent"erstellt.

Der Umgang mit LLM und KI wird immer einfacher.
Es ist wirklich beängstigend, wie weit die Technologie fortgeschritten ist.