LLM gyerekeknek

Manapság az iparág legforróbb kulcsszava az LLM.
A Claude 3.5, a Grok3 és más hasonló modellek folyamatosan jelennek meg,
és egyre több LLM-et használó szolgáltatás is megjelenik, például a Rütten vagy a Zeta.

Fejlesztőként előbb-utóbb valószínűleg a mi szolgáltatásunkhoz is csatlakoztatni fogjuk az LLM-et,
ezért jobb, ha előre megismerjük az alapvető fogalmakat, hogy ne essünk kétségbe!
Ezért gyűjtöttem össze a legfontosabb kulcsszavakat.

LLM

Az LLM (Large Language Model), egyszerűen fogalmazva
"egy olyan AI, amely megérti a bevitt szöveget, és szöveges választ ad rá".
A GPT-4o, a Claude 3, a Grok3 és más modellek jelentik a legjobb példákat.

Manapság az LLM már nem csak szöveg generálására képes,
hanem kódolást, képanalízist, matematikai feladatok megoldását is el tudja végezni.
Úgy tűnik, eljött az idő, amikor a fejlesztők az AI-t eszközként használják.

Tool Call, Function Call

Az LLM nem csak válaszol,
"hanem kérhetjük, hogy hívjon meg egy szükséges eszközt a feladat elvégzéséhez".

Például,

ha a felhasználó azt mondja: "Számold ki ezt a számot!",
az LLM kéri, hogy hívják meg a számológép API-ját,
és az eredményt továbbítja a felhasználónak.

Az LLM azonban nem maga hívja meg az API-t,
a tényleges hívást nekünk kell kódolnunk ㅜㅜ

RAG (Retrieval-Augmented Generation)

Bármennyire is okos az LLM,
csak a már betanult adatait használja a válasz generálásához.
De hogyan hívja le a legfrissebb híreket vagy a belső dokumentumokat?

Itt jön a képbe a RAG.

Először is keres (Retrieval) a szükséges információkat egy külső adatbázisban,
majd ezekre az információkra alapozva generál (Generation) egy választ.

Így az LLM a legfrissebb információkat is figyelembe veheti.

Tehát, mielőtt az LLM válaszolna, először behelyezzük a válaszhoz szükséges anyagokat, és összefoglaljuk, vagy erre alapozva válaszolunk,
ezt mindRAG-nak nevezzük.

4B, 8B, 308B? Mit jelentenek ezek a számok?

Az LLM modelleknél gyakran látunk 8B, 70B stb. számokat.
Ez a modell betanításához felhasznált paraméterek (Parameter) számát jelenti.

8B (8 milliárd) → könnyű modell, gyors
308B (308 milliárd) → hatalmas modell, de lassú

A nagyobb modellek pontosabbak, de a sebességük és a költségük is magasabb lehet.
Manapság a könnyű modellek használata a trend.

A nehezebb modellek lassabban válaszolnak,
ezért a végfelhasználók elhagyási aránya magasabb.

Multi-Agent (Több ügynökök)

Az LLM nem egyedül végzi az összes feladatot,
hanem több kisebb AI (ügynök) együttműködik.

Például:

egyik a kódolásért felelős,
egy másik az adatelemzésért,
egy harmadik pedig a dokumentumok rendezéséért.

A feladatok felosztása gyorsabbá és pontosabbá teszi a válaszokat.
Mintha egy cég lenne: valaki frontend fejlesztő, valaki backend fejlesztő...

Validation Feedback (Érvényesítési visszajelzés)

Az LLM nem mindig ad helyes választ.
Hibás válaszokat is adhat.

Ezért van szükség Validation Feedback-re.

Ha a felhasználó visszajelzést ad arról, hogy az LLM válasza helyes vagy helytelen,
a modell egyre okosabbá válik.

Ezt automatizálva önmagát tanító LLM rendszert is létrehozhatunk.

Vagy ha a Function Call vagy a válasz formátuma rögzített,
kényszeríthetjük a formátum betartására.

Function Call használata az OpenAI-ban

Az OpenAI GPT-4o modelljének Function Call használatához
az alábbiak szerint implementálhatjuk.

🔹 TypeScript példa

A Function Call ilyen módon történő használatával
az LLM nem csak egyszerű szöveg generálására képes,
hanem tényleges funkciókat is végrehajthat, így egy **"valóban hasznos AI"**-vá válhat.

Agentica

Ezeknek a Function Call-oknak a paraméterekkel való részletes kitöltése nagyon unalmas lehet.
Ezért a Vercel ai és a LangChain, mint például a zod nevű könyvtár segítségével
ellenőrzik az LLM által visszaadott paraméterek helyességét (Validation Feedback).

Így végeznek pontos Function Call-okat.

De a bonyolult függvények paramétereinek zod-dal történő egyenkénti definiálása nagyon fáradságos lehet,
és a fejlesztők számára ez " unalomba esés" érzést kelthet.

Ezért ajánlom azAgentica könyvtárat.

Csak ennyi egyszerű kód segítségével három osztály függvényeit és a swagger végpontjait
Function Call-ként definiáltuk, és automatikusan meghívjuk őket beszélgetés közben.

Így létrehoztunk egy egyszerű "chatbot ügynököt".

Az LLM és az AI kezelése egyre egyszerűbbé válik.
Ijesztő, hogy meddig terjed a technológia fejlődése.