LLM для младших школьников

Язык написания: Корейский
•
Страна: Все страны
•
ИТ

Создано: 2025-03-04

Создано: 2025-03-04 21:53

Самый горячий тренд в индустрии сегодня — это LLM.
Появляются всё новые модели, такие как Claude 3.5, Grok3,
и растёт число сервисов, использующих LLM, например, Rytr и Zeta.

Как разработчику, мне рано или поздно придётся интегрировать LLM в наш сервис,
поэтому лучше заранее разобраться с базовыми понятиями, чтобы не растеряться!
Поэтому я решил систематизировать ключевые термины.

LLM

LLM (Large Language Model) — это, проще говоря,
"ИИ, который понимает текстовый ввод и отвечает текстом".
Типичными примерами таких моделей являются GPT-4o, Claude 3 и Grok3.

Сегодня LLM — это не просто генерация предложений,
они выполняют широкий спектр задач: кодирование, анализ изображений, решение математических уравнений.
Пожалуй, настала эра использования ИИ разработчиками как инструмента.

Tool Call, Function Call

LLM может не только отвечать на вопросы,
но и "вызывать необходимые инструменты для выполнения задач".

Например,

пользователь запрашивает: "Вычисли это число",
LLM запрашивает вызов API калькулятора,
и результат передаётся пользователю.

Однако LLM не вызывает API напрямую,
сам вызов мы должны реализовать в коде ㅜㅜ

RAG (Retrieval-Augmented Generation)

Как бы ни был умен LLM,
он генерирует ответы только на основе уже загруженных данных.
А как получить доступ к последним новостям или внутренним документам компании?

Здесь необходим RAG.

Сначала необходимая информация извлекается (Retrieval) из внешней базы данных,
и на её основе формируется ответ (Generation).

Таким образом, LLM может учитывать самую свежую информацию.

То есть, до того, как LLM даст ответ, ему предоставляются необходимые данные, и ответ формируется на их основе или с их использованием —
всё это называется RAG.

4B, 8B, 308B? Что означают эти числа?

В описаниях моделей LLM часто встречаются числа, такие как 8B, 70B.
Это количество параметров (Parameter) модели, на которых она обучалась.

8B (8 миллиардов) → лёгкая модель, быстрая
308B (308 миллиардов) → очень большая модель, но медленная

Чем больше модель, тем она точнее, но выше затраты на вычисления и время обработки.
Сейчас тренд — использовать лёгкие модели.

Чем тяжелее модель, тем медленнее скорость ответа,
что ведёт к увеличению оттока пользователей.

Мульти-агент (Multi-Agent)

LLM не всегда обрабатывает всё самостоятельно,
иногда используются несколько небольших ИИ (агентов), работающих сообща.

Например:

один отвечает за кодирование,
другой — за анализ данных,
третий — за упорядочение документов.

Такое разделение задач позволяет увеличить скорость и точность ответов.
Схоже с работой в компании, не правда ли? Кто-то занимается фронтендом, кто-то бэкендом...

Validation Feedback (проверка обратной связи)

LLM не всегда даёт правильные ответы.
Он может ошибаться.

Поэтому необходима Validation Feedback.

Если пользователь указывает на правильность или ошибочность ответа LLM,
модель становится всё умнее.

Это можно автоматизировать, создав систему самообучения LLM.

Или, если определён формат Function Call или ответа,
можно принудительно заставить его следовать этому формату.

Использование Function Call в OpenAI

Для использования Function Call с GPT-4o от OpenAI можно реализовать следующий код.
Пример реализации на TypeScript:

Используя Function Call таким образом,
LLM может не только генерировать текст,
но и выполнять реальные функции, становясь действительно "полезным ИИ".

Agentica

Детальное заполнение аргументов Function Call может быть очень утомительным.
Поэтому такие инструменты, как Vercel ai и LangChain, используют библиотеку zod для
проверки правильности аргументов, возвращаемых LLM, и предоставления Validation Feedback.

Таким образом обеспечивается высокая точность Function Call.

Однако поштучное создание схем с помощью zod для сложных функций — это очень утомительное занятие,
и разработчики могут почувствовать, что это "мелочная работа".

Поэтому я рекомендую библиотеку Agentica.

С помощью такого простого кода функции трёх классов и конечные точки swagger
были определены как Function Call, и их автоматический вызов при разговоре был настроен.

Таким образом был создан простой "чат-бот-агент".

Таким образом, работа с LLM и ИИ становится всё проще.
Удивительно, насколько быстро развиваются технологии.

Тема

#ИИ
#LLM
#RAG
#Многоагентный подход (Multi-Agent)
#Вызов функции (Function Call)

Краткое содержание от durumis

LLM (большая языковая модель) — это ИИ, который понимает и генерирует текст, выполняя различные задачи, такие как кодирование и анализ изображений. Функции Tool Call и RAG (поиск с усилением генерации) повышают эффективность и использование актуальной информации.
Размер модели определяется количеством параметров (например, 8B, 308B). Легкие модели выгодны по скорости и стоимости, а многоагентный подход улучшает точность и скорость за счет совместной работы нескольких ИИ.
Постоянное обучение и улучшение с помощью обратной связи (Validation Feedback), а также упрощенная реализация вызова функций (Function Call) с использованием таких библиотек, как Agentica, повышают удобство использования LLM.