Тема
- #ИИ
- #LLM
- #RAG
- #Многоагентный подход (Multi-Agent)
- #Вызов функции (Function Call)
Создано: 2025-03-04
Создано: 2025-03-04 21:53
Самый горячий тренд в индустрии сегодня — это LLM.
Появляются всё новые модели, такие как Claude 3.5, Grok3,
и растёт число сервисов, использующих LLM, например, Rytr и Zeta.
Как разработчику, мне рано или поздно придётся интегрировать LLM в наш сервис,
поэтому лучше заранее разобраться с базовыми понятиями, чтобы не растеряться!
Поэтому я решил систематизировать ключевые термины.
LLM (Large Language Model) — это, проще говоря,
"ИИ, который понимает текстовый ввод и отвечает текстом".
Типичными примерами таких моделей являются GPT-4o, Claude 3 и Grok3.
Сегодня LLM — это не просто генерация предложений,
они выполняют широкий спектр задач: кодирование, анализ изображений, решение математических уравнений.
Пожалуй, настала эра использования ИИ разработчиками как инструмента.
LLM может не только отвечать на вопросы,
но и "вызывать необходимые инструменты для выполнения задач".
Например,
Однако LLM не вызывает API напрямую,
сам вызов мы должны реализовать в коде ㅜㅜ
Как бы ни был умен LLM,
он генерирует ответы только на основе уже загруженных данных.
А как получить доступ к последним новостям или внутренним документам компании?
Здесь необходим RAG.
Таким образом, LLM может учитывать самую свежую информацию.
То есть, до того, как LLM даст ответ, ему предоставляются необходимые данные, и ответ формируется на их основе или с их использованием —
всё это называется RAG.
В описаниях моделей LLM часто встречаются числа, такие как 8B, 70B.
Это количество параметров (Parameter) модели, на которых она обучалась.
Чем больше модель, тем она точнее, но выше затраты на вычисления и время обработки.
Сейчас тренд — использовать лёгкие модели.
Чем тяжелее модель, тем медленнее скорость ответа,
что ведёт к увеличению оттока пользователей.
LLM не всегда обрабатывает всё самостоятельно,
иногда используются несколько небольших ИИ (агентов), работающих сообща.
Например:
Такое разделение задач позволяет увеличить скорость и точность ответов.
Схоже с работой в компании, не правда ли? Кто-то занимается фронтендом, кто-то бэкендом...
LLM не всегда даёт правильные ответы.
Он может ошибаться.
Поэтому необходима Validation Feedback.
Это можно автоматизировать, создав систему самообучения LLM.
Или, если определён формат Function Call или ответа,
можно принудительно заставить его следовать этому формату.
Для использования Function Call с GPT-4o от OpenAI можно реализовать следующий код.
Пример реализации на TypeScript:
Используя Function Call таким образом,
LLM может не только генерировать текст,
но и выполнять реальные функции, становясь действительно "полезным ИИ".
Детальное заполнение аргументов Function Call может быть очень утомительным.
Поэтому такие инструменты, как Vercel ai и LangChain, используют библиотеку zod для
проверки правильности аргументов, возвращаемых LLM, и предоставления Validation Feedback.
Таким образом обеспечивается высокая точность Function Call.
Однако поштучное создание схем с помощью zod для сложных функций — это очень утомительное занятие,
и разработчики могут почувствовать, что это "мелочная работа".
Поэтому я рекомендую библиотеку Agentica.
С помощью такого простого кода функции трёх классов и конечные точки swagger
были определены как Function Call, и их автоматический вызов при разговоре был настроен.
Таким образом был создан простой "чат-бот-агент".
Таким образом, работа с LLM и ИИ становится всё проще.
Удивительно, насколько быстро развиваются технологии.
Комментарии0