LLM dành cho học sinh tiểu học

Từ khóa nóng nhất trong ngành hiện nay chính là LLM.
Các mô hình như Claude 3.5, Grok3 liên tục ra mắt,
và các dịch vụ sử dụng LLM như뤼튼 (Rutton) hay 제타 (Zeta) cũng ngày càng nhiều.

Với tư cách là nhà phát triển, chắc chắn rồi chúng ta cũng sẽ tích hợp LLM vào dịch vụ của mình,
vậy nên để không bị bỡ ngỡ, tốt hơn hết là nên nắm vững các khái niệm cơ bản trước!
Vì vậy, tôi đã tổng hợp lại các từ khóa chính.

LLM

LLM (Large Language Model) nói một cách đơn giản là
"AI hiểu và trả lời bằng văn bản khi được đưa vào văn bản".
Các mô hình như GPT-4o, Claude 3, Grok3 là những ví dụ tiêu biểu.

Hiện nay, LLM không chỉ đơn thuần tạo văn bản mà còn
có thể thực hiện nhiều tác vụ khác nhau như lập trình, phân tích hình ảnh, giải toán...
Có lẽ giờ đây đã là thời đại mà các nhà phát triển sử dụng AI như một công cụ rồi.

Tool Call, Function Call

LLM không chỉ đơn thuần trả lời mà còn
"có thể được yêu cầu gọi các công cụ cần thiết để hỗ trợ công việc".

Ví dụ:

Người dùng yêu cầu "Tính toán con số này".
LLM yêu cầu gọi API máy tính.
Và chuyển kết quả trả về cho người dùng.

Tuy nhiên, LLM không trực tiếp gọi API,
mà việc gọi thực tế phải do chúng ta thực hiện bằng code ㅜㅜ

RAG (Retrieval-Augmented Generation)

Cho dù LLM có thông minh đến đâu,
nó chỉ có thể tạo câu trả lời dựa trên dữ liệu đã được đào tạo.
Vậy làm thế nào để gọi các thông tin như tin tức mới nhất hoặc tài liệu nội bộ?

Lúc này cần đến RAG.

Đầu tiên, tìm kiếm (Retrieval) thông tin cần thiết từ cơ sở dữ liệu bên ngoài,
sau đó tạo câu trả lời (Generation) dựa trên thông tin đó.

Nhờ vậy, LLM có thể phản ánh cả thông tin mới nhất.

Tức là, trước khi LLM trả lời, chúng ta sẽ đưa vào các tài liệu cần thiết để trả lời, và việc tóm tắt hoặc trả lời dựa trên đó
đều được gọi là RAG.

4B, 8B, 308B? Những con số này là gì?

Khi nhìn vào các mô hình LLM, ta thường thấy các con số như 8B, 70B.
Điều này có nghĩa là số lượng tham số (Parameter) mà mô hình đã được đào tạo.

8B (8 tỷ) → Mô hình nhẹ, tốc độ nhanh
308B (308 tỷ) → Mô hình rất lớn, nhưng tốc độ chậm

Mô hình càng lớn thì càng chính xác, nhưng chi phí và tốc độ có thể là vấn đề.
Xu hướng hiện nay là sử dụng tốt các mô hình nhẹ.

Mô hình càng nặng thì tốc độ trả lời càng chậm,
dẫn đến tỷ lệ người dùng rời bỏ cao.

Đại lý đa tác nhân (Multi-Agent)

LLM không tự xử lý mọi thứ một mình,
mà sử dụng nhiều AI nhỏ (đại lý) hợp tác với nhau.

Ví dụ:

Một đại lý phụ trách lập trình
Một đại lý phụ trách phân tích dữ liệu
Một đại lý phụ trách sắp xếp tài liệu.

Việc phân chia nhiệm vụ như vậy giúp tăng tốc độ và độ chính xác của câu trả lời.
Giống như một công ty phải không? Có người làm front-end, có người làm back-end...

Phản hồi xác thực (Validation Feedback)

LLM không phải lúc nào cũng trả lời đúng.
Nó cũng có thể đưa ra câu trả lời sai.

Vì vậy, cần có Validation Feedback.

Người dùng cung cấp phản hồi về việc câu trả lời của LLM đúng hay sai,
mô hình sẽ ngày càng thông minh hơn.

Việc tự động hóa điều này có thể tạo ra hệ thống tự học của LLM.

Hoặc khi Function Call hoặc định dạng trả lời được xác định,
có thể buộc phải tuân thủ định dạng nếu không tuân thủ.

Cách sử dụng Function Call trên OpenAI

Để sử dụng Function Call với GPT-4o của OpenAI,
có thể thực hiện như sau.

🔹 Ví dụ về TypeScript

Bằng cách sử dụng Function Call như vậy,
LLM không chỉ tạo văn bản đơn giản mà còn
có thể thực hiện các chức năng thực tế, trở thành **\"AI thực sự hữu ích\"**.

Agentica

Việc điền đầy đủ các tham số cho Function Call có thể rất tốn thời gian.
Vì vậy, các thư viện như Vercel ai hay LangChain sử dụng thư viện zod để
thực hiện Validation Feedback, kiểm tra xem các tham số mà LLM trả về có chính xác hay không.

Điều đó giúp thực hiện Function Call với độ chính xác cao.

Tuy nhiên, việc viết từng schema bằng zod cho các tham số phức tạp của hàm lại rất tốn thời gian và
các nhà phát triển có thể cảm thấy \"mệt mỏi\".

Vì vậy, tôi muốn giới thiệu thư viện Agentica.

Chỉ với đoạn code đơn giản này, các hàm trong ba lớp và các endpoint của swagger đã được
định nghĩa là Function Call và tự động được gọi trong quá trình hội thoại.

Như vậy, một \"đại lý chatbot\" đơn giản đã được tạo ra.

Như vậy, lĩnh vực xử lý LLM và AI ngày càng trở nên dễ dàng hơn.
Sự phát triển của công nghệ thật đáng sợ.