Từ Prompt Engineer Sang Agent Engineering
Prompt không biến mất, nhưng nó không còn là trung tâm của hệ thống AI hiện đại
Trong giai đoạn đầu của AI tạo sinh, nhiều tổ chức xem năng lực AI là năng lực viết prompt. Ai mô tả yêu cầu rõ hơn thì nhận được câu trả lời tốt hơn. Cách nhìn đó đúng với thử nghiệm cá nhân, nhưng bắt đầu thiếu khi doanh nghiệp muốn AI xử lý công việc thật: đọc dữ liệu, gọi công cụ, tự kiểm tra, sửa lỗi, lưu vết và biết khi nào phải dừng.
Điểm chuyển dịch quan trọng của năm 2025-2026 là từ prompt engineering sang agent engineering. Prompt vẫn quan trọng, nhưng chỉ là một phần trong kiến trúc lớn hơn gồm:
- Reasoning loop (Vòng lặp suy luận)
- Autonomous agent (Tác nhân tự chủ)
- Multi-agent system (Hệ thống đa tác nhân)
- Orchestration. (Phối hợp vận hành)
Theo McKinsey, 62% tổ chức được khảo sát đã ít nhất thử nghiệm AI agent, trong đó 23% đang mở rộng agentic AI ở một phần doanh nghiệp. (Nguồn: McKinsey, The State of AI 2025)
Agent engineering không thay prompt engineering. Nó đặt prompt vào đúng vị trí: một giao diện điều khiển trong hệ thống có vòng lặp, công cụ, kiểm tra, bộ nhớ và giám sát.

Agent engineering khác gì với Prompt engineering?
Agent engineering là cách thiết kế hệ thống AI có thể nhận mục tiêu, chia việc, dùng công cụ, quan sát kết quả, đánh giá đầu ra và điều chỉnh hành động qua nhiều bước. Nếu prompt engineering tối ưu một lần gọi mô hình, agent engineering tối ưu toàn bộ chuỗi ra quyết định.
Anthropic phân biệt workflow và agent khá rõ: workflow dùng mô hình và công cụ theo đường đi định nghĩa sẵn; agent là hệ thống trong đó mô hình tự điều hướng quy trình và cách dùng công cụ để hoàn thành nhiệm vụ. (Nguồn: Anthropic, Building Effective Agents, 2024)
Một prompt có thể yêu cầu AI “hãy viết test case cho tính năng thanh toán”. Một agent có thể đọc yêu cầu sản phẩm, xem code diff, chọn bộ kiểm thử hồi quy liên quan, tạo test case, chạy kiểm tra, ghi nhận lỗi và chuyển trường hợp chưa chắc chắn cho QA Lead.
| Khía cạnh | Prompt engineering | Agent engineering |
|---|---|---|
| Trọng tâm | Cách hỏi, ngữ cảnh, định dạng đầu ra và ràng buộc câu trả lời. | Vai trò agent, công cụ được dùng, tiêu chí đánh giá, quyền hạn và điểm dừng. |
| Đơn vị tối ưu | Một lần gọi mô hình hoặc một đoạn hội thoại ngắn. | Toàn bộ workflow gồm lập kế hoạch, thực thi, kiểm tra, sửa và bàn giao. |
| Cách xử lý lỗi | Sửa prompt rồi chạy lại thủ công. | Dùng reasoning loop, evaluator và verifier để phát hiện lỗi trong quá trình chạy. |
| Vai trò của con người | Người nhập yêu cầu và đánh giá kết quả cuối. | Người thiết kế policy, phê duyệt ngoại lệ và giám sát trace. |
| Orchestration | Thường không cần, hoặc chỉ ở mức chuỗi prompt đơn giản. | Điều phối thứ tự, vòng lặp, handoff và điểm phê duyệt giữa các agent. |
OpenAI cũng đặt trọng tâm vào orchestration, handoff, guardrail và tracing khi giới thiệu Responses API và Agents SDK. (Nguồn: OpenAI, New tools for building agents, 2025)
Reasoning loop biến lỗi thành tín hiệu sửa lỗi như thế nào?
Reasoning loop là vòng lặp trong đó agent không chỉ tạo đầu ra, mà còn quan sát phản hồi từ môi trường, kiểm tra kết quả, phát hiện điểm sai và thử lại. Một vòng lặp tối thiểu thường có năm bước: nhận mục tiêu, lập kế hoạch, thực thi, đánh giá, rồi sửa hoặc dừng.
Trong coding agent, bước đánh giá có thể là chạy test. Trong QA agent, đó có thể là kiểm tra coverage, so sánh yêu cầu với test case, hoặc phát hiện vùng rủi ro chưa được kiểm thử.
Cơ chế này có cơ sở nghiên cứu. Paper Self-Refine cho thấy việc để mô hình tự tạo phản hồi và tinh chỉnh lặp có thể cải thiện trung bình khoảng 20 điểm phần trăm tuyệt đối trên nhiều tác vụ so với sinh một lần. (Nguồn: Self-Refine, 2023) Paper Reflexion cũng cho thấy language agent có thể cải thiện bằng phản hồi ngôn ngữ và bộ nhớ kinh nghiệm, không cần cập nhật trọng số mô hình; trên HumanEval, Reflexion báo cáo 91% pass@1 trong thiết lập của paper. (Nguồn: Reflexion, NeurIPS 2023)
Lỗi của agent không nên bị xem là sự cố cuối cùng. Trong thiết kế tốt, lỗi là dữ liệu đầu vào cho vòng sửa tiếp theo.

Multi-agent system tự sửa lỗi cho nhau bằng cách phân vai
Trong hệ thống đơn agent, cùng một mô hình thường phải hiểu yêu cầu, lập kế hoạch, viết kết quả, kiểm tra, sửa và quyết định dừng. Vấn đề là mỗi vai trò đòi hỏi một kiểu chú ý khác nhau. Người viết thường dễ bỏ sót lỗi của chính mình; mô hình cũng vậy.
Multi-agent system giải bài toán này bằng cách phân tách trách nhiệm. Một agent tạo phương án. Agent khác kiểm tra logic. Agent thứ ba kiểm tra dữ liệu và nguồn. Agent thứ tư đánh giá rủi ro. Orchestrator tổng hợp phản hồi và quyết định vòng tiếp theo.
Anthropic gọi pattern này là evaluator-optimizer: một lời gọi mô hình tạo đầu ra, lời gọi khác đánh giá và đưa phản hồi. Microsoft AutoGen cũng tiếp cận theo hướng nhiều agent trò chuyện với nhau để xử lý tác vụ phức tạp. (Nguồn: Microsoft Research, AutoGen)
- Planner agent: chia mục tiêu thành các bước nhỏ, xác định công cụ và dữ liệu cần dùng.
- Executor agent: thực thi từng bước, gọi API, viết code, tạo test hoặc sinh nội dung.
- Critic agent: tìm lỗ hổng logic, thiếu nguồn, thiếu test hoặc giả định chưa kiểm chứng.
- Verifier agent: kiểm tra đầu ra bằng dữ liệu, test suite, schema, rule engine hoặc checklist.
- Orchestrator: quyết định agent nào chạy tiếp, khi nào sửa, khi nào dừng, khi nào cần con người phê duyệt.
Cách này không bảo đảm hoàn hảo tuyệt đối. Nó tạo kết quả gần hoàn hảo theo bộ tiêu chí đã định: đủ nguồn, đúng schema, pass test, không vi phạm policy, có log và có điểm dừng rõ ràng.
Orchestration quyết định hệ đa agent đáng tin hay chỉ ồn hơn
Khi có nhiều agent, rủi ro không giảm tự động. Nếu orchestration kém, nhiều agent chỉ tạo ra nhiều ý kiến hơn, nhiều chi phí hơn và nhiều vòng lặp hơn. Orchestration tốt phải trả lời bốn câu hỏi: ai được làm gì, dựa trên dữ liệu nào, khi nào phải dừng, và ai chịu trách nhiệm khi kết quả sai.
Gartner cảnh báo hơn 40% dự án agentic AI có thể bị hủy trước cuối năm 2027 vì chi phí tăng, giá trị kinh doanh không rõ hoặc kiểm soát rủi ro không đủ. Cùng báo cáo dự báo đến năm 2028, 15% quyết định công việc hằng ngày có thể được thực hiện tự chủ qua agentic AI, và 33% ứng dụng doanh nghiệp sẽ có agentic AI. (Nguồn: Gartner, June 2025)
Với QA và software engineering, orchestration nên có tối thiểu: phạm vi nhiệm vụ, quản lý trạng thái, evaluation gate, rule chuyển người thật và trace đủ để audit. Agent báo “đã xong” nhưng không có trace thì chưa thể đưa vào sản xuất.
Autonomous agent không có nghĩa là bỏ giám sát
Từ “autonomous agent” dễ tạo cảm giác AI có thể tự làm hết. Trong doanh nghiệp, cách hiểu đó nguy hiểm. Tự chủ nên được hiểu là tự chủ trong một phạm vi được thiết kế, không phải tự do tuyệt đối.
Gartner khảo sát IT application leaders và ghi nhận chỉ 15% đang cân nhắc, thử nghiệm hoặc triển khai fully autonomous AI agents. Dù 75% đã triển khai hoặc thử nghiệm một số dạng AI agent, mối lo về governance, maturity và agent sprawl vẫn cản trở các hệ thực sự tự chủ. Chỉ 13% đồng ý mạnh rằng họ có cấu trúc governance phù hợp để quản lý agent. (Nguồn: Gartner, September 2025)
Bước trưởng thành không phải là đưa con người ra khỏi vòng lặp. Bước trưởng thành là đặt con người ở đúng điểm: định nghĩa mục tiêu, thiết kế tiêu chí, phê duyệt ngoại lệ và cải tiến hệ thống sau khi quan sát log.

Thế giới nói chung, Việt Nam nói riêng: tác động nằm ở năng lực thiết kế workflow
Trên thế giới, agentic AI đang chuyển từ demo sang workflow thật, nhưng phần lớn doanh nghiệp vẫn ở giai đoạn thử nghiệm. McKinsey ghi nhận gần 88% tổ chức sử dụng AI thường xuyên ở ít nhất một chức năng kinh doanh, nhưng đa số chưa scale ở cấp toàn doanh nghiệp. Với AI agent, chỉ 23% đang mở rộng agentic AI ở một phần tổ chức. (Nguồn: McKinsey, 2025)
Lợi thế vì vậy không thuộc về đội “biết prompt hay” nhất, mà thuộc về đội biết chọn workflow phù hợp: xử lý ticket, QA regression, review tài liệu kỹ thuật, phân tích log, kiểm tra tuân thủ và tổng hợp tri thức nội bộ.
Ở Việt Nam, AWS và Strand Partners khảo sát năm 2025 cho biết 18% doanh nghiệp Việt Nam đã áp dụng AI, tăng từ 13% năm trước; tuy nhiên 74% vẫn tập trung vào các ứng dụng cơ bản, và 55% xem thiếu kỹ năng số là rào cản chính để mở rộng AI. (Nguồn: AWS, Unlocking Vietnam’s AI Potential, 2025)
Doanh nghiệp Việt Nam chưa cần lao ngay vào hệ autonomous agent phức tạp. Nhưng nên xây năng lực agent engineering từ bây giờ, vì khoảng cách thật sự sẽ nằm ở dữ liệu sạch, workflow rõ, tiêu chí đo được và đội ngũ biết kiểm soát agent.
Lộ trình 90 ngày để chuyển từ prompt sang agent engineering
Lộ trình khả thi không bắt đầu bằng việc mua framework lớn nhất. Anthropic khuyến nghị tìm giải pháp đơn giản nhất trước, chỉ tăng độ phức tạp khi cần vì agentic system thường đánh đổi chi phí và độ trễ để lấy hiệu năng tốt hơn. (Nguồn: Anthropic, 2024)

Ngày 1-30: chọn một workflow nhỏ và đo baseline
Chọn một workflow có đầu vào rõ, đầu ra đo được và rủi ro vừa phải: phân loại bug report, tạo test case từ user story hoặc kiểm tra tài liệu release. Trước khi dùng agent, đo baseline: thời gian xử lý, tỷ lệ lỗi, số lần cần con người sửa, chi phí và SLA.
Ngày 31-60: thiết kế reasoning loop và evaluator
Bắt đầu bằng mô hình generator-evaluator: một agent tạo kết quả, agent khác kiểm tra theo rubric. Với QA, rubric có thể gồm: yêu cầu nào chưa có test, test nào trùng, vùng rủi ro nào chưa chạm và kết quả có cần human approval không. Hãy lưu trace cho từng vòng.
Ngày 61-90: thêm orchestration và điểm dừng
Thêm rule để giới hạn số vòng lặp, giới hạn chi phí, điều kiện chuyển người thật và tiêu chí “đủ tốt để bàn giao”. Nếu workflow liên quan code, bắt buộc chạy test. Nếu liên quan dữ liệu khách hàng, bắt buộc kiểm tra quyền truy cập và masking.
Sau 90 ngày, đánh giá bằng chỉ số vận hành: cycle time giảm bao nhiêu, lỗi lọt giảm bao nhiêu, tỷ lệ output bị trả lại là bao nhiêu, chi phí mỗi workflow là bao nhiêu và con người can thiệp ở điểm nào.
Kết luận: tương lai không thuộc về prompt dài hơn, mà thuộc về hệ thống biết tự kiểm tra
Prompt engineering từng là kỹ năng cửa ngõ của AI. Nhưng khi AI bước vào quy trình sản xuất, prompt không đủ để bảo đảm chất lượng. Doanh nghiệp cần agent engineering: thiết kế agent, reasoning loop, multi-agent system, orchestration, guardrail, evaluation và trace.
Multi-agent system tạo ra giá trị không phải vì nhiều agent “thông minh” hơn một agent. Giá trị nằm ở phân vai và kiểm tra chéo. Một agent làm, một agent phản biện, một agent kiểm chứng, orchestrator quyết định vòng tiếp theo. Hệ thống tốt không giả định AI luôn đúng. Nó giả định AI có thể sai, rồi xây cơ chế để phát hiện, sửa và dừng đúng lúc.
3 điểm chính cần nhớ:
- Prompt vẫn quan trọng, nhưng trong hệ thống hiện đại nó là một phần của agent architecture, không phải toàn bộ năng lực AI.
- Reasoning loop và evaluator-optimizer giúp AI tự sửa theo tiêu chí rõ, thay vì chỉ sinh một lần rồi hy vọng đúng.
- Thế giới đang thử nghiệm agentic AI rất nhanh; Việt Nam nên bắt đầu từ workflow nhỏ, đo được, có guardrail và human approval.
Nguồn tham khảo:
- McKinsey, The State of AI in 2025: Agents, innovation, and transformation
- Gartner, Over 40% of Agentic AI Projects Will Be Canceled by End of 2027
- Gartner, Fully Autonomous AI Agents Survey, 2025
- OpenAI, New tools for building agents
- Anthropic, Building Effective Agents
- Microsoft Research, AutoGen
- Self-Refine: Iterative Refinement with Self-Feedback
- Reflexion: Language Agents with Verbal Reinforcement Learning
- AWS, Unlocking Vietnam’s AI Potential, 2025





