Mỗi kiến trúc trong số 5 loại phần cứng AI phổ biến nhất hiện nay đều thực hiện một sự đánh đổi hoàn toàn khác nhau giữa tính linh hoạt, khả năng song song hóa và cách truy cập bộ nhớ. Hiểu sự khác biệt giúp bạn hiểu tại sao không có một “chip AI” duy nhất cho tất cả mọi thứ.

CPU — Đa năng, mạnh về logic nhưng kém với phép tính lặp lại
CPU được xây dựng cho tính toán đa năng. Một số ít nhân mạnh mẽ xử lý logic phức tạp, rẽ nhánh và các tác vụ hệ thống. CPU có hệ thống bộ nhớ cache nhiều tầng và bộ nhớ chính ngoài chip (DRAM). Xuất sắc cho hệ điều hành, cơ sở dữ liệu và code nhiều điều kiện — nhưng không phù hợp với các phép tính lặp đi lặp lại như nhân ma trận.
GPU — Hàng nghìn nhân nhỏ chạy song song, thống trị training AI
Thay vì vài nhân mạnh, GPU phân tán công việc trên hàng nghìn nhân nhỏ hơn — tất cả thực thi cùng một lệnh trên các tập dữ liệu khác nhau cùng lúc. Đây là lý do GPU thống trị huấn luyện AI: khả năng song song hóa ánh xạ trực tiếp vào loại toán học mà mạng thần kinh cần.
TPU — Chuyên biệt hóa hoàn toàn cho mạng thần kinh, do Google thiết kế
TPU tiến thêm một bước về chuyên biệt hóa. Đơn vị tính toán cốt lõi là một lưới các đơn vị multiply-accumulate (MAC) — dữ liệu chảy qua theo dạng sóng. Trọng số đi vào từ một phía, kích hoạt từ phía khác, và kết quả trung gian lan truyền mà không cần quay lại bộ nhớ mỗi lần. Toàn bộ quá trình thực thi được kiểm soát bởi compiler, không phải phần cứng. Google thiết kế TPU đặc biệt cho khối lượng công việc mạng thần kinh.
NPU — Tối ưu cho thiết bị đầu cuối, tiết kiệm điện ở mức một chữ số watt
NPU là biến thể tối ưu cho thiết bị edge. Kiến trúc xây dựng quanh Neural Compute Engine với các mảng MAC và SRAM trên chip — nhưng thay vì bộ nhớ băng thông cao (HBM), NPU dùng bộ nhớ hệ thống tiết kiệm điện. Mục tiêu thiết kế: chạy inference trong ngân sách điện năng một chữ số watt — dành cho smartphone, thiết bị đeo tay và IoT. Apple Neural Engine và NPU của Intel đều theo mô hình này.
LPU — Kiến trúc mới nhất của Groq: Toàn bộ trọng số nằm trên chip, độ trễ gần như bằng không
LPU (Language Processing Unit) là người mới nhất, do Groq phát triển. Kiến trúc này loại bỏ hoàn toàn bộ nhớ ngoài chip khỏi đường tới hạn. Toàn bộ trọng số mô hình được lưu trên SRAM trên chip. Thực thi hoàn toàn xác định và do compiler điều khiển — nghĩa là không bao giờ miss cache và không có overhead lập lịch runtime. Sự đánh đổi: bộ nhớ mỗi chip rất hạn chế, cần hàng trăm chip liên kết nhau để phục vụ một mô hình lớn. Nhưng lợi thế về độ trễ là có thật.
Tính toán AI đã tiến hóa từ tính linh hoạt đa năng (CPU) đến chuyên biệt hóa cực đoan (LPU). Mỗi bước đánh đổi một mức độ tổng quát để đổi lấy hiệu quả. Không có chip nào “thắng tất cả” — mỗi kiến trúc tỏa sáng ở đúng bài toán của nó.

