Trí tuệ nhân tạo tạo sinh (Generative AI) là bước ngoặt mới nhất trong cảnh quan số thay đổi nhanh chóng. Một trong những đổi mới đột phá khiến điều này trở thành hiện thực là một thuật ngữ tương đối mới:
SuperNIC.
SuperNIC là gì?
SuperNIC là một loại bộ tăng tốc mạng mới được thiết kế để tăng tốc vượt trội cho các khối lượng công việc AI quy mô lớn trong các đám mây dựa trên Ethernet. Nó cung cấp kết nối mạng nhanh như chớp cho giao tiếp giữa GPU với GPU, đạt tốc độ lên đến 400Gb/s bằng cách sử dụng công nghệ truy cập bộ nhớ trực tiếp từ xa (RDMA) qua Ethernet hội tụ (RoCE).
SuperNIC kết hợp các đặc điểm độc đáo sau:
- Sắp xếp lại gói tin tốc độ cao: Khi kết hợp với bộ chuyển mạch mạng NVIDIA, tính năng này đảm bảo các gói dữ liệu được nhận và xử lý theo đúng thứ tự ban đầu khi truyền đi, duy trì tính toàn vẹn tuần tự của luồng dữ liệu.
- Kiểm soát tắc nghẽn tiên tiến: Sử dụng dữ liệu đo từ xa thời gian thực và các thuật toán nhận biết mạng để quản lý và ngăn chặn tắc nghẽn trong các mạng AI.
- Tính toán lập trình trên đường dẫn đầu vào/đầu ra (I/O): Cho phép tùy chỉnh và mở rộng cơ sở hạ tầng mạng trong các trung tâm dữ liệu đám mây AI.
- Thiết kế tiết kiệm năng lượng, nhỏ gọn: Hỗ trợ hiệu quả các khối lượng công việc AI trong giới hạn ngân sách năng lượng hạn chế.
- Tối ưu hóa toàn diện cho AI: Bao gồm tính toán, mạng, lưu trữ, phần mềm hệ thống, thư viện giao tiếp và khung ứng dụng.
Gần đây, NVIDIA đã công bố SuperNIC đầu tiên trên thế giới được thiết kế riêng cho tính toán AI, dựa trên nền tảng mạng BlueField-3. Đây là một phần của nền tảng NVIDIA Spectrum-X, nơi nó tích hợp liền mạch với hệ thống chuyển mạch Ethernet Spectrum-4.
Cùng nhau, SuperNIC BlueField-3 của NVIDIA và hệ thống chuyển mạch Spectrum-4 tạo thành nền tảng của một cấu trúc tính toán tăng tốc được thiết kế đặc biệt để tối ưu hóa các khối lượng công việc AI. Spectrum-X liên tục mang lại mức hiệu suất mạng cao, vượt trội so với các môi trường Ethernet truyền thống.
“Trong một thế giới nơi AI đang thúc đẩy làn sóng đổi mới công nghệ tiếp theo, BlueField-3 SuperNIC là một bánh răng quan trọng trong cỗ máy,” bà Yael Shenhav, Phó Chủ tịch phụ trách sản phẩm DPU và NIC tại NVIDIA, cho biết. “SuperNIC đảm bảo rằng các khối lượng công việc AI của bạn được thực thi với hiệu quả và tốc độ, khiến chúng trở thành thành phần nền tảng để định hình tương lai của tính toán AI.”
Cảnh quan đang phát triển của AI và mạng
Lĩnh vực AI đang trải qua một sự thay đổi lớn, nhờ sự xuất hiện của trí tuệ nhân tạo tạo sinh và các mô hình ngôn ngữ lớn. Những công nghệ mạnh mẽ này đã mở ra những khả năng mới, cho phép máy tính xử lý các nhiệm vụ mới.
Thành công của AI phụ thuộc rất nhiều vào tính toán tăng tốc bằng GPU để xử lý khối lượng dữ liệu khổng lồ, huấn luyện các mô hình AI lớn và hỗ trợ suy luận thời gian thực. Sức mạnh tính toán mới này đã mở ra những khả năng mới, nhưng cũng đặt ra thách thức cho các mạng đám mây Ethernet.
Ethernet truyền thống, công nghệ nền tảng của cơ sở hạ tầng internet, được thiết kế để cung cấp khả năng tương thích rộng và kết nối các ứng dụng liên kết lỏng lẻo. Nó không được thiết kế để đáp ứng nhu cầu tính toán khắt khe của các khối lượng công việc AI hiện đại, vốn liên quan đến xử lý song song chặt chẽ, truyền dữ liệu nhanh và các mô hình giao tiếp độc đáo — tất cả đều đòi hỏi kết nối mạng tối ưu.
Các thẻ giao diện mạng (NIC) cơ bản được thiết kế cho tính toán đa năng, truyền dữ liệu chung và khả năng tương thích. Chúng không được thiết kế để đối phó với những thách thức độc đáo do cường độ tính toán của các khối lượng công việc AI đặt ra.
Các NIC tiêu chuẩn thiếu các tính năng và khả năng cần thiết để truyền dữ liệu hiệu quả, độ trễ thấp và hiệu suất xác định quan trọng cho các tác vụ AI. Ngược lại, SuperNIC được xây dựng đặc biệt cho các khối lượng công việc AI hiện đại.
Lợi thế của SuperNIC trong môi trường tính toán AI
Các đơn vị xử lý dữ liệu (DPU) mang lại nhiều tính năng tiên tiến, cung cấp kết nối mạng thông lượng cao, độ trễ thấp và hơn thế nữa. Kể từ khi ra mắt vào năm 2020, DPU đã trở nên phổ biến trong lĩnh vực điện toán đám mây, chủ yếu nhờ khả năng giảm tải, tăng tốc và cô lập xử lý cơ sở hạ tầng trung tâm dữ liệu.
Mặc dù DPU và SuperNIC có chung một loạt tính năng và khả năng, SuperNIC được tối ưu hóa đặc biệt để tăng tốc mạng cho AI. Biểu đồ dưới đây cho thấy sự so sánh giữa chúng:
Các luồng giao tiếp huấn luyện và suy luận AI phân tán phụ thuộc rất nhiều vào băng thông mạng để thành công. SuperNIC, với thiết kế mỏng nhẹ, mở rộng hiệu quả hơn DPU, cung cấp băng thông mạng ấn tượng 400Gb/s cho mỗi GPU.
Tỷ lệ 1:1 giữa GPU và SuperNIC trong một hệ thống có thể nâng cao đáng kể hiệu quả khối lượng công việc AI, dẫn đến năng suất cao hơn và kết quả vượt trội cho các doanh nghiệp.
Mục đích duy nhất của SuperNIC là tăng tốc mạng cho tính toán đám mây AI. Do đó, nó đạt được mục tiêu này với ít sức mạnh tính toán hơn so với DPU, vốn đòi hỏi tài nguyên tính toán đáng kể để giảm tải ứng dụng từ CPU chủ.
Yêu cầu tính toán giảm cũng dẫn đến tiêu thụ năng lượng thấp hơn, điều này đặc biệt quan trọng trong các hệ thống chứa tới tám SuperNIC.
Các tính năng nổi bật khác của SuperNIC bao gồm khả năng mạng chuyên dụng cho AI. Khi tích hợp chặt chẽ với bộ chuyển mạch Spectrum-4 tối ưu hóa AI của NVIDIA, nó cung cấp định tuyến thích ứng, xử lý gói tin không theo thứ tự và kiểm soát tắc nghẽn tối ưu. Những tính năng tiên tiến này đóng vai trò quan trọng trong việc tăng tốc môi trường đám mây AI Ethernet.
Cách mạng hóa tính toán đám mây AI
SuperNIC BlueField-3 của NVIDIA mang lại nhiều lợi ích khiến nó trở thành yếu tố then chốt cho cơ sở hạ tầng sẵn sàng cho AI:
- Hiệu quả tối đa cho khối lượng công việc AI: BlueField-3 SuperNIC được thiết kế đặc biệt cho tính toán song song quy mô lớn, chuyên sâu về mạng, khiến nó lý tưởng cho các khối lượng công việc AI. Nó đảm bảo các tác vụ AI chạy hiệu quả — không bị tắc nghẽn.
- Hiệu suất ổn định và dự đoán được: Trong các trung tâm dữ liệu đa người thuê nơi nhiều tác vụ được xử lý đồng thời, BlueField-3 SuperNIC đảm bảo hiệu suất của mỗi công việc và người thuê được cô lập, dự đoán được và không bị ảnh hưởng bởi các hoạt động mạng khác.
- Cơ sở hạ tầng đám mây đa người thuê an toàn: Bảo mật là ưu tiên hàng đầu, đặc biệt trong các trung tâm dữ liệu xử lý thông tin nhạy cảm. BlueField-3 SuperNIC duy trì mức độ bảo mật cao, cho phép nhiều người thuê cùng tồn tại trong khi giữ dữ liệu và xử lý riêng biệt.
- Cơ sở hạ tầng mạng mở rộng: BlueField-3 SuperNIC không bị giới hạn về phạm vi — nó rất linh hoạt và có thể thích nghi với nhiều nhu cầu cơ sở hạ tầng mạng khác.
- Hỗ trợ rộng rãi từ các nhà sản xuất máy chủ: BlueField-3 SuperNIC tích hợp liền mạch vào hầu hết các máy chủ cấp doanh nghiệp mà không tiêu tốn quá nhiều năng lượng trong các trung tâm dữ liệu.
SuperNIC.
SuperNIC là gì?
SuperNIC là một loại bộ tăng tốc mạng mới được thiết kế để tăng tốc vượt trội cho các khối lượng công việc AI quy mô lớn trong các đám mây dựa trên Ethernet. Nó cung cấp kết nối mạng nhanh như chớp cho giao tiếp giữa GPU với GPU, đạt tốc độ lên đến 400Gb/s bằng cách sử dụng công nghệ truy cập bộ nhớ trực tiếp từ xa (RDMA) qua Ethernet hội tụ (RoCE).
SuperNIC kết hợp các đặc điểm độc đáo sau:
- Sắp xếp lại gói tin tốc độ cao: Khi kết hợp với bộ chuyển mạch mạng NVIDIA, tính năng này đảm bảo các gói dữ liệu được nhận và xử lý theo đúng thứ tự ban đầu khi truyền đi, duy trì tính toàn vẹn tuần tự của luồng dữ liệu.
- Kiểm soát tắc nghẽn tiên tiến: Sử dụng dữ liệu đo từ xa thời gian thực và các thuật toán nhận biết mạng để quản lý và ngăn chặn tắc nghẽn trong các mạng AI.
- Tính toán lập trình trên đường dẫn đầu vào/đầu ra (I/O): Cho phép tùy chỉnh và mở rộng cơ sở hạ tầng mạng trong các trung tâm dữ liệu đám mây AI.
- Thiết kế tiết kiệm năng lượng, nhỏ gọn: Hỗ trợ hiệu quả các khối lượng công việc AI trong giới hạn ngân sách năng lượng hạn chế.
- Tối ưu hóa toàn diện cho AI: Bao gồm tính toán, mạng, lưu trữ, phần mềm hệ thống, thư viện giao tiếp và khung ứng dụng.
Gần đây, NVIDIA đã công bố SuperNIC đầu tiên trên thế giới được thiết kế riêng cho tính toán AI, dựa trên nền tảng mạng BlueField-3. Đây là một phần của nền tảng NVIDIA Spectrum-X, nơi nó tích hợp liền mạch với hệ thống chuyển mạch Ethernet Spectrum-4.
Cùng nhau, SuperNIC BlueField-3 của NVIDIA và hệ thống chuyển mạch Spectrum-4 tạo thành nền tảng của một cấu trúc tính toán tăng tốc được thiết kế đặc biệt để tối ưu hóa các khối lượng công việc AI. Spectrum-X liên tục mang lại mức hiệu suất mạng cao, vượt trội so với các môi trường Ethernet truyền thống.
“Trong một thế giới nơi AI đang thúc đẩy làn sóng đổi mới công nghệ tiếp theo, BlueField-3 SuperNIC là một bánh răng quan trọng trong cỗ máy,” bà Yael Shenhav, Phó Chủ tịch phụ trách sản phẩm DPU và NIC tại NVIDIA, cho biết. “SuperNIC đảm bảo rằng các khối lượng công việc AI của bạn được thực thi với hiệu quả và tốc độ, khiến chúng trở thành thành phần nền tảng để định hình tương lai của tính toán AI.”
Cảnh quan đang phát triển của AI và mạng
Lĩnh vực AI đang trải qua một sự thay đổi lớn, nhờ sự xuất hiện của trí tuệ nhân tạo tạo sinh và các mô hình ngôn ngữ lớn. Những công nghệ mạnh mẽ này đã mở ra những khả năng mới, cho phép máy tính xử lý các nhiệm vụ mới.
Thành công của AI phụ thuộc rất nhiều vào tính toán tăng tốc bằng GPU để xử lý khối lượng dữ liệu khổng lồ, huấn luyện các mô hình AI lớn và hỗ trợ suy luận thời gian thực. Sức mạnh tính toán mới này đã mở ra những khả năng mới, nhưng cũng đặt ra thách thức cho các mạng đám mây Ethernet.
Ethernet truyền thống, công nghệ nền tảng của cơ sở hạ tầng internet, được thiết kế để cung cấp khả năng tương thích rộng và kết nối các ứng dụng liên kết lỏng lẻo. Nó không được thiết kế để đáp ứng nhu cầu tính toán khắt khe của các khối lượng công việc AI hiện đại, vốn liên quan đến xử lý song song chặt chẽ, truyền dữ liệu nhanh và các mô hình giao tiếp độc đáo — tất cả đều đòi hỏi kết nối mạng tối ưu.
Các thẻ giao diện mạng (NIC) cơ bản được thiết kế cho tính toán đa năng, truyền dữ liệu chung và khả năng tương thích. Chúng không được thiết kế để đối phó với những thách thức độc đáo do cường độ tính toán của các khối lượng công việc AI đặt ra.
Các NIC tiêu chuẩn thiếu các tính năng và khả năng cần thiết để truyền dữ liệu hiệu quả, độ trễ thấp và hiệu suất xác định quan trọng cho các tác vụ AI. Ngược lại, SuperNIC được xây dựng đặc biệt cho các khối lượng công việc AI hiện đại.
Lợi thế của SuperNIC trong môi trường tính toán AI
Các đơn vị xử lý dữ liệu (DPU) mang lại nhiều tính năng tiên tiến, cung cấp kết nối mạng thông lượng cao, độ trễ thấp và hơn thế nữa. Kể từ khi ra mắt vào năm 2020, DPU đã trở nên phổ biến trong lĩnh vực điện toán đám mây, chủ yếu nhờ khả năng giảm tải, tăng tốc và cô lập xử lý cơ sở hạ tầng trung tâm dữ liệu.
Mặc dù DPU và SuperNIC có chung một loạt tính năng và khả năng, SuperNIC được tối ưu hóa đặc biệt để tăng tốc mạng cho AI. Biểu đồ dưới đây cho thấy sự so sánh giữa chúng:
Các luồng giao tiếp huấn luyện và suy luận AI phân tán phụ thuộc rất nhiều vào băng thông mạng để thành công. SuperNIC, với thiết kế mỏng nhẹ, mở rộng hiệu quả hơn DPU, cung cấp băng thông mạng ấn tượng 400Gb/s cho mỗi GPU.
Tỷ lệ 1:1 giữa GPU và SuperNIC trong một hệ thống có thể nâng cao đáng kể hiệu quả khối lượng công việc AI, dẫn đến năng suất cao hơn và kết quả vượt trội cho các doanh nghiệp.
Mục đích duy nhất của SuperNIC là tăng tốc mạng cho tính toán đám mây AI. Do đó, nó đạt được mục tiêu này với ít sức mạnh tính toán hơn so với DPU, vốn đòi hỏi tài nguyên tính toán đáng kể để giảm tải ứng dụng từ CPU chủ.
Yêu cầu tính toán giảm cũng dẫn đến tiêu thụ năng lượng thấp hơn, điều này đặc biệt quan trọng trong các hệ thống chứa tới tám SuperNIC.
Các tính năng nổi bật khác của SuperNIC bao gồm khả năng mạng chuyên dụng cho AI. Khi tích hợp chặt chẽ với bộ chuyển mạch Spectrum-4 tối ưu hóa AI của NVIDIA, nó cung cấp định tuyến thích ứng, xử lý gói tin không theo thứ tự và kiểm soát tắc nghẽn tối ưu. Những tính năng tiên tiến này đóng vai trò quan trọng trong việc tăng tốc môi trường đám mây AI Ethernet.
Cách mạng hóa tính toán đám mây AI
SuperNIC BlueField-3 của NVIDIA mang lại nhiều lợi ích khiến nó trở thành yếu tố then chốt cho cơ sở hạ tầng sẵn sàng cho AI:
- Hiệu quả tối đa cho khối lượng công việc AI: BlueField-3 SuperNIC được thiết kế đặc biệt cho tính toán song song quy mô lớn, chuyên sâu về mạng, khiến nó lý tưởng cho các khối lượng công việc AI. Nó đảm bảo các tác vụ AI chạy hiệu quả — không bị tắc nghẽn.
- Hiệu suất ổn định và dự đoán được: Trong các trung tâm dữ liệu đa người thuê nơi nhiều tác vụ được xử lý đồng thời, BlueField-3 SuperNIC đảm bảo hiệu suất của mỗi công việc và người thuê được cô lập, dự đoán được và không bị ảnh hưởng bởi các hoạt động mạng khác.
- Cơ sở hạ tầng đám mây đa người thuê an toàn: Bảo mật là ưu tiên hàng đầu, đặc biệt trong các trung tâm dữ liệu xử lý thông tin nhạy cảm. BlueField-3 SuperNIC duy trì mức độ bảo mật cao, cho phép nhiều người thuê cùng tồn tại trong khi giữ dữ liệu và xử lý riêng biệt.
- Cơ sở hạ tầng mạng mở rộng: BlueField-3 SuperNIC không bị giới hạn về phạm vi — nó rất linh hoạt và có thể thích nghi với nhiều nhu cầu cơ sở hạ tầng mạng khác.
- Hỗ trợ rộng rãi từ các nhà sản xuất máy chủ: BlueField-3 SuperNIC tích hợp liền mạch vào hầu hết các máy chủ cấp doanh nghiệp mà không tiêu tốn quá nhiều năng lượng trong các trung tâm dữ liệu.