News Nâng cao những sáng kiến AI / DL với Hệ thống Dell EMC Isilon, PowerSwitch và NVIDIA DGX

Thảo luận trong 'Tin công nghệ' bắt đầu bởi minhduongpro, 29/10/20.

  1. minhduongpro PageRank 2 Member

    Tham gia ngày:
    21/7/17
    Trong vài năm qua, Dell Technologies và NVIDIA đã giúp những quý khách chung của chúng tôi theo dõi nhanh những sáng kiến Trí tuệ nhân tạo và Học sâu của họ. Đối với các người muốn tận dụng ngăn xếp phần cứng và phần mềm đã được xác thực trước cho DL, chúng tôi cung cấp Giải pháp sẵn sàng cho AI: Học sâu với NVIDIA của Dell EMC , cũng có tính năng lưu trữ Dell EMC Isilon All-Flash. Đối sở hữu những doanh nghiệp thích xây dựng giải pháp của riêng họ, chúng tôi cung ứng dòng Dell EMC PowerEdge C siêu dày đặc , sở hữu GPU NVIDIA V100 Tensor Core, cho phép mở mang các giải pháp AI từ bốn tới hàng trăm GPU trên mỗi cụm. Chúng tôi cũng cung cấp máy chủ Dell EMC DSS 8440 , hỗ trợ tối đa 10 NVIDIAV100 GPU hoặc 16 NVIDIA T4 tensor lõi GPU . Sự cộng tác của chúng tôi được xây dựng dựa trên triết lý sản xuất sự linh hoạt và sự lựa tậu minh mẫn trên một danh mục đầu tư rộng lớn, hài hòa giữa máy tính nâng cao tốc GPU phải chăng nhất, bộ nhớ mở mang và mạng.

    Để cung ứng cho những tổ chức sự linh hoạt hơn nữa trong phương pháp họ triển khai AI từ hộp cát tới phân phối với hiệu suất đột phá cho AI quy mô lớn, Dell Technologies và NVIDIA sắp đây đã cộng tác trên một kiến trúc tham chiếu mới cho khối lượng công tác AI và DL hài hòa Dell EMC Isilon F800 tất cả- flash mở rộng quy mô NAS, công tắc Dell EMC PowerSwitch S5232F-ON và hệ thống NVIDIA DGX-2.

    Các thành phần chính của kiến trúc tham chiếu bao gồm:

    • Bộ lưu trữ NAS hoàn toàn flash Dell EMC Isilon cung cấp quy mô (lên đến 58 PB), hiệu suất (lên tới 945 GB / s) và song song (lên tới hàng triệu kết nối) để cái bỏ nút thắt cổ chai I / O lưu trữ giữ tất cả các lớp tính toán đói dữ liệu được cung ứng để nâng cao tốc khối lượng công tác AI trên quy mô lớn. Một cụm Isilon độc nhất với thể chứa 1 tầng toàn flash để có hiệu suất cao và 1 tầng HDD để mang giá tiền rẻ hơn và những tệp có thể được tự động di chuyển qua các tầng để thông minh hóa hiệu suất và tầm giá trong suốt vòng đời phát triển AI.
    • Các PowerSwitch S5232F-ON là 1 công tắc sở hữu 32 QSFP28 cổng mang thể cung cấp 40 GbE và 100 kết nối GbE 1 RU. Dòng này tương trợ RDMA qua Ethernet tập trung (RoCE), cho phép GPU giao du với NIC trực tiếp trên bus PCIe mà không nên CPU. Cả RoCE v1 và v2 đều được hỗ trợ.
    • Hệ thống NVIDIA DGX-2 bao gồm phần cứng và phần mềm tích hợp toàn bộ được xây dựng nhằm mục đích phát triển AI và tập huấn hiệu suất cao trên quy mô lớn. Mỗi hệ thống DGX-2 được phân phối năng lượng bởi 16 GPU NVIDIA V100 Tensor Core được kết nối có nhau bằng kỹ thuật NVIDIA NVSwitch, sản xuất kết cấu băng thông cực cao, độ trễ phải chăng cho giao du giữa những GPU.
    >>> Xem thêm: bán máy trạm HP Z6 G4 tại hà nội

    Phương pháp điểm chuẩn

    Để xác thực kiến trúc tham chiếu mới, chúng tôi đã chạy các điểm chuẩn phân chiếc hình ảnh theo tiêu chuẩn ngành bằng cách dùng tập dữ liệu 22 TB để mô phỏng khối lượng công tác đào tạo trong thế giới thực. Chúng tôi đã sử dụng ba hệ thống DGX-2 (tổng số 48 GPU) và tám nút Isilon F800 được kết nối duyệt 1 cặp công tắc PowerSwitch S5232F-ON. Các điểm chuẩn khác nhau từ TensorFlow Benchmarkskho lưu trữ đã được thực thi. Bộ tiêu chuẩn này thực hiện tập huấn mạng nơ-ron tích hợp phân cái hình ảnh (CNN) trên những hình ảnh được gắn nhãn. Về cơ bản, hệ thống chọn hiểu xem một hình ảnh với đựng mèo, chó, ô tô, xe lửa, v.v. Tập dữ liệu hình ảnh ILSVRC2012 nức tiếng (thường được gọi là ImageNet) đã được tiêu dùng hay không. Tập dữ liệu này chứa khoảng 1,3 triệu hình ảnh đào tạo trong 148 GB. Bộ dữ liệu này thường được những nhà nghiên cứu DL dùng cho những nghiên cứu so sánh và đo điểm chuẩn. Để ước tính hiệu suất của kiến trúc tham chiếu này cho những tập dữ liệu lớn hơn đa dạng 148 GB, tập dữ liệu đã được nhân đôi 150 lần, tạo ra 1 tập dữ liệu 22 TB.

    Để xác định xem mạng hoặc bộ nhớ mang thúc đẩy đến hiệu suất hay không, chúng tôi đã chạy những điểm chuẩn y sì nhau trên tập dữ liệu gốc 148 GB. Sau kỷ nguyên đầu tiên, đa số tập dữ liệu được lưu vào bộ nhớ đệm trong hệ thống DGX-2 và các lần chạy tiếp theo không mang I / O lưu trữ. Các kết quả này được gắn nhãn Linux Cache trong phần tiếp theo.

    >>> Xem thêm: nơi bán ssd sam sung pm883

    Kết quả điểm chuẩn

    Dựa trên việc tiêu dùng mạng nhàng nhàng 15 giây cho những liên kết mạng RoCE, có vẻ như các liên kết đã sử dụng ít hơn 80 MB / giây (640 Mbps) trong ResNet-50. Tuy nhiên, điều này là vô cùng sai lầm. Chúng tôi đã đo việc sử dụng mạng mang độ chuẩn xác mili giây và vẽ biểu đồ trong hình bên dưới. Điều này cho thấy mức tăng đột biến định kỳ lên tới 60 Gbps trên mỗi kết liên trên mỗi hướng. Đối với VGG-16, chúng tôi đo được đỉnh là 80 Gbps (không được hiển thị).Điểm chuẩn lưu trữ TensorFlow

    Để hiểu những dừng của Isilon lúc được tiêu dùng có TensorFlow, 1 ứng dụng TensorFlow đã được tạo ( TensorFlow Storage Benchmark ) chỉ đọc các tệp TFRecord (cùng một ứng dụng được tiêu dùng để đào tạo). Không với tiền xử lý cũng như tính toán GPU được thực hiện. Công việc duy nhất được thực hiện là đếm số byte trong mỗi TFRecord. Ứng dụng này cũng với tùy mua đồng bộ hóa tất cả trình đọc sau mỗi đợt ghi, buộc chúng cần đi cùng tốc độ. Tùy chọn này đã được kích hoạt để mô phỏng thấp hơn khối lượng công việc đào tạo DL hoặc ML.

    Với khối lượng công tác chỉ lưu trữ này, tốc độ đọc tối đa thu được từ tám nút Isilon là 24,772 MB / giây. Vì Isilon đã được chứng minh là mở mang đến 252 nút, thông lượng bổ sung có thể đạt được chỉ đơn thuần bằng bí quyết thêm những nút Isilon.

    Phần kết luận

    Dưới đây là 1 số phát hiện chính từ thí điểm của chúng tôi về kiến trúc tham chiếu hệ thống Isilon, PowerSwitch và NVIDIA DGX-2:

    • Đạt được kết quả hiệu suất quyến rũ trên các điểm chuẩn DL tiêu chuẩn của ngành từ 16 đến 48 GPU mà không bị suy giảm thông lượng hoặc hiệu suất
    • Khả năng mở mang tuyến tính từ 16 đến 48 GPU trong khi vẫn giữ các GPU được chốt ở mức sử dụng> 97%
    • Hệ thống Isilon F800 có thể chế tạo hơn 24 GB / giây đọc đồng bộ , đây là điển hình của khối lượng công tác tập huấn DL hoặc ML
    Các giải pháp DL dựa trên Dell EMC Isilon cung ứng dung lượng, hiệu suất và tính song song cao để chiếc bỏ tắc nghẽn lưu trữ I / O cho AI. Điều này cung ứng nền tảng vững chắc cho những giải pháp DL cấp doanh nghiệp, quy mô lớn, sẵn sàng cung ứng mang kiến trúc mở rộng quy mô chứng cứ trong mai sau đáp ứng nhu cầu AI của bạn ngày nay.

    >>> Xem thêm: Ram SamSung 32GB DDR4 tại hà nội
     
    #1

Chia sẻ trang này