Header Ads

  • Breaking News

    Phần cứng AI được xây dựng từ quan điểm ưu tiên phần mềm: Kiến trúc Silicon linh hoạt của Groq

    Groq, một công ty khởi nghiệp bán dẫn có nguồn gốc phần mềm, đã phát triển một đơn vị xử lý mới với kiến ​​trúc độc đáo cung cấp các giải pháp suy luận để tăng tốc AI.
    Các công ty khởi nghiệp trong ngành bán dẫn thường được thành lập bởi các kỹ sư phần cứng, những người phát triển kiến ​​trúc silicon và sau đó tìm ra cách ánh xạ phần mềm cho phần cứng cụ thể đó.
    Đây là câu chuyện về một công ty khởi nghiệp chip được thành lập trong thời đại trí tuệ nhân tạo (AI) có DNA phần mềm.

    Tiếp cận Phần cứng AI từ Góc độ Phần mềm

    Groq được thành lập vào năm 2016 bởi một nhóm kỹ sư phần mềm muốn giải quyết các vấn đề về AI từ phía phần mềm. Khi họ tiếp cận vấn đề mà không có bất kỳ định kiến ​​nào về kiến ​​trúc AI có thể cần trông như thế nào, họ đã có thể tạo ra một kiến ​​trúc có thể được ánh xạ tới các mô hình AI khác nhau.
    Công ty tập trung vào thị trường suy luận cho trung tâm dữ liệu và xe tự hành, và sản phẩm đầu tiên của họ là thẻ cắm PCIe mà Groq đã thiết kế bộ tăng tốc ASIC và AI và phát triển phần mềm.
    Một phần của phần cứng này được họ gọi là bộ xử lý phát trực tuyến TSP hoặc tensor. Tháng trước, Groq đã thông báo rằng kiến trúc TSP của họ có khả năng thực hiện một triệu (1.000.000.000.000.000) hoạt động mỗi giây .

    Bộ xử lý dòng chảy Tensor (TSP) của Groq hiển thị trên bảng PCIe do Mountain View hiện đang cung cấp. Hình ảnh được sử dụng lịch sự của Groq.

    Kiến trúc TSP tận dụng hiệu quả tính toán tăng lên và cho phép cả tính linh hoạt hơn so với GPU và CPU hiện tại cũng như dấu chân silicon nhỏ hơn.

    Kiến trúc Silicon độc đáo dành cho thiết bị bán dẫn AI

    Bên cạnh nguồn gốc phần mềm, theo giám đốc điều hành Adrian Mendes, điều khác biệt ở Groq là kiến ​​trúc silicon của nó. Thiết kế chip lõi của thiết bị bán dẫn AI của Groq rất không giống với quy trình pipelined thường được sử dụng trong GPU đa lõi hoặc FPGA.
    Cách nó đã được phát triển từ rất sớm là nó bắt đầu với trình biên dịch, vì vậy các nhà thiết kế có thể xem các mô hình học máy (ML) khác nhau trông như thế nào và tối ưu hóa những gì xuất hiện từ chúng. Từ đó, họ có thể phát triển một phần cứng trên một kiến ​​trúc có tính linh hoạt cao.
    Groq tuyên bố rằng kiến ​​trúc silicon này có ba ưu điểm riêng biệt:
    • Tính linh hoạt trong các mô hình AI
    • Chống lại tương lai cho các mô hình AI sắp tới thông qua tối ưu hóa dựa trên phần mềm
    • Thông tin thêm về nhu cầu biên dịch
    Với kiến ​​trúc AI rất linh hoạt, các nhà thiết kế không cần phải ánh xạ nó tới các mạng nơ-ron như ResNet-50 hoặc bộ nhớ ngắn hạn dài (LSTM). Thay vào đó, họ có thể sử dụng kiến ​​trúc này đủ chung và có khả năng mở rộng để phù hợp với các mô hình mới do cộng đồng nghiên cứu tạo ra. Sau đó, kiến ​​trúc có khả năng PetaOp có thể được tối ưu hóa cho các mô hình đó mà không cần phải thực hiện bất kỳ thay đổi nào trong phần cứng.

    Bản trình bày khái niệm phần cứng do phần mềm định nghĩa của Groq để cải thiện hiệu quả tính toán. Hình ảnh từ báo cáo chính thức của Groq " Kiến trúc truyền trực tuyến căng thẳng mang lại hiệu suất chưa từng có cho khối lượng công việc nặng nề "
     
    Nói cách khác, đó là một phần cứng có thể chứa các mô hình AI mà chúng ta thậm chí chưa thấy và việc tối ưu hóa có thể được thực hiện trong ngăn xếp phần mềm. Bên cạnh tính linh hoạt, chip AI cung cấp thông lượng suy luận cao và độ trễ rất thấp cho các mô hình AI khác nhau.
    Đặc điểm quan trọng thứ ba là chip có tính xác định đối với số chu kỳ. Như Mendes giải thích, điều đó có nghĩa là khi một kỹ sư học máy lấy một chương trình và đẩy nó qua trình biên dịch, anh ta hoặc cô ta sẽ biết ngay chương trình đó sẽ chạy trong bao lâu.
    Vì vậy, các kỹ sư có thể hiểu mức tiêu thụ điện năng của họ, cho dù họ muốn tối ưu hóa độ trễ hay thông lượng và cách thay đổi thiết kế cho từng thông số khác nhau này. Và họ có thể làm điều này trong khoảng thời gian cần để biên dịch (không dài lắm).
    Bây giờ hãy so sánh điều này với một cách tiếp cận mà các kỹ sư phải chạy phần cứng hàng nghìn lần và xem độ trễ là gì. Và điều đó tổng hợp lại lợi ích của thuyết quyết định chip.

    Dòng dõi TPU của Google

    Nếu thuật ngữ "tensor" nghe quen thuộc trong ngữ cảnh phần cứng AI, có thể là do Google đã giới thiệu đơn vị xử lý tensor (TPU) như một khái niệm vào năm 2016. ASIC (mạch tích hợp dành riêng cho ứng dụng) này được thiết kế cho AI, cho phép tài nguyên- xử lý AI đói được thực hiện trên đám mây.
    Các TPU của Google đã thiết lập một số mốc quan trọng cho việc tăng tốc AI. Ví dụ: vào năm 2018, Google đã giới thiệu TPU thế hệ thứ ba của họ bằng cách có một chương trình AI gọi các nhà hàng và tiệm làm tóc trong thế giới thực để thay mặt người dùng đặt lịch hẹn — mà người ở đầu dây bên kia không thể nói rằng họ đang nói chuyện với một cái máy. Dự án này được mệnh danh là Google Duplex .
    Grog đã được hưởng lợi từ công việc của Google theo cách khá trực tiếp khi người đồng sáng lập và Giám đốc điều hành, Jonathan Ross, đã giúp phát triển TPU của Google trong nhóm kiến ​​trúc của họ.

    Jonathan Ross, Giám đốc điều hành và đồng sáng lập Groq. Hình ảnh được sử dụng do Groq cung cấp

    Ross đã tham gia vào các sáng kiến ​​nghiên cứu của Google trong việc phát triển TPU, bao gồm một nghiên cứu năm 2017 về việc sử dụng TPU trong các ứng dụng trung tâm dữ liệu , tập trung vào việc phát triển các kiến ​​trúc cho mạng nơ-ron phức hợp (CNN).
    Nền tảng này đã chứng minh nền tảng cho công việc của Ross với Groq khi công ty đã đạt được những bước tiến trong kiến ​​trúc silicon cho phần cứng tăng tốc AI.



    Kinh nghiệm của bạn với tăng tốc AI là gì? Bạn đã sử dụng TPU của Google trên đám mây chưa? Chia sẻ suy nghĩ của bạn về công nghệ đang phát triển này trong phần bình luận bên dưới.

    Không có nhận xét nào

    Post Top Ad

    ad728

    Post Bottom Ad

    ad728