Header Ads

  • Breaking News

    Tầm quan trọng của xác minh độ tin cậy trong bộ xử lý AI / ML

    Với việc áp dụng trí tuệ nhân tạo và máy học trong nhiều ứng dụng, việc xác minh độ tin cậy của bộ xử lý AI / ML là rất quan trọng vì các lỗi hỏng hóc có thể gây ra hậu quả lớn đối với tính hợp lệ và hợp pháp của công nghệ AI / ML.
    Trong vài năm gần đây, số lượng các công ty triển khai trí tuệ nhân tạo (AI) và học máy (ML) trong một loạt các ứng dụng đã tăng lên nhanh chóng. Trên thực tế, các nghiên cứu cho thấy năm 2019 là một năm kỷ lục đối với các doanh nghiệp áp dụng AI và ML và các công ty này coi hai tính năng này là cần thiết nhất để đạt được các chiến lược và mục tiêu kinh doanh của họ. Việc áp dụng ngày càng tăng này chủ yếu là do sự cải tiến trong thuật toán, tiến bộ trong thiết kế phần cứng và sự gia tăng khối lượng dữ liệu được tạo ra bởi số hóa thông tin .
    Tuy nhiên, để hỗ trợ và duy trì sự phát triển của AI / ML, các công ty phải tiếp tục chứng minh với thị trường rằng kết quả họ thu được bằng công nghệ AI / ML có thể được tin cậy. Sự tin tưởng đó bắt đầu với việc thiết kế và xác minh các mạch tích hợp (IC) làm nền tảng cho chức năng AI / ML.

    Phân loại AI và ML

    Xử lý AI có thể được phân loại rộng rãi thành trung tâm dữ liệu / dựa trên đám mây hoặc được nhúng, tùy thuộc vào việc nó được thực hiện trên trang web đám mây / trung tâm dữ liệu hay ở phía người dùng cuối (bằng cách nhúng chip AI chuyên dụng hoặc công cụ đồng xử lý AI với một hệ thống trên chip (SOC) bên trong thiết bị hoặc ở rìa). Edge trong ngữ cảnh này đề cập đến một máy chủ cục bộ hoặc một máy gần với thiết bị hơn là trung tâm dữ liệu hoặc đám mây. 
    Về ứng dụng đích, thiết bị biên có thể được phân loại thành đào tạo (ML) hoặc suy luận . Về mặt lịch sử, phần đào tạo được thực hiện trên trang web đám mây, với phần suy luận được xử lý trên đám mây hoặc trên thiết bị biên. Với sự phát triển của các giải pháp điện toán biên hiệu suất cao mới, chúng ta đang chứng kiến ​​sự thay đổi mô hình khi ngày càng có nhiều hoạt động đào tạo được chuyển sang lĩnh vực biên.

    Thiết kế chip AI / ML

    Các chip AI / ML trong các giải pháp điện toán biên hoặc được nhúng bên trong các thiết bị cục bộ được thiết kế để sử dụng trong các môi trường cụ thể, chẳng hạn như doanh nghiệp, ô tô, công nghiệp, chăm sóc sức khỏe, Internet vạn vật (IoT), v.v. Một số ứng dụng này có ý nghĩa quan trọng. bất kỳ sự thất bại nào cũng có thể dẫn đến hậu quả tai hại trong thế giới thực. Ví dụ, hãy xem xét các hệ thống hỗ trợ lái xe tiên tiến (ADAS) được sử dụng bên trong ô tô. Nếu một bộ xử lý ADAS trải qua độ trễ nhiều hơn một độ trễ nhất định trong khi đọc dữ liệu từ cảm biến và rút ra suy luận, nó có thể gây ra va chạm. 
    Các vi mạch được sử dụng trong các ứng dụng AI / ML được đặc trưng bởi các đơn vị tính toán xử lý song song lớn, công suất tiêu tán cao và mạch điện phức tạp có thể mang lại hiệu suất tối đa trong một ngân sách điện năng chặt chẽ. Trong khi một số công ty sử dụng các đơn vị xử lý trung tâm truyền thống (CPU) cho các tác vụ liên quan đến AI, một số chuyên gia trong ngành cho rằng việc sử dụng CPU không hiệu quả lắm, do tính chất phân tán của các thuật toán AI hiện đại. Các thuật toán này tự kết xuất tốt với các giải pháp tính toán song song, giống như các giải pháp được cung cấp bởi đơn vị xử lý đồ họa (GPU). Do tính chất có thể cấu hình lại của chúng, các mảng cổng có thể lập trình trường (FPGA) cũng đã thu hút sự quan tâm để sử dụng làm bộ tăng tốc cho chip AI.

    ASIC trong ứng dụng AI / ML

    Nhìn chung, ngày càng có nhiều sự đồng thuận rằng các vấn đề phức tạp của AI và ML không tạo ra được giải pháp thiết kế phù hợp với tất cả. Để giải quyết vấn đề này, nhiều công ty phát triển các IC dành riêng cho ứng dụng của họ (ASIC), mà họ tối ưu hóa kết hợp với phần mềm để mang lại giá trị tốt nhất cho một ứng dụng AI / ML nhất định (Hình 1).

    Hình 1. Sơ đồ khối cho một thiết kế chip ASIC AI.
    Hình 1. Sơ đồ khối cho một thiết kế chip ASIC AI.

    Các công ty này tuyên bố những lợi ích khác nhau từ việc sử dụng các ASIC này , chẳng hạn như hiệu suất tốt hơn, nhiều hoạt động hơn mỗi chu kỳ, thiết kế đơn giản hơn và xác định hơn so với CPU hoặc GPU, tiết kiệm diện tích (do loại trừ các cấu trúc và cơ chế phức tạp được sử dụng trong CPU), sử dụng năng lượng thấp hơn và thời gian phát triển nhanh hơn.

    Máy tính không đồng nhất

    Cũng có sự gia tăng trong việc sử dụng các hệ thống computin g không đồng nhất sử dụng kết hợp các loại lõi máy tính khác nhau nhằm nỗ lực kết hợp tốt nhất các khả năng khác nhau. Ví dụ: trong một hệ thống sử dụng kết hợp CPU và GPU, tính toán không đồng nhất có thể có lợi bằng cách giảm tải các tác vụ song song cho GPU, trong khi CPU xử lý các tác vụ như điều khiển quá trình, vốn là nối tiếp.
    Một khía cạnh chung giữa các lớp bộ xử lý AI khác nhau là chúng được tối ưu hóa để có hiệu suất cao và độ trễ thấp, thường cung cấp hiệu suất số nhân của phép toán tera trên giây (TOPS). Để đạt được lợi thế trong thị trường cạnh tranh cao này , hiệu suất điện năng (được đo bằng hiệu suất trên mỗi watt) cũng trở nên quan trọng như thông lượng thô. Hiệu quả sử dụng điện thường đạt được bằng cách sử dụng kết hợp một hoặc nhiều kỹ thuật thiết kế như công suất và đồng hồ, điện áp động và tỷ lệ tần số, thiết kế đa Vt, v.v.
    Đảm bảo thiết kế và xác minh đáng tin cậy của các vi mạch phức tạp này là rất quan trọng vì lỗi mạch trong các chip này có thể gây ra hậu quả lớn đối với tính hợp lệ của công nghệ và tính hợp pháp của kết quả mà chúng cung cấp.

    Xác minh độ tin cậy IC AI / ML

    Xác minh độ tin cậy là một thách thức lớn đối với chip AI / ML, do kích thước và độ phức tạp của những thiết kế này, với số lượng bóng bán dẫn theo thứ tự hàng triệu - đôi khi thậm chí nhiều tỷ. Ví dụ, GPU TESLA P100 của NVIDIA tự hào có số lượng bóng bán dẫn đáng kinh ngạc là 15,3 tỷ, trong khi vi mạch Loihi của Intel chứa 128 lõi thần kinh đa hình và 3 lõi X-86, với 2,07 tỷ bóng bán dẫn. Và, vì các yêu cầu về độ tin cậy cho mỗi môi trường sử dụng là khác nhau, các nhà thiết kế phải hiểu tập hợp các yêu cầu có thể áp dụng và đảm bảo rằng chúng được đáp ứng bằng cách thử nghiệm thiết kế của họ theo các thông số kỹ thuật yêu cầu về độ tin cậy đã được xác định rõ.

    Phương pháp xác minh độ tin cậy của thiết kế

    Theo truyền thống, các nhà thiết kế sử dụng nhiều phương pháp khác nhau để đảm bảo độ tin cậy của thiết kế, bao gồm cả kỹ thuật kiểm tra và mô phỏng thủ công, chủ yếu dựa vào chuyên môn và kinh nghiệm của đội ngũ thiết kế của họ. Tuy nhiên, kiểm tra thủ công không phải là cách tiếp cận khả thi đối với các chip AI / ML lớn và phức tạp này, vì nó tốn thời gian và dễ xảy ra lỗi do con người và hầu như không thể cung cấp đủ phạm vi. Các phương pháp mô phỏng giống như SPICE truyền thống cũng không thực tế đối với các vi mạch này do chúng thiếu khả năng mở rộng cho các thiết kế lớn.
    Để khắc phục các vấn đề về dung lượng và thời gian chạy, nhiều nhóm thiết kế phân vùng thủ công một thiết kế và xác minh các khối sở hữu trí tuệ (IP) khác nhau một cách độc lập thông qua mô phỏng hoặc các công cụ truyền thống. Tuy nhiên, có nhiều tương tác giữa các khối IP khác nhau trong một thiết kế (ví dụ: giữa các lõi máy tính khác nhau và bus hoặc liên kết hoặc bộ nhớ băng thông cao) và các tương tác giữa các giao diện thường có xu hướng bị bỏ qua trong quá trình phân vùng thủ công. Các công cụ xác minh vi mạch truyền thống phải vật lộn với thời gian chạy quá dài để xác minh các thiết kế phức tạp này, thường mất nhiều ngày để xác minh các thiết kế lớn và có khả năng làm chậm thời gian đưa ra thị trường.
    Những khiếm khuyết trong mỗi quy trình này cho thấy sự cần thiết phải có một giải pháp tự động hóa thiết kế điện tử toàn diện (EDA) có thể tận dụng sức mạnh tính toán của nhiều CPU và thiết bị cùng một lúc. Với xác minh độ tin cậy tự động, đủ điều kiện, các nhóm thiết kế và xác minh sản phẩm có thể tập trung nhanh hơn để xác minh độ tin cậy và sửa lỗi, giảm thời gian quay vòng tổng thể (TAT) của họ từ vài ngày xuống còn giờ.

    Nền tảng độ tin cậy Calibre PERC

    Trong vài năm qua, một lớp công cụ xác minh độ tin cậy IC mới để giải quyết các vấn đề về quy trình này đã xuất hiện. Các công cụ như nền tảng độ tin cậy Calibre ™ PERC ™ tận dụng một loạt các tính năng và chức năng phong phú để cung cấp quá trình xác minh độ tin cậy đủ tiêu chuẩn của xưởng đúc. Ví dụ: nền tảng độ tin cậy Calibre PERC tận dụng khả năng mở rộng đa luồng (MT) và linh hoạt đa luồng (MTflex) của nền tảng Calibre, phân phối tác vụ cho nhiều CPU và / hoặc máy từ xa để thực hiện nhanh chóng, hiệu quả các quy trình xác minh trên các chip lớn và phức tạp như IC AI / ML (Hình 2).

    Hình 2. Đa luồng, mở rộng quy mô linh hoạt phân phối các tác vụ cho nhiều điều khiển từ xa để thực thi tổng thể nhanh hơn.
    Hình 2. Đa luồng, mở rộng quy mô linh hoạt phân phối các tác vụ cho nhiều điều khiển từ xa để thực thi tổng thể nhanh hơn.

    Ngoài cơ chế cơ bản nhưng thiết yếu này, nền tảng độ tin cậy Calibre PERC cung cấp quá trình xử lý sáng tạo kết hợp cả thông tin về danh sách mạng và bố cục từ một thiết kế để đánh giá nhanh chóng và chính xác một loạt các vấn đề về độ tin cậy tiềm ẩn. Bằng cách cho phép các nhà thiết kế giảm thiểu hiệu quả và tự tin của một thiết kế đối với các lỗi hoạt động và hiệu suất, phương pháp tiếp cận xác minh độ tin cậy nâng cao này giúp hỗ trợ sự phát triển liên tục và áp dụng công nghệ AI / ML đáng tin cậy .

    Độ tin cậy cấp bóng bán dẫn

    Phần lớn các thiết kế ML / AI sử dụng nhiều miền nguồn cho nhiều mục đích khác nhau, chẳng hạn như cung cấp nguồn điện sạch, không nhiễu cho IP tương tự, cho phép khả năng chuyển đổi cổng hoặc tắt nguồn cho một khu vực nhất định của chip, mở rộng quy mô điện áp tăng hoặc giảm độc lập cho các IP được chọn hoặc đáp ứng nhu cầu dòng điện cao bằng cách sử dụng nhiều bộ điều chỉnh điện áp. Ví dụ, bộ xử lý Skylake của Intel chứa chín miền công suất chính.
    Thực hiện thiết kế nhiều miền công suất yêu cầu sử dụng các phần tử mạch đặc biệt, chẳng hạn như bộ điều chỉnh điện áp, công tắc đầu trang và chân trang, bộ chuyển mức, ô cách ly và ô duy trì trạng thái. Những yếu tố này đưa ra một loạt thách thức duy nhất để xác minh độ tin cậy. Ví dụ, các nhà thiết kế phải xác minh rằng các ô cách ly hoặc bộ dịch chuyển mức thích hợp được sử dụng ở mỗi giao diện miền và chúng được kết nối chính xác (Hình 3).

    Hình 3. Việc sử dụng các phần tử đặc biệt (chẳng hạn như bộ chuyển mức, tế bào cách ly và công tắc nguồn) bên trong thiết kế công suất thấp yêu cầu các kỹ thuật xác minh chuyên biệt.
    Hình 3.  Việc sử dụng các phần tử đặc biệt (chẳng hạn như bộ chuyển mức, tế bào cách ly và công tắc nguồn) bên trong thiết kế công suất thấp đòi hỏi các kỹ thuật xác minh chuyên biệt.

    Họ cũng phải đảm bảo rằng họ đang sử dụng các loại thiết bị thích hợp trên các miền công suất khác nhau, chẳng hạn như thiết bị oxit dày để cung cấp điện áp cao. Việc xác minh các điều kiện này đòi hỏi kiến ​​thức và quy trình rất cụ thể.

    Kỹ thuật định dạng nguồn hợp nhất

    Định dạng công suất thống nhất (UPF) là một kỹ thuật được sử dụng rộng rãi cho phép các nhà thiết kế sử dụng mô tả nhất quán về ý định công suất trong suốt quy trình thiết kế. Tuy nhiên, các luồng xác minh dựa trên UPF truyền thống được sử dụng để xác thực IP ở cấp logic hoặc cấp cổng, nhưng chúng thiếu khả năng xác thực việc triển khai cấp bóng bán dẫn cuối cùng, đặc biệt là các kết nối giếng và số lượng lớn.
    Nền tảng độ tin cậy Calibre PERC có thể đọc tệp UPF để biết thiết kế và tận dụng thông tin UPF để thực hiện các phân tích khác nhau ở cấp độ bóng bán dẫn, chẳng hạn như xác định bộ chuyển mức bị thiếu hoặc kết nối không chính xác, điều kiện áp suất quá mức điện (EOS), giếng nổi và nhiều hơn nữa . Bằng cách sử dụng nền tảng độ tin cậy Calibre PERC kết hợp với dữ liệu UPF, các nhà thiết kế có thể đánh giá các tương tác của thiết bị theo chương trình để cung cấp xác minh độ tin cậy có thể lặp lại và xác định.

    Độ tin cậy lâu dài của chip AI / ML

    An toàn vận hành là một khía cạnh quan trọng đối với hầu hết các chip AI / ML, được mong đợi sẽ hoạt động trong suốt vòng đời được thiết kế của chúng mà không gặp bất kỳ trục trặc hoặc lỗi nào. Một số vấn đề về độ tin cậy điện, chẳng hạn như sự không ổn định nhiệt độ thiên vị (BTI) và EOS, có thể không biểu hiện thành hỏng hóc ngay lập tức nhưng có thể gây ra sự xuống cấp và lão hóa nhanh chóng theo thời gian nếu không được khắc phục trước khi sản xuất. Xác minh độ tin cậy có thể giúp đảm bảo hoạt động mạnh mẽ trong một thời gian dài bằng cách kiểm tra các vấn đề khác nhau như điện trở điểm-điểm, BTI tích cực và tiêu cực, mật độ dòng điện và di chuyển điện (EM), tất cả đều có thể tạo ra sự suy giảm hiệu suất hoặc hỏng hóc nghiêm trọng.
    Hãy xem xét trường hợp thiết bị miền cao áp đang điều khiển một thiết bị oxit mỏng không được xếp hạng để xử lý điện áp cao. Trong quá trình thiết kế, nhà thiết kế không thể chèn bộ dịch chuyển mức cao-thấp. Mặc dù tình trạng này lúc đầu không nhất thiết ảnh hưởng đến chức năng, nhưng nó sẽ gây căng thẳng cho thiết bị oxit mỏng theo thời gian, cuối cùng gây ra hỏng hóc. Thời gian hỏng hóc thực tế phụ thuộc vào giá trị điện áp, thời gian nguồn điện BẬT so với TẮT và các thông số quá trình.
    EM ( sự di chuyển của các nguyên tử trong vật dẫn do dòng điện ) là một vấn đề lớn khác ảnh hưởng đến độ bền lâu dài của các kết nối được sử dụng trong IC AI / ML. Sự di chuyển này gây ra các khoảng trống và đồi hình thành trên dây. Các khoảng trống gây ra sự gia tăng đáng kể về điện trở, trong khi các đồi có thể tạo ra các khoảng trống, cả hai đều dẫn đến lỗi mạch. Hiệu ứng EM phụ thuộc vào nhiều yếu tố, chẳng hạn như chiều dài và chiều rộng của đường kim loại, vật liệu kết nối, nhiệt độ hoạt động, dòng điện một chiều so với hai chiều, v.v.
    Các xưởng đúc cung cấp cho các công ty thiết kế các giới hạn EM đối với dòng điện tối đa mà dây có thể xử lý, dựa trên các điều kiện sử dụng dự kiến ​​cho sản phẩm. Ví dụ, các giới hạn EM đối với một vi mạch được sử dụng bên trong điện thoại di động sẽ thấp hơn đáng kể so với một vi mạch được sử dụng trong môi trường công nghiệp. Một số công ty có các nhóm chuyên trách tích cực tham gia vào xưởng đúc để xác định các thông số kỹ thuật phù hợp, tạo cấu trúc thử nghiệm và thực hiện đánh giá chất lượng sản phẩm về khả năng chịu EM. Rõ ràng là khó xác định các giới hạn này cho một sản phẩm có thể được sử dụng trong nhiều môi trường, vì vậy các nhà thiết kế thường thiết kế các chip này cho các điều kiện hoạt động trong trường hợp xấu nhất. Trong tất cả các trường hợp, điều quan trọng là phải kiểm tra thiết kế theo các giới hạn EM được xác định sẵn và xác nhận rằng thiết kế có thể chịu được các tác động EM.
    Việc không nắm bắt và khắc phục các vấn đề về độ tin cậy khác nhau trong giai đoạn xác minh trước silicon có thể dẫn đến một loạt các tác động, bao gồm nhiều lần quay vòng, chậm trễ trong việc đưa sản phẩm ra thị trường, mất lòng tin của khách hàng, phản ứng tiêu cực của thị trường, thu hồi sản phẩm, và thậm chí là hậu quả thảm khốc, chẳng hạn như thương tật hoặc mất mạng. Việc xác định và khắc phục các vi phạm về độ tin cậy trước khi cắt băng sẽ giảm thiểu khả năng xảy ra trục trặc hoặc hỏng hóc mạch điện có thể gây tốn kém.

    Phân tích và quản lý AI / ML Độ tin cậy là tối quan trọng

    Sự thành công và mở rộng gần đây trong chức năng AI / ML phần lớn dựa trên những tiến bộ trong công nghệ bán dẫn. Khi các thiết kế mới này được phát triển, cộng đồng thiết kế phần cứng phải nhận thức được nhu cầu phân tích và quản lý các khía cạnh độ tin cậy của thiết kế, chẳng hạn như môi trường mục tiêu, điều kiện hoạt động, tiêu chí độ tin cậy, v.v. Các công cụ xác minh độ tin cậy EDA mạnh mẽ được thiết kế để giải quyết các vấn đề và yêu cầu về độ tin cậy cụ thể của những con chip lớn, phức tạp này có thể giúp các nhà thiết kế đảm bảo rằng sản phẩm của họ hoạt động như dự định trong suốt thời gian thiết kế của chúng. Đổi lại, điều đó chuyển thành sự tự tin vào kết quả đạt được thông qua việc sử dụng các ứng dụng AI / ML trong các thị trường rộng lớn hơn, hỗ trợ việc tiếp tục sử dụng và mở rộng các ứng dụng này.
    Các bài báo trong ngành là một dạng nội dung cho phép các đối tác trong ngành chia sẻ tin tức, thông điệp và công nghệ hữu ích với độc giả All About Circuits theo cách mà nội dung biên tập không phù hợp. Tất cả các Bài báo trong Ngành đều tuân theo các nguyên tắc biên tập nghiêm ngặt với mục đích cung cấp cho độc giả những tin tức, chuyên môn kỹ thuật hoặc câu chuyện hữu ích. Các quan điểm và ý kiến ​​được thể hiện trong các Bài báo trong ngành là của đối tác và không nhất thiết là của All About Circuits hoặc tác giả của nó.

    Không có nhận xét nào

    Post Top Ad

    ad728

    Post Bottom Ad

    ad728