Shanghai Neardi Technology Co., Ltd. Profil przedsiębiorstwa

Nowości

Do domu > Nowości >

Informacje o firmie Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU

Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU

2025-12-15

Wyobraź sobie, że pracujesz nad projektem edge AI z RK3588: strumień wideo kamery musi wykonywać w czasie rzeczywistym rozpoznawanie twarzy i wykrywanie pojazdów, jednocześnie obsługując wyświetlacz UI, przesyłanie danych,i przetwarzania logiki biznesowejZauważyliście: upadki obrazu występują, gdy w obrazie jest wiele obiektów, duże modele nie działają płynnie, a temperatura gwałtownie wzrasta.

W tym momencie ludzie zazwyczaj mówią: "Twój model jest zbyt duży" 6TOPS RK3588 nie wystarcza.

Czy zastanawiałeś się kiedyś: dlaczego 6TOPS NPU nadal doświadcza upadków klatek i opóźnień podczas uruchamiania modelu 4TOPS?Odpowiedź leży w trzech wymiarach mocy obliczeniowej NPU:Maksymalna sprawność (TOPS),Dokładność (INT8/FP16), orazWydajność (szerokość pasma).

Widać będzie, że różne układy podkreślają specyfikacje NPU, a główny parametr jest wyraźnie wyświetlany: Moc obliczeniowa NPU: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, i tak dalej...

Dlaczego wszyscy o tym mówią?

TeraWskazuje na 1012.

Operacje na sekundę: Odnosi się do całkowitej liczby operacji AI, które NPU może wykonać w ciągu jednej sekundy.

Jak oblicza się TOPS?

najnowsze wiadomości o firmie Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU 0

Całkowita liczba jednostek MAC jest rdzeniem obliczeń sieci neuronowej.główne obliczenia obejmują mnożenie danych wejściowych przez wagę, a następnie sumowanie wyników.

Filozofia projektowania NPU polega na posiadaniu niezwykle dużej liczby równoległych jednostek MAC.które mogą pracować jednocześnie w celu osiągnięcia wielkoskalowych obliczeń równoległych.

Im więcej jednostek MAC, tym większa ilość obliczeń, które NPU może wykonać w jednym cyklu zegara.

Częstotliwość zegara: Określa liczbę cykli pracy układu NPU i jego jednostek MAC na sekundę (mierzone w Hertzach, Hz).Wyższa częstotliwość umożliwia szeregowi MAC wykonywanie większej liczby operacji mnożenia-akumulacji na jednostkę czasuKiedy producenci ogłaszają TOPS, używają najwyższej częstotliwości pracy NPU (tj. maksymalnej osiągalnej częstotliwości).

Operacje na MAC: Kompletna operacja MAC obejmuje w rzeczywistości jedno mnożenie i jedno dodawanie.wiele standardów obliczeniowych liczy jedną operację MAC jako 2 podstawowe operacje (1 do mnożenia i 1 do dodawania).

Wskaźnik precyzji: Jednostki MAC NPU są zoptymalizowane do przetwarzania danych o niskiej precyzji (np. INT8).

Uproszczony współczynnik przyspieszenia INT8 vs FP32: Ponieważ 32 bity / 8 bity = 4, pojedyncza jednostka FP32 może teoretycznie wykonać 4 razy więcej operacji w jednym cyklu, gdy przejdzie na obliczenia INT8.,Jeśli TOPS producenta jest obliczany na podstawie INT8, musi być pomnożony przez współczynnik przyspieszenia związany z precyzją.

W praktyce, ze względu na takie czynniki jak transmisja danych, ograniczenia pamięci i struktura modelu,rzeczywista skuteczna moc obliczeniowa NPU jest często niższa niż ta wartość szczytowa.

Siła obliczeniowa to prędkość; precyzja to "precyzja".

najnowsze wiadomości o firmie Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU 1

Moc obliczeniowa mówi nam jak szybko działa NPU, podczas gdy precyzja obliczeniowa mówi nam jak dobrze działa.określanie liczby używanych bitów i zakresu reprezentacji danych podczas obliczeń.

Na tym samym poziomie TOPS rzeczywista prędkość obliczeniowa INT8 jest znacznie szybsza niż FP32.

NPU TOPS deklarowane przez producentów są zazwyczaj oparte na precyzji INT8.

najnowsze wiadomości o firmie Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU 2

Wysoka precyzja (zazwyczaj stosowana do szkolenia)

FP32 (jednorazowa precyzja pływającego punktu, 32-bitowa): Oferuje największy zakres liczbowy i precyzję. Powszechnie stosowany w tradycyjnych procesorach graficznych i komputerowych. Modele zazwyczaj przyjmują FP32 podczas fazy szkolenia w celu zapewnienia dokładności.
FP16/BF16 (Półprecyzyjne pływające kropki, 16-bitowe): zmniejsza objętość danych o połowę przy zachowaniu pewnego poziomu precyzji, umożliwiając szybsze obliczenia i oszczędności pamięci.

Niska precyzja (zazwyczaj stosowana do wnioskowania)

INT8 (8-bitowe liczby całkowite): Obecnie standard przemysłowy do oceny wydajności wnioskowania NPU po stronie krawędzi.FP32) do 8-bitowych liczb całkowitych nazywa się kwantizacją.
INT4 (niższa szerokość bitowa): Wykorzystuje dodatkową kompresję, nadającą się do scenariuszy o niezwykle wysokich wymaganiach dotyczących zużycia energii i opóźnienia, ale nakładające wyższe wymagania w zakresie kontroli utraty precyzji modelu.

Jak zrozumieć rzeczywistą wydajność NPU?

Kiedy widzisz NPU twierdząc 20 TOPS (INT8), musisz zrozumieć:

Maksymalna moc obliczeniowa wynosi 20 bilionów operacji na sekundę.
Ta moc obliczeniowa jest mierzona w 8-bitowej dokładności całkowitych liczb (INT8).
Ostateczna wydajność zależy od aplikacji: rzeczywiste doświadczenie użytkownika (takie jak prędkość odblokowania twarzy, opóźnienie tłumaczenia w czasie rzeczywistym) zależy nie tylko od TOPS NPU, ale także od:
- Jakość kwantowania modelu: Czy kwantowany model INT8 utrzymuje wystarczającą dokładność.
- Przepustowość pamięci: prędkość wejścia i wyjścia danych.
- Stack oprogramowania i sterowniki: poziom optymalizacji łańcucha narzędzi i sterowników dostarczanych przez producenta układu do wdrożenia modelu.

Siła obliczeniowa NPU (TOPS) jest wskaźnikiem jej prędkości, podczas gdy precyzja obliczeniowa (np. INT8) jest kluczem do jej wydajności i zastosowalności.producenci generalnie dążą do maksymalizacji INT8 TOPS przy zachowaniu akceptowalnej straty precyzji, w celu osiągnięcia niskoenergetycznej i wydajnej wydajności inferencji AI.

Wydarzenia

Nowości

Sprawy

Kontakty

Kontakty: Mr. Cola

Tel.: 86-021-20952021

Skontaktuj się teraz

Wyślij nam wiadomość.

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC

Moduł Wi-Fi

pudełko przemysłowe szt

Moduł SoM dla Linuksa

Moduł systemu Android na urządzeniu

Android Embedded Board

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC

Moduł Wi-Fi

pudełko przemysłowe szt

Moduł SoM dla Linuksa

Moduł systemu Android na urządzeniu

Android Embedded Board

Głęboka interpretacja wąskiego gardła 6TOPS RK3588 i prawda o mocy obliczeniowej NPU

Nowości

Sprawy

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC