Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Wyobraź sobie, że pracujesz nad projektem edge AI z RK3588: strumień wideo kamery musi wykonywać w czasie rzeczywistym rozpoznawanie twarzy i wykrywanie pojazdów, jednocześnie obsługując wyświetlacz UI, przesyłanie danych,i przetwarzania logiki biznesowejZauważyliście: upadki obrazu występują, gdy w obrazie jest wiele obiektów, duże modele nie działają płynnie, a temperatura gwałtownie wzrasta.
W tym momencie ludzie zazwyczaj mówią: "Twój model jest zbyt duży" 6TOPS RK3588 nie wystarcza.
Czy zastanawiałeś się kiedyś: dlaczego 6TOPS NPU nadal doświadcza upadków klatek i opóźnień podczas uruchamiania modelu 4TOPS?Odpowiedź leży w trzech wymiarach mocy obliczeniowej NPU:Maksymalna sprawność (TOPS),Dokładność (INT8/FP16), orazWydajność (szerokość pasma).
Widać będzie, że różne układy podkreślają specyfikacje NPU, a główny parametr jest wyraźnie wyświetlany: Moc obliczeniowa NPU: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, i tak dalej...
TeraWskazuje na 1012.
Operacje na sekundę: Odnosi się do całkowitej liczby operacji AI, które NPU może wykonać w ciągu jednej sekundy.
![]()
Całkowita liczba jednostek MAC jest rdzeniem obliczeń sieci neuronowej.główne obliczenia obejmują mnożenie danych wejściowych przez wagę, a następnie sumowanie wyników.
Filozofia projektowania NPU polega na posiadaniu niezwykle dużej liczby równoległych jednostek MAC.które mogą pracować jednocześnie w celu osiągnięcia wielkoskalowych obliczeń równoległych.
Im więcej jednostek MAC, tym większa ilość obliczeń, które NPU może wykonać w jednym cyklu zegara.
Częstotliwość zegara: Określa liczbę cykli pracy układu NPU i jego jednostek MAC na sekundę (mierzone w Hertzach, Hz).Wyższa częstotliwość umożliwia szeregowi MAC wykonywanie większej liczby operacji mnożenia-akumulacji na jednostkę czasuKiedy producenci ogłaszają TOPS, używają najwyższej częstotliwości pracy NPU (tj. maksymalnej osiągalnej częstotliwości).
Operacje na MAC: Kompletna operacja MAC obejmuje w rzeczywistości jedno mnożenie i jedno dodawanie.wiele standardów obliczeniowych liczy jedną operację MAC jako 2 podstawowe operacje (1 do mnożenia i 1 do dodawania).
Wskaźnik precyzji: Jednostki MAC NPU są zoptymalizowane do przetwarzania danych o niskiej precyzji (np. INT8).
Uproszczony współczynnik przyspieszenia INT8 vs FP32: Ponieważ 32 bity / 8 bity = 4, pojedyncza jednostka FP32 może teoretycznie wykonać 4 razy więcej operacji w jednym cyklu, gdy przejdzie na obliczenia INT8.,Jeśli TOPS producenta jest obliczany na podstawie INT8, musi być pomnożony przez współczynnik przyspieszenia związany z precyzją.
W praktyce, ze względu na takie czynniki jak transmisja danych, ograniczenia pamięci i struktura modelu,rzeczywista skuteczna moc obliczeniowa NPU jest często niższa niż ta wartość szczytowa.
![]()
Moc obliczeniowa mówi nam jak szybko działa NPU, podczas gdy precyzja obliczeniowa mówi nam jak dobrze działa.określanie liczby używanych bitów i zakresu reprezentacji danych podczas obliczeń.
Na tym samym poziomie TOPS rzeczywista prędkość obliczeniowa INT8 jest znacznie szybsza niż FP32.
NPU TOPS deklarowane przez producentów są zazwyczaj oparte na precyzji INT8.
![]()
Kiedy widzisz NPU twierdząc 20 TOPS (INT8), musisz zrozumieć:
Siła obliczeniowa NPU (TOPS) jest wskaźnikiem jej prędkości, podczas gdy precyzja obliczeniowa (np. INT8) jest kluczem do jej wydajności i zastosowalności.producenci generalnie dążą do maksymalizacji INT8 TOPS przy zachowaniu akceptowalnej straty precyzji, w celu osiągnięcia niskoenergetycznej i wydajnej wydajności inferencji AI.