AI / Machine Learningproces

dekodowanie spekulatywne

speculative decoding

Przyspieszanie generacji przez model pomocniczy proponujący kilka tokenów naraz, które główny model weryfikuje jednym przebiegiem.

Typ: proces
Pojęcie nadrzędne: technika przyspieszania inferencji
Kategoria: AI / Machine Learning · Inferencja wdrozenie i kompresja
Źródło: Leviathan i in., Fast Inference from Transformers via Speculative Decoding (ICML 2023)

Zobacz też

Zgodność deklarowanych prawdopodobieństw modelu z empiryczną częstością zdarzeń; dobrze skalibrowany model ma trafne oceny pewności.

Udział poprawnie wykrytych przypadków pozytywnych wśród wszystkich rzeczywistych pozytywów; mierzy zdolność wykrywania klasy docelowej.

Średnia harmoniczna precyzji i czułości, łącząca obie w jedną wartość; szczególny przypadek miary F dla równej wagi.

Udział poprawnych wskazań klasy pozytywnej wśród wszystkich wskazań tej klasy; mierzy frakcję trafnych spośród przewidzianych pozytywów.

Pole pod krzywą ROC; prawdopodobieństwo, że losowy pozytyw otrzyma wyższą ocenę niż losowy negatyw, miara separowalności klas.

Wykres odsetka trafień względem odsetka fałszywych alarmów przy zmiennym progu decyzyjnym klasyfikatora binarnego.

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.