AI / Machine Learningobiekt

pamięć podręczna KV

KV cache

Bufor przechowujący klucze i wartości z poprzednich kroków uwagi w transformerze, by uniknąć ich ponownego liczenia podczas generacji.

Typ
obiekt
Pojęcie nadrzędne
struktura optymalizacji inferencji
Źródło
Pope i in., Efficiently Scaling Transformer Inference (MLSys 2023)

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja