AI / Machine Learningproces

uczenie różnic czasowych

TD

Klasa metod aktualizujących oszacowania wartości na podstawie różnicy między kolejnymi predykcjami, bez czekania na końcowy zwrot epizodu.

Typ
proces
Pojęcie nadrzędne
metoda estymacji wartości
Źródło
Sutton, Barto, Reinforcement Learning: An Introduction, 2nd ed.

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja