AI / Machine Learningproces

Q-learning

Algorytm off-policy uczenia różnic czasowych aktualizujący funkcję akcja-wartość ku optimum niezależnie od polityki generującej dane.

Typ
proces
Pojęcie nadrzędne
algorytm uczenia różnic czasowych
Źródło
Watkins, Dayan, Q-learning, Machine Learning 1992

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja