Uczenie ze wzmocnieniem
19 pojęć w 10 podgrupach, z prostymi definicjami i źródłami.
Przeglądaj kategorię
Deep rl
Połączenie uczenia ze wzmocnieniem z głębokimi sieciami neuronowymi jako aproksymatorami funkcji wartości lub polityki w przestrzeniach wysokowymiarowych.
Technika przechowywania przejść w buforze i losowego ich próbkowania do uczenia, dekorelująca dane i poprawiająca efektywność próbkową.
Eksploracja
Fundamentalny kompromis między wybieraniem akcji o znanej wysokiej wartości a próbowaniem nowych akcji w celu zdobycia informacji.
Metoda eksploracji wybierająca z prawdopodobieństwem epsilon akcję losową, a w pozostałych przypadkach akcję o najwyższej szacowanej wartości.
Formalizm mdp
Funkcje wartosci
Funkcja oceniająca oczekiwany zwrot z wykonania danej akcji w danym stanie, a następnie podążania za polityką; podstawa metod opartych na wartości.
Funkcja przypisująca stanowi (lub parze stan-akcja) oczekiwany skumulowany zwrot przy danej polityce, mierząca długoterminową korzyść.
Metody polityki
Architektura łącząca parametryczną politykę (aktora) uczoną gradientowo z estymatorem wartości (krytykiem) redukującym wariancję aktualizacji.
Metoda optymalizująca parametryczną politykę przez wznoszenie gradientowe względem oczekiwanego zwrotu, bez pośredniej funkcji wartości.
Metody wartosci
Różnica między przewidywaną a wzmocnioną wartością stanu, używana jako sygnał uczący w metodach TD i aktor-krytyk.
Algorytm off-policy uczenia różnic czasowych aktualizujący funkcję akcja-wartość ku optimum niezależnie od polityki generującej dane.
Klasa metod aktualizujących oszacowania wartości na podstawie różnicy między kolejnymi predykcjami, bez czekania na końcowy zwrot epizodu.
Programowanie dynamiczne
Sygnal nagrody
Odwzorowanie przejść środowiska na skalarny sygnał wzmocnienia, definiujące cel zadania uczenia ze wzmocnieniem.
Modyfikacja sygnału nagrody przez dodanie pomocniczych składników, przyspieszająca uczenie bez zmiany optymalnej polityki przy zachowaniu niezmienniczości.
Tryby uczenia
Zwrot dyskonto
Pozostałe grupy — AI / ML / DL / NLP
- SłownikEwaluacja i metryki
- SłownikInferencja wdrozenie i kompresja
- SłownikModele generatywne i LLM
- SłownikNLP i jezyk
- SłownikPodstawy uczenia i dane
- SłownikRegularyzacja i generalizacja
- SłownikSieci neuronowe architektury
- SłownikTrening i optymalizacja
- SłownikUczenie nadzorowane modele
- SłownikUczenie nienadzorowane i redukcja
Chcesz wykorzystać AI w swojej firmie?
Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.
Bezpłatna konsultacja