Grupa pojęćAI / ML / DL / NLP

Uczenie ze wzmocnieniem

19 pojęć w 10 podgrupach, z prostymi definicjami i źródłami.

Przeglądaj kategorię

Deep rl

Połączenie uczenia ze wzmocnieniem z głębokimi sieciami neuronowymi jako aproksymatorami funkcji wartości lub polityki w przestrzeniach wysokowymiarowych.

powtórka doświadczeń

Technika przechowywania przejść w buforze i losowego ich próbkowania do uczenia, dekorelująca dane i poprawiająca efektywność próbkową.

Eksploracja

dylemat eksploracja-eksploatacja

Fundamentalny kompromis między wybieraniem akcji o znanej wysokiej wartości a próbowaniem nowych akcji w celu zdobycia informacji.

strategia epsilon-zachłanna

Metoda eksploracji wybierająca z prawdopodobieństwem epsilon akcję losową, a w pozostałych przypadkach akcję o najwyższej szacowanej wartości.

Formalizm mdp

polityka

Odwzorowanie ze stanów na akcje (lub rozkłady akcji), które determinuje zachowanie agenta w środowisku.

proces decyzyjny MarkowaMDP

Formalny model środowiska zdefiniowany przez stany, akcje, prawdopodobieństwa przejść i nagrody, w którym przyszły stan zależy tylko od stanu i akcji bieżącej.

Funkcje wartosci

funkcja akcja-wartośćfunkcja Q

Funkcja oceniająca oczekiwany zwrot z wykonania danej akcji w danym stanie, a następnie podążania za polityką; podstawa metod opartych na wartości.

funkcja wartości

Funkcja przypisująca stanowi (lub parze stan-akcja) oczekiwany skumulowany zwrot przy danej polityce, mierząca długoterminową korzyść.

Metody polityki

aktor-krytyk

Architektura łącząca parametryczną politykę (aktora) uczoną gradientowo z estymatorem wartości (krytykiem) redukującym wariancję aktualizacji.

gradient polityki

Metoda optymalizująca parametryczną politykę przez wznoszenie gradientowe względem oczekiwanego zwrotu, bez pośredniej funkcji wartości.

Metody wartosci

błąd różnicy czasowej

Różnica między przewidywaną a wzmocnioną wartością stanu, używana jako sygnał uczący w metodach TD i aktor-krytyk.

Q-learning

Algorytm off-policy uczenia różnic czasowych aktualizujący funkcję akcja-wartość ku optimum niezależnie od polityki generującej dane.

uczenie różnic czasowychTD

Klasa metod aktualizujących oszacowania wartości na podstawie różnicy między kolejnymi predykcjami, bez czekania na końcowy zwrot epizodu.

Programowanie dynamiczne

równanie Bellmana

Rekurencyjna zależność wyrażająca wartość stanu przez nagrodę bieżącą i zdyskontowaną wartość stanów następnych; rdzeń programowania dynamicznego w RL.

Sygnal nagrody

funkcja nagrody

Odwzorowanie przejść środowiska na skalarny sygnał wzmocnienia, definiujące cel zadania uczenia ze wzmocnieniem.

kształtowanie nagrody

Modyfikacja sygnału nagrody przez dodanie pomocniczych składników, przyspieszająca uczenie bez zmiany optymalnej polityki przy zachowaniu niezmienniczości.

Tryby uczenia

uczenie poza polityką

Tryb uczenia, w którym agent ocenia lub ulepsza politykę docelową na podstawie danych zebranych przez inną politykę zachowania.

Zwrot dyskonto

współczynnik dyskontowania

Parametr z przedziału [0,1] ważący przyszłe nagrody względem bieżących, kontrolujący horyzont planowania agenta.

zwrot

Skumulowana, zwykle zdyskontowana suma nagród otrzymanych przez agenta od danego kroku do końca epizodu lub w nieskończoność.

Pozostałe grupy — AI / ML / DL / NLP

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja