Ústav teorie informace a automatizace

Jste zde

Může optimální rozhodování s učením obelstít mnoharuké bandity?

Typ práce: 
diplomová
Kontakt/telefon: 
ÚTIA AV ČR, v.v.i., department AS, 266052274
Klíčová slova: 
Decision making under uncertainty, Bayesian learning, adaptive control, expoitation and exploration
Úkoly: 

1. Seznamte se základy dynamického rozhodování za neurčitosti. 2. Seznamte se základy bayesovského učení. 3.  Udělejte přehled postupů vyvažujících poznávání a využívání při přibližném návrhu současně optimalisujicích a učících se strategií. 4. Vyberte či navrhněte nejslibněší z nich a její chování experimentálně ověřte. 5. Pokuste se vytvořit obecné závěry o takových strategiích, alespoň jako hypotézy ověřitelné dalším výzkumem.    

Pravděpodobnostní dynamické systémy nachází uplatnění v široké škále oborů od techniky, dopravy přes ekonomii a medicínu až po elektronickou demokracii. Lze jimi modelovat například složitá průmyslová zařízení, dopravní toky, lymfatický systém končetiny, nebo třeba skupina výherních automatů známých jako jednorucí bandité. Často se setkáváme s případy, kdy je znám parametrizovaný model daného systému, ale jeho parametry nejsou přesně známy. Základní problém, který je pak nutno řešit, bývá odhadování těchto parametrů z pozorovaných (naměřených) dat - učení. V případě, že daný systém obsahuje také řídící vstupy, přidává se dále problém nalezení optimálních hodnot vstupů takových, aby řízený systém co nejlépe sledoval předem zvolený cíl. Velmi zajímavá, široce aplikovatelná, úloha vzniká kombinací dvou předchozích - učení a řízení současně. Zvolené hodnoty vstupních veličin mají pochopitelně vliv na chování systému, ale zároveň ovlivňují kvalitu učení. Vyvstává tak otázka, zda volit strategii řízení, která se vzhledem k právě dostupným znalostem jeví jako optimální, nebo zda dělat "úmyslné chyby", které za cenu krátkodobě horšího řízení přinesou lepší odhad parametrů systému a tím umožní dosáhnout celkově lepších výsledků.

Poznámka: 
Téma je zadáno na FJFI ČVUT, může však být po dohodě řešeno na libovolné fakultě.
Literatura: 

Vybrané části: 1.V. Peterka, Bayesian approach to system identification, in P. Eykhoff ed., Trends and Progress in System Identification, p. 239-304, Pergamon Press, Oxford, 1981. 2. M. Kárný, T.V.Guy, Fully probabilistic control design, Systems & Control Letters, 55:4, 259-265, 2006 3. M. Kárný et al, Optimized Bayesian Dynamic Advising: Theory and Algorithms, Springer, London, 2006 4. M. Kárný et al: Dynamic Decision Making" Fully Probabilistic Design, http://www.utia.cz/AS/education/e-materials/main

13.08.2018 - 09:18