DOPAMINE-RL

DOPAMINE-RL

Napjainkban számos keretrendszer érhető el a mesterséges intelligenciás alkalmazások hatékony implementációjához. Ezen keretrendszerek döntő többsége mindezidáig a felügyelt, és felügyelet nélküli tanításokra voltak optimalizálva. A Google napjainkban kiadott egy Tensorflow alapú, Reinforcement learning (megerősítéses tanulás) implementációjára szolgáló keretrendszert, melynek fedőneve DOPAMINE. Cikkünkben a megerősítéses tanításról, illetve az új keretrendszer tulajdonságairól lesz szó.

A Google élen jár az AI keretrendszerek fejlesztésében, mi sem bizonyítja ezt jobban, mint a Tensorflow piaci részesedése a fejlesztések kapcsán. A Tensorflow az alapja több, magas szintű API-nak (pl. KERAS) is, amellyel bővebben képzéseink során is megismerkedhetsz. Ezek azonban az olyan tanítások során használhatóak hatékonyan és egyszerűen, ahol rendelkezésre állnak a tanítópéldák, azaz az adat és címke párok. Az ilyen tanítást felügyelt tanításnak nevezzük. Ez esetben visszafejtük az adat és címke között fennálló logikai kapcsolatot, ez jelenti a modellünk „betanulását”. Egy autót így tanultunk meg felismerni egy képen: elmondták nekünk hogy mi az, mi pedig megértettük sok tanítópélda után. Látható, hogy ez esetben nagyban függ a tanított intelligencia képessége az adathalmaztól, hiszen csak ennyi kapcsolata van a külvilággal, így nem képes az abban látott módszereket felülmúlni.

[2] Próba és hiba módszer

A megerősítéses tanulás ezzel szemben nem felcímkézett adathalmazon alapul, hanem a próba és hiba elvén. Az ágenst, amelyet szeretnénk tanítani, belehelyezzük a környezetbe, ahol az szabadon kísérletezhet. A kísérletének az eredményeiről értékelést nyújtunk minden lépése után. A végcél, hogy a maximális értékelést érjünk el egy kijelölt intervallumon belül. Nem mondjuk meg tehát, hogy mi a helyes megoldás, hanem engedjük az ágens számára, hogy megismerje a környezetet. Beláthatjuk, hogy járásunk például így fejlődött ki. Nem mondták meg számunkra, hogy melyik izmunknak milyen jelet kell küldenünk. A folyamatos próbálkozások, és az azokra érkező értékelések (ha elestünk az rossz, ha állva maradtunk az jó) segítségével képesek voltunk megtanulni olyan módon összehangolni az izmaink megfeszítését, hogy a járás lehetővé váljon. Ezzel a módszerrel képes az ágens felülmúlni az eddig ismert emberi teljesítményeket. Az AlphaGo is így aratott sikert, és győzte le az addigi világbajnokot.

A felügyelt tanítások problémája, hogy nagy mennyiségű, hibátlanul felcímkézett adathalmazt feltételeznek, amely jelenleg nem áll rendelkezésre az élet minden területén. Amíg a gazdasági életben, a pénzügyi tranzakciók jelentős része digitálisan nyomonkövethető, és ezáltal felügyelt tanítással belőle információk kinyerhetőek, addig egy valós, vagy szimulált környezetben (mint például egy sakk játszma), a teljes környezetet lefedő tanítópéldák begyűjtése hosszadalmas lehet. Itt jön képbe a megerősítéses tanítás.

A megerősítéses tanításnak az előfeltétele, hogy képesek legyünk a környezettel interakcióba lépni, és az attól érkező jeleket (értékelések) értelmezni. Ez az értékelés lehet, hogy csak sok interakció után érkezik meg: pl. képzeljük el a sakkjátszmát, ahol csak az utolsó lépés után határozhatjuk meg a nyereséget vagy a veszteséget. Nagyon gyakori eset, hogy az ágenseket először szimulációkban tanítják, ezzel elkerülve a valós életben visszafordíthatatlan folyamatok bekövetkezését, továbbá időt spórolva a tanításon a szimuláció képességeitől függően. Egy ilyen ágens egyszerű tanítására RL könyvtárak állnak rendelkezésre, amelyek tartalmazzák ezt a szimulált környezetet, és az ágenst magát. Jelenleg azonban ezek nem rugalmasak, nem stabilak, amely megnehezíti a hatékony optimalizálást, és prototípus fejlesztést.

A DOPAMINE ennek a problémának címezve készült. A Google célja egy olyan keretrendszer megalkotása volt, amely lehetővé teszi a gyors prototípus fejlesztést, az ágensek egyszerű paraméterezését. E segítségével lehetővé válik szélesebb kutatói réteg számára a változatos spektrumú tanítás, hangolás, amely azt eredményezheti, hogy egy eddig tévesen elvetett paraméterkombináción betanítva, az ágens számára lehetővé válik felülmúlnia az eddigi teljesítményeit. A jelenleg több problémában is a legkorszerűbb eredményt nyújtó ágens, a RAINBOW is részét képezi a keretrendszernek. Ezen kívül a hagyományos DQN ágens is megtalálható az implementációban a teljesség kedvéért.

Az idő eldönti, hogy beváltja-e a hozzáfűzött reményeket az új keretrendszer, az azonban biztos, hogy nagyban megkönnyíti a prototípus készítést, fejlesztést. Következő bejegyzésünk egy másik vállalat elterjedt keretrendszeréről, az OpenAI Gym-jéről fog szólni, amelyet jelenleg elterjedten használnak RL ágensek tanítására.

Biztosak vagyunk abban, hogy az Ön vállalkozásában is vannak mesterséges intelligenciával automatizálható munkafolyamatok: amennyiben szeretné élvezni a mesterséges intelligencia használatával járó előnyöket, úgy jelentkezzen ingyenes, személyes konzultációnkra elérhetőségeink valamelyikén.

IRODALOMJEGYZÉK

[1] https://github.com/google/dopamine

[2] https://tempora-mutantur.co.uk/wp-content/uploads/2018/01 / Trial-and-error.png

 

Close Menu