Andrew Ng szerint a mesterséges intelligencia a 21. század villamossága, hatalmas potenciállal rendelkezik. Igazán nehezen lehet egy olyan területet mutatni a gazdaságon belül, ahol a mesterséges intelligenciát ne lehetne alkalmazni. Most egy ilyen területről lesz szó, a biztonság kritikus rendszerekről.
Ennek oka, hogy a mesterséges intelligencia technológia területén a modellek által végzett támadások sokkal fejlettebbek és erősebbek, mint a modellek védelme. Így tehát a gépi tanulás alkalmazása a biztonsági kritikus rendszerben nem feltétlenül jó ötlet, ha kizárólag a mesterséges intelligenciás modell képességeire támaszkodunk. Kiderült, hogy a gépi tanulási módszerek és a neurális hálózatok a bemeneti adatok eloszlását csak nagy léptékben fedik le, így nagy rejtett területet hagyva a szándékos megtévesztésnek.
A tanító adatokat a valós életből, szenzorok és IOT eszközök segítségével gyűjtjük össze. Az ellenséges példák természetesen nem ebből a gyűjteményből származnak. Az ellenséges példa egy olyan minta, amelyet közvetlenül úgy számítanak ki, hogy egy osztályozó modell azt tévesen osztályozza.
Íme egy példa:
60 % Panda 99.9 % Gibbon
A GoogLeNet-re alkalmazott ellenséges példa generátor (Image: Szegedy és munkatársai, 2014a). A támadást egy, a szem számára észrevétlenül kicsi vektor hozzáadásával éri el. A vektor képzése nem véletlenszerű, elemei megegyeznek a költségfüggvény gradiensének jeleivel a bemenethez képest, ezáltal megváltoztatva a GoogLeNet klasszifikációját egyik képosztályról a másikra. [1]
A GoogLeNet, amely egy konvolúciós neurális hálózat, 60%-os biztossággal panda osztályba sorolja a bal oldali képet, amíg a jobboldali képet 99,9%-os biztossággal majom osztályba. Nyilvánvalóan ez egy nagy hiba.
Egy ellenséges példa nem specializálódik arra a modellre melyre a kezdetekben készült. Ugyan az az ellenséges példa képes többféle típusú modellt megtéveszteni.
Kereszt-technika transzferálhatósági mátrix: az (i, j) cella tartalmazza a megtévesztési arány százalékos értékét, melyben a sorok (i) elején látható az a modell melyre az ellenséges példát közvetlenül előállították. Az oszlopokban (j) pedig az újdonsült modellek eredményei láthatók a nem rájuk kalkulált ellenséges példák alkalmazása esetén. [2]
A kutatások során kiderült, hogy sok, architektúrájában és elveiben különböző modell rosszul osztályozza ugyanazt az ellenséges példát, és ugyanazt a rossz osztály címkét rendeli hozzá a bemenethez. Ez azt a következtetést vonta maga után, hogy modelljeink esetében alulhatárolással szembesülünk. Egy másik tény megerősíti a korábbi vélelmet. Ha vesszük a pixelenkénti különbséget egy eredeti példa és egy ellenséges példa között, akkor az eredmény egy meghatározott vektor lesz a bemeneti terében. Ha ezek után vesszük ugyanezt a vektort és egy teljesen más, eredeti mintához hozzáadjuk, akkor az eredmény ismét egy ellenséges példa lesz. Ez egy szisztematikus jelenség, nem pedig véletlenszerű, amint azt az eddig feltételezett túlhatárolás esetén várhatnánk. A bemenet és a kimenet közti leképzés szakaszonként lineáris, miközben a paraméterek és kimenet közti leképzés erősen nem lineáris. Ez okozza az optimalizálásuk közötti nagyságrendbeli különbséget is.
A kék nyíl az irányvektor mely egy eredeti példa és egy ellenséges példa különbségének eredménye.
A modellek jól általánosítanak a természetes folyamatok által kialakult eloszlásokra. Ezek a relatíve lineáris osztályhatárok, a tanítás során, annak ellenére, hogy közel lineárisok, mégis képesek a természetes eloszlásokhoz illeszkedni, sőt a modellek ezen tanulás alapján elég általánosak tudnak lenni ahhoz, hogy az említett eloszlásból származó teszt mintákra megfelelő visszajelzést adjanak. A gépi tanulási modellek megtanulnak megoldani minden olyan példát, amelyek ugyanolyan eloszlásból származnak, mint a tanítási adatok, olyan módon, hogy a modellek azon tulajdonságokra is támaszkodnak, amelyek nem függetlenek az eloszlástól. A természetes eloszlás azonban csak egy kis szelete a lehetséges eloszlások összességének. Ha valaki szándékosan áthelyezi a teszt elosztást és a mintát vételez belőle, akkor nagyon egyszerűen megtévesztheti az összes ismert gépi tanuló modellt. Természetesen az állítás még mindig igaz, hogy ha a természetesen előforduló adathalmazokra klasszifikálunk, akkor a modellek szinte mindig az elvárásoknak megfelelően teljesítenek.
AZ ELLENSÉGES PÉLDÁK FELHASZNÁLHATÓK A MESTERSÉGES INTELLIGENCIÁS RENDSZEREK BEFOLYÁSOLÁSÁRA
Ha valaki félre akar vezetni egy modellt, de:
- nincs hozzáférése a modellhez,
- nem ismeri az alkalmazott architektúrát,
- nem tudja, melyik algoritmust használják,
- nem tudja, hogy egy SVM modellt vagy egy mély neurális hálót,
- és nem ismeri a modell paramétereit,
a befolyásolás még akkor is lehetséges.
Tegyük fel hogy a modellhez csak korlátozott hozzáférésünk van, ami azt jelenti, hogy lehetőségünk van arra, hogy bemenetet küldjünk a modellnek és megfigyeljük a kimeneteit. Ez esetben az egyik módja a modell megtévesztésének, hogy tetszőleges bemeneteket küldünk, majd összegyűjtjük a bemenetekhez tartozó kimeneteket, melyből adatbázist építünk. A modell adatbázison való tanítása után ellenséges példákat lehet kalkulálni a betanított modell segítségével, a megfigyelt modell ellen. Végezetül a fentiekben már ismertetett transzferhatósági mátrixot alapul véve, a generált ellenséges példák valamelyike nagy valószínűséggel megtéveszti a kiszemelt cél modellt.
MEGBUKOTT VÉDELMEK:
- Generative pretraining
- Removing perturbation with autoencoder
- Adding noise at test time
- Ensembles
- Confidence-reducing perturbation at test time
- Error correcting codes
- Multiples glimpses
- Weight decay
- Double backpropagation
- Dropout
- Various non-linear units
A védelem kérdése a mesterséges intelligenciás technológia még meg nem oldott kihívása. Jelenleg még nincs egy definiált szabványos védelem az ilyen típusú támadásokkal szemben, de vannak kísérletezések, például:
- az x bemenet ismeretében kinyerni az y címke helyes posterior eloszlását
- az ellenséges példákon való tanítás.
Ha ez a probléma megoldódik, a biztonsággal együtt a lehetőségek tárháza nyílik meg.
Ahogy Ian Goodfellow mondja: “Ha képesek vagyunk a modell-alapú optimalizálásra, képesek leszünk meghatározni egy függvényt, amely olyan dolgot ír le, amely még nem létezik, de szeretnénk ha létezne.”
Például automatikusan új géneket, új molekulákat, új gyógymódokat, új 3D-s designokat tervezni bármilyen 3D-s tervezési területen stb., bármiféle mérnöki tervezés nélkül.
Biztosak vagyunk abban, hogy az Ön vállalkozásában is vannak mesterséges intelligenciával automatizálható munkafolyamatok: amennyiben szeretné élvezni a mesterséges intelligencia használatával járó előnyöket, úgy jelentkezzen ingyenes, személyes konzultációnkra elérhetőségeink valamelyikén.
HIVATKOZÁSOK
[1]: I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,”. arXiv preprint: 1412.6572, 2015.
[2]: N. Papernot, P. McDaniel, I. J. Goodfellow, “Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples”. arXiv preprint: 1605.07277, 2016.