Tango, igra saradnje.
Jedna od najviše proučavanih igara u svim oblastima gde se teorija igara može primeniti je poznata Zatvorenikova dilema (Prisoner's dilemma - PD). Postoji veliki broj verzija i varijacija ove igre, ali ja ću se zadržati samo na osnovnoj verziji i par njenih ekstenzija da bih ilustrovao osnovni koncept.
Nejelementarnija postavka PD igre teče ovako. Policija uhvati dva prestupnika u ukradenom vozilu prilikom bežanja, u blizini neke banke. Detektivi imaju dovoljno dokaza da obojicu pred porotom osude za kradju kola, ali nemaju dovoljno dokaza da ih osude za pljačku banke. Oba zatvorenika odriču pljačku banke i dogovore se medjusobno da pri toj tvrdnji ostanu.
Islednici stave zatvorenike u odvojene sobe, tako da jedan sa drugim ne mogu više da komuniciraju, i svakome naprave sledeću ponudu:
Rafa i Pedja raspravljaju o strategiji. (Thx, Srx).
Možeš da odlučiš da priznaš pljačku, u kojoj je impliciran i tvoj saradnik, ili da to odrekneš. Ako priznaš a tvoj saradnik odrekne, sve optužbe protiv tebe će biti povučene, slobodan si, a mi ćemo iskoristiti tvoje priznanje da ozbiljno kaznimo tvog saradnika. Obrnuto, ako tvoj saradnik prizna pljačku, a ti je ne odrekneš, on će biti slobodan, a tebi sleduje teška kazna na osnovu njegovog priznanja. Ako obojica priznate pljačku, bićete obojica i osudjeni, ali sa smanjenim kaznama zbog saradnje sa sudom. Najzad, ako obojica odreknete, ja samo mogu da vas obojicu osudim na manju kaznu zbog kradje automobila.
Ako odlučiš da priznaš pljačku, ostavi poruku stražaru da mi je preda sutra ujutru.
Kako će zatvorenik da odluči, i gde je ovde dilema? Payoff matrica za PD izmedju zatvorenika A i B je prikazana dole, zajedno sa dobicima koji svaki zatvorenik dobije za odredjene odluke.
Dilema je u tome što je zatvoreniku bolje da prizna pljačku nego da je odrekne, štagod onaj drugi uradio. Ako misli samo na sebe, onda je logika sledeća: ako prizna, a onaj drugi odrekne, slobodan je. Ako prizna, i drugi takodje prizna, dobice manju kaznu zbog saradnje. U oba slučaja priznanjem stiče neku korist. Na isti način rezonuje i drugi zatvorenik. Od fundamentalnog znacaja je, medjutim, da bi obojica najbolje prosli ako bi se drzali svog pocetnog dogovora i odricali pljacnu.
U ovoj igri se priznanje pljačke policiji zove nekooperacija (NC, ili još Defect), jer se zatvorenik ne pridržava početnog dogovora sa drugim zatvorenikom, a odricanje pljačke kooperacija (C) jer se tog dogovora pridržava. Koristeci ove oznake, dakle, svaki zatvorenik pojedinačno će bolje proći ako prizna pljačku, tj. primeni strategiju NC, medjutim, zajednički će bolje proći ako je ne priznaju, tj. ako obojica ostanu pri početnom dogovoru i primene strategiju C. U tom smislu, PD igra ilustruje razliku izmedju kolektivnog i pojedinačnog rezonovanja.
Primetimo da ovde ključnu ulogu ima poverenje. Ako, na primer, ja ne mogu sam da napravim sebi kuću, ali uz pomoć druge osobe mogu, onda nam je obojici najbolje ako ti pomogneš meni i napravimo za mene kuću, i ja pomognem tebi i napravimo za tebe kuću. Tada ćemo obojica svaki imati po kuću (dobit) koju smo stekli saradnjom, i kakvu ne bi mogli da imamo da smo delovali svaki za sebe. Hobs je, imajući ovo u vidu, i ne poznajući formalnu teoriju igara, čak predlozio da ljudsko društvo može uspešno da postoji samo ako se ljudi tiranijom primoraju da se drže dogovora - svako nepridržavanje bi bilo drastično kažnjavano, a sve u interesu opstanka i napredovanja društva.
Jedna digresija, licne prirode.
U tom smislu se moze PD posmatrati i kao mehanizam evolucije altruizma. Naime, jedinke imaju racionalnih razloga da se žrtvuju za tudje dobro, bez neposredne nadoknade, tj za čin altruizma, ako očekuju, ili veruju, da će se u sličnoj situaciji neko drugi žrtvovati za nih na sličan način, da je to mehanizam koji upravlja svetom, da tako kazem. Ja verujem, i ovo je samo moja spekulacija, da se u osnovi ovog altruistickog stava nalazi seme verovanja u nekakav visi sud i Andjela Zapisnicara Svevideceg. Ili, kako bi rekao Balasevic, "neko to odgore vidi sve". Kraj digresije.
U biološkom kontekstu, kad se razmatra evolucija kooperacije, prema gornjem je, za igrača koji igra jednu PD igru protiv jednog oponenta, Evolutivno Stabilna Strategija (ESS) strategija NC, tj. nekooperacije. Uzmes koliko god dobiti mozes za sebe, ne vodis racuna o drugom. U ovom aranzmanu, kooperacija se neće ostvariti, tj. nece evoluirati..
Situacija je, medjutim, dramatično drugačija ako igrač igra PD veliki broj puta protiv istog oponenta. Ovu varijantu je Akselrod proučavao, i ona je opisana u Dokinsovoj knjizi "Sebični gen". Ova varijanta sa ponovljenim PD "partijama" se zove Iterisana Zatvorenikova dilema (Iterated PD). Na duže staze, igračima najveću dobit donosi kooperacja.
Evolucija, ili razvijanje kooperacije se, kao sto vidimo, oslanja na dva važna faktora: (i) da igrači prepoznaju jedan drugog (poverenje), i (ii) da je, na duge staze, kumulativna zajednička i pojedinačna dobit, pri kooperaciji, veća od svake pojedinačne zasebno.
Najbolja strategija u iterisnoj PD je tzv. Tit-for-Tat (TFT) strategija. Ona se odvija po sledecem jednostavnom pravilu: ako ti pocinjes, pocni sa C, i u svakom sledecem koraku uzvrti onim sto si dobio od oponenta. Dakle, ako ja pocnem sa C, oponent uzvrati s C, ja uzvratim sa C, itd. (Mislim da je najbolji prevod izraza Tit-for-Tat je Milo-za-Drago, tj, strategija MZD). U tom slučaju, ako opponent takodje igra TFT strategiju, naša sekvenca poteza će izgledati ovako;
ON C C C C C C C.....itd
JA C C C C C C C.....itd.
Tada cemo obojica imati najveću dobit. Sve druge strategije su losije od TFT.
Medjutim, ključni factor ovde je da ni jedan od igraca ne sme da zna unapred koliko poteza traje igra. Jer, ako bi se to znalo, onda bi onaj poslednji na potezu uvek mogao da igra NC i da iskoristi poverenje oponenta i stekne ekstra dobit. (Poslednja cigareta pred veanja, na primer).
Nemamo ovde mesta da opisemo i mnoge druge aspekte IPD (o tome postoje citave knjige napisane), ali, jednu je vazno pomenuti.
Naime, TFT kao strategija je nestabilna u odnosu na nesporazume. Zamislimo da sa nekim igram TFT, i sekvenca je prosta - ja C, on C, ja C, on C, itd., srecno saradjujemo. Medjutim, ako, iz nekog razloga, nerazumevanja, suma ili ometanja, ja neko njegovo C u sekvenci kooperacija shvatim, razumem, ili dozivim, kao NC, ja, razume se, uzvratim sa NC (tako mi TFT nalaze), on meni sa NC (tako njemu jegov TFT nalaze), i sada smo presli na medjusobno i uzajamno "ujedanje" (back biting). Nasa sekvenca se tada nastavlja sa ja NC, on NC, ja NC. on NC, itd. Ovo uzajamno uzvracanje NC odgovorima moze da se nastavi u nedogled, i niko od toga nema koristi, kao sto smo videli.
TFT strategija je jedna od prvih stvari koju decu ucimo u odnosima sa drugim ljudima. Kad ih posaljemo u obdaniste ili skoli damo im savet "nemoj drugu decu da udaras" (tj. pocni sa C), ali "ako te neko udarii, ti nemoj da cutis nego uzvrati" (ako dobijes NC, uzvrati sa NC) . [Primetimo da je Hristos rekao "okreni drugi obraz", za raliku od ovoga, imajuci u vidu, verujem, ovu nestabilnost TFT strategije na nesporazume]. Kad se iz ovog izrdi tuca, i decu suocima sa tim - ona odgovaraju sa "on je prvi poceo!", sto kao opravdanje ima rezona, po logici TFT strategije.
Jasno je, nadam se, da je ova priča o zatvorenicima samo metafora, i da su ključni aspekti ove igre mnogo širi nego samo problem zatvorenikove dileme. Svako ce, nadam se, naci primere iz života da ovo sebi ilustruje.