... ili "Otkud blogerima tolika želja za Restartovanjem?!?"
Piše @a_jovicic
Starije blogo-kolege verovatno se sećaju izraza "Tehnika narodu!" koji je u nekadašnjoj SFRJ korišćen za promociju naučno-tehničkih dostignuća ondašnje države. Obzirom da živimo u "modernim vremenima", odlučili smo da probamo sličnu akciju u cilju demistifikovanja jedne aktivnosti koja je posebno učestala u vreme izbora (koji svakako nisu retki na ovim prostorima) ... istraživanja raspoloženja masa kroz sprovodjenje anketa.
Pre nešto više od nedelju dana @uros_vozdovac, @little_radojica i moja malenkost, pustila je "u divljinu" Predizbornu anketu v2.0 sa idejom da popunimo prazninu koja postoji u istraživanjima profesionalnih agencija (ili bar neobjavljivanja rezultata u javnosti) po pitanju trendova kretanja apstinenata i "belih listića" sa prošlih izbora. Ono što nas je iznenadilo je odziv i rezultati koji smo tim "istraživanjem" dobili (kompletne tabele su date u dokumentu sa kraja teksta a kao "hint" evo procenjenog broja glasova koje pobednik on-line izbora može da osvoji na onim pravim ... 323278 glasova odnosno 7.81%)
Odmah da se razumemo ... On-line ankete, na današnjem nivou korišćenja Interneta u Srba, nisu u stanju da "snime" raspoloženje kompletne populacije po bilo kom pitanju a pogotovo ne po pitanju prognoza izbornih rezultata. Metodologija priprema ankete podrazumeva da se po definisanju ciljeva istraživanja, odrede tzv. stratumi ispitanika koji će reprezentovati kompletnu populaciju a onda definišu pitanja koja će im biti postavljena. Nismo ni očekivali da ćemo biti u stanju da "pogodimo" broj glasova SNS-a ili SPS-a obzirom da njihov "rezervoar glasova" ne predstavlja grupa ljudi koja svakodnevno i intenzivno koriste računare (SNS svakako ima precizniji uvid u svoje "sigurne glasove" pošto su njegovi anketari prevrnuli svaki kamen zemlje Srbije). Pretpostavka od koje smo pošli je da on-line uzorak može da reprezentuje stratum glasača razočaranih politikom DS-a pre prošlih izbora koji su njenog vodju "kaznili" neuobičajenim nivoom apstinencije i akcijom "belih listića". Deo tadašnjih glasača DS-a i LDP-a takodje bi mogao da bude reprezentovan učesnicima ovakve ankete. Pa da krenemo redom ...
Prvo što nas je iznenadilo je odziv. Anketa je još uvek "živa" (u trenutku pisanja ovog teksta dostignuta je cifra od 3229 ispitanika). Pošto postupak obrade podataka zahteva neko vreme morali smo da uhvatimo "snapshot" u jednom trenutku. On se desio u momentu kada je 3162 ispitanika odgovorilo na pitanja. Evo kako je izgledala "izlaznost" tokom ankete ...
Sledeći korak je "čišćenje" prikupljenog materijala od neispravno upisanih odgovora (a sva tzv. "otvorena" pitanja su bila magnet za raznorazne komentare od kojih su neki definitivno bili korisni ... npr. nismo predvideli da ispitanik može da bude sprečen da izadje na izbore ... ako na primer živi u inostranstvu a konzulat nije bio u stanju da mu obezbedi glasanje ... ili to što nismo predvideli kategoriju "preduzetnik-samozaposlen" kao odgovor na pitanje o zaposlenju). Takodje je svakom zapisu pridružen podatak o geo-lokaciji IP adrese (odnosno državi i gradu iz koga je anketa popunjavana) sa idejom da se isti koriste za detekciju "lažljivih" ispitanika obzirom da je postojalo pitanje o regionu. Na žalost, neki od velikih domaćih Internet provajdera nisu baš ažurni po pitanju informacija o gradu (ili koriste interni adresni prostor za rad u mreži a centralizovan izlaz ka spoljnom svetu) tako da nam ova informacija nije puno pomogla. Takodje smo odustali i od odbacivanja višestrukih odgovora sa istih IP adresa iz sličnog razloga (tj. deljenja adresnog prostora). Odlučeno je da se odbace samo zapisi onih ispitanika koji nisu odgovorili na pitanja o izlasku na prošle i glasu na ovim, kao i nedostatak odgovora po pitanju stručne spreme, godina starosti i regiona. Takodje i lica mladja od 18 godina nisu uzeta u dalju obradu a i par ispitanika koji su na skoro svako "otvoreno" pitanje davali "šaljiv" komentar. U datoteci koja se nalazi na kraju teksta se nalaze i ovakvi odgovori, odnosno nismo brisali sumnjive zapise već im samo dodeljivali atribut "spam" i kasnije filtrirali iz dalje obrade.
I pored nade da će uzorak ipak biti malo "raznolikiji", ispostavilo se da nikako ne može biti reprezentativan za kompletnu populaciju. Odnos muških i ženskih ispitanika (80:20), stručna sprema (57% visoka, 16% srednja, 11% viša i samo 2% niža), teritorijalni odnos (46% Beograd, 24% uža Srbija, 21% Vojvodina) jednostavno ne odgovaraju raspodeli u populaciji tako da bi svaki pokušaj ponderisanja rezultovao GIGO efektom (Garbage In - Garbage Out). No to svakako ne znači da su podaci potpuno neupotrebljivi. Pod pretpostavkom o "belom" stratumu i ograničenjem na Beograd i Vojvodinu, pokušali smo predvidjanje broja glasova otkrivenih "pattern"-a. Takodje su demografska pitanja iskorišćena za otkrivanje "zakonitosti" vezanih za aktivne blogere (pišu i komentarišu) i ispitanu on-line populaciju.
Pa ko je "pobednik" predstojećih izbora? Ako bi se pitala on-line zajednica, blogo-kolega Saša Radulović bi sam formirao vladu (1669 ispitanika odnosno 57% je "glasalo" za njega). Prvi sledeći je DS (sa "skromnih" 396 ispitanika odnosno 13%) pa apstinenti (213 glasova, 7%) i "beli listići" (125 glasova, 4%). Dveri, SNS, LDP i DSS su oko 3% ... ostali ispod 2%. Naravno ... ovo nikako ne odgovara stvarnom stanju ali da pogledamo značajnije "pattern-e" dobijene na osnovu analize teritorijalnog izjašnjavanja i odgovora na pitanje o prošlim izborima ...
76.6% ispitanika sa teritorije Vojvodine koji su na prošlim izborima bili "beli", glasaće za Restart, 76.1% istih sa teritorije uže Srbije i 70.1% sa teritorije Beograda.
68.8% apstinenata sa teritorije uže Srbije, 68% sa teritorije Vojvodine i 60.1% sa teritorije Beograda.
Interesantan je i drastičan pad LDP-a ... 62.8% sa teritorije Beograda, 62.5% iz Vojvodine i 60.2% iz uže Srbije se izjasnilo da će glasati za Restart.
Čak i nekih 44% glasača DS-a se izjasnilo za Restart.
Jedina druga partija koja se pojavljuje medju najjačim "pattern-ima" je DS sa "skromnih" 42.2% svojih glasača sa teritorije Beograda.
Ako se u obzir uzmu samo aktivni blogeri (nekih 165 koji pišu i 864 koji komentarišu), ovi procenti (tj. tzv. Confidence level) su čak i viši. Ako ništa drugo, čini se da blogeri i pored toga što se često ne slažu sa Sašinim načinom administracije sopstvenih blog-ova (češćom upotrebom banovanja nego obično), u značajnom broju podržavaju njegove napore za uvodjenjem reda u državi.
Pa da vidimo koliko bi "sigurnih" glasova Restart teoretski mogao da osvoji ako se kao "rezervoar" koriste samo apstinenti, "beli" i LDP-ovi glasači sa prošlih izbora.
Na izborima 2012-te je u užoj Srbiji glasalo 68392 ljudi manje, 32000 je bilo više "belih" nego 2008-me. LDP je osvojio 115688 glasova.
U Beogradu je taj odnos 39067 apstinenata, 26796 "belih" i 63156 LDP glasova a u Vojvodini 50304 apstinenata, 24628 "belih" i 75570 LDP birača.
Ako se gornji procenti primene na ove brojke, u zbiru dobijamo 323278 glasova. Uz izlaznost iz 2008-me (koja je bila najveća do tada) to čini 7.81%. U ovo naravno nisu uračunati glasovi koje bi na Restart mogli da se preliju iz DS-a. Čak i sa trećinom od procenjenih glasova iz uže Srbije, zbir iznosi 5.54%
Za kraj evo i par interesantnih "pattern-a" (nevezanih za izjašnjavanje na predstojećim izborima) o aktivnim blogerima (autorskim i "komentatorskim") ...
92% autorskih blogera koji su na prošlim izborima glasali za LDP koristi Twitter :D
90.9% blogera starosti 35-44 kojima je religija malo bitna u životu i zaposleni su u javnim ustanovama ima visoku stručnu spremu.
88.9% blogera starosti 25-34 iz Beograda, koji ima umeren odnos prema svojoj naciji i koristi Google+ radi u privatnim firmama ...
Prijatno vam bilo "igranje" sa podacima!
------
U prilogu se nalazi tabela polupreradjenih podataka ankete (kategorisana neka pitanja iz skupa "otvorenih")
(raspakovati .xls u /tmp/ folder ili promeniti putanju "Read Excel" komponente po import-u projekta)
... RapidMiner skript za izradu analiza datih u tekstu
(potrebno ga je "uvesti" kroz "File :: Import Process" opciju menu-ja)
... RapidMiner aplikaciju možete "skinuti" sa ...
(neophodna prethodna registracija). Preporučujem korišćenje verzije 5 koja je Free softver a po logovanju je možete naći pod linkom ...
Community Edition Download the community edition here.
(trenutno aktuelna verzija 6 ima free trial i posle toga postaje Community verzija sa redukovanim funkcionalnostima ali nije probana u radu sa gore datim skriptom)
... i tabele sa detaljnim rezultatima analiza pominjanih u tekstu
... Uvod u Data-mining (KDD) slajdove možete naći na ...
(počev od 39-te stranice)
... Zvanični rezultati RIK-a (po opštinama) za Parlamentarne izbore ... 2012-te i 2008-me