četrtek, 23. april 2015

cfp. Workshop on Fairness, Accountability, and Transparency in Machine Learning


Na delavnici ICML 2015, 11. julija, Lille, Francija, o strojnem učenju ("machine learinig") bodo obravnavali ključno tematiko velikega podatkovja in algoritmičnih predikcij: 

kako preprečiti vkodiranje predsodkov v avtomatizirane odločitve?

Pravni odločevalci se bodo s sistemi za pomoč pri odločanju, ki temeljijo na algoritmih, (lahko) hitro skrili za algoritem, češ “the algorithm made me do it”. Vprašanje odgovornosti za odločitve je eno izmed ključnih pri uporabi velikega podatkovja za odločitve.


Submission Deadline: May 1, 2015.

TOPICS OF INTEREST
-------------------------------

We welcome contributions on theoretical models, empirical work, and everything in between, including (but not limited to) contributions that address the following open questions:

* How can we achieve high classification accuracy while preventing discriminatory biases?

* What are meaningful formal fairness properties?

* What is the best way to represent how a classifier or model has generated a particular result?

* Can we certify that some output has an explanatory representation?

* How do we balance the need for knowledge of sensitive attributes for  fair modeling and classification with concerns and limitations around the collection and use of sensitive attributes?

* What ethical obligations does the machine learning community have when models affect the lives of real people?

PAPER SUBMISSION
-----------------------------

Papers are limited to four content pages, including figures and tables, and must follow the ICML 2015 format; however, an additional fifth page containing only cited references is permitted. Papers SHOULD be anonymized. Accepted papers will be made available on the workshop website; however, the workshop's proceedings can be considered non-archival, meaning contributors are free to publish their work in archival journals or conferences. Accepted papers will be either presented as a talk or poster (to be determined by the workshop organizers). 

Papers should be submitted here: https://easychair.org/conferences/?conf=fatml2015

Deadline for submissions: May 1, 2015
Notification of acceptance: May 10, 2015

ORGANIZATION
----------------------

Workshop Organizers:

Solon Barocas, Princeton University
Sorelle Friedler, Haverford College
Moritz Hardt, IBM Almaden Research Center
Joshua Kroll, Princeton University
Carlos Scheidegger, University of Arizona
Suresh Venkatasubramanian, University of Utah
Hanna Wallach, Microsoft Research NYC

petek, 17. april 2015

Računalnik NAMESTO sodnika?

Na rtvslo.si so objavili intervju z dr. Juretom Leskovcem, enem izmed najuspešnejših slovenskih znanstvenikov, ki delujejo v tujini. Naslov prispevka "Računalnik je lahko boljši od sodnika" je zavajajoč in ne povzema povsem tega, kar je Leskovec v resnici povedal.

Kaj ste ugotovili iz analize dveh milijonov sodniških primerov? Za kakšne primere je šlo?
Sodelovali smo z ekonomisti Harvarda, Cornella in Univerze v Chicagu. Dobili smo dostop do dveh milijonov primerov iz predkazenskih postopkov. Nekdo se, recimo, stepe v baru. Primejo ga, pripeljejo pred sodnika, ta pa se mora odločiti, ali je prestopnik nevaren ali ne. Lahko ga pod varščino spusti, lahko pa ga vtakne v pripor, da tam počaka na vsebinsko sodno obravnavo. Če je nekdo v priporu, je to seveda slabo zanj in obenem slabo za družbo. Če pa ga sodnik spusti, se lahko zgodi, da ta oseba zapusti državo ali ponovi kaznivo dejanje. Tu nastopi vprašanje, ali bi lahko sodnikom kakor koli pomagali k boljšemu odločanju.
Analiza nam je prinesla dve zanimivi ugotovitvi. Prva: objektiven program deluje 60 odstotkov bolje kot sodniki v ZDA. Razlika nastane v tem, da lahko program v nasprotju s človeškim sodnikom natančno analizira dva milijona sodnih primerov in najde vzorce v lastnostih prestopnikov, ki so povezani z negativnim obnašanjem v prihodnosti. Druga: analize kažejo, da se človek preveč osredini na osebne karakteristike. Program ima namreč dostop samo do kartoteke osumljenca. Sodnik osebo še vidi in pri presoji uporablja neka dodatna merila, ki ga vodijo v neoptimalne odločitve. To še delamo, a vsi, ki so videli dozdajšnje rezultate, so bili kar navdušeni in jih je zadeva zelo zanimala. Kmalu bomo delo objavili. Treba pa je poudariti, da ideja ni, da bi računalniki zamenjali ljudi, ampak kako lahko računalniki in ljudje skupaj sprejemajo boljše odločitve.

vir: http://cs.stanford.edu


Številne anomalije v ameriškem sistemu kaznovanja seveda kličejo po inovacijah. V sistemu, ki ga preveva rasna diskriminacija in ki (tudi) zaradi svoje togosti ustvarja primere, daleč od sodobnega pojmovanja pravičnosti, je iskanje novih rešitev najbrž nekaj temeljnega. Zadeva je šla tako daleč, da je pred časom ameriški profesor Bernard Harcourt hudomušno, a ne neresno, predlagal, da bi boljše odločitve lahko sprejemali z metom kovanca.

Leskovec pravi, da na podlagi analize dveh milijonov primerov iz ameriške sodne prakse razvijajo tehnologijo, ki bo v pomoč sodnikom pri odločanju. Odlično! Ampak:


Nekdo ima kartoteko, drugi je nima. Podatki so od človeka do človeka različno dostopni. Kje so omejitve uporabnosti te metode - le na ljudeh s kriminalno preteklostjo?
Ne nujno. Veliko stvari se lahko vprašaš. Koliko časa nekdo živi na istem naslovu? Ima nepremičnino v lasti ali plačuje najemnino? Ima mobilni telefon? Veliko je demografskih podatkov. Sicer med njimi ne sme biti vere, barve kože in spola. Socialno-demografska kartoteka je zelo velika in kriminalna kartoteka sploh ni nujna. Čeprav je v realnosti velik del teh ljudi povratnikov.

Ta zbirka demografskih podatkov je ključ do težave ali rešitve problema. Katere podatke bomo zajeli? Kot pravi Leskovec, med njimi ne sme biti vere, barve kože in spola. Ne sme biti torej podatkov, ki bi vodili v diskriminacijo. Problem je v tem, da vsi podatki, ki o nekem posamezniku obstajajo, izvirajo iz njegovih značilnosti, ki so povezane z njegovo bitjo. Povsem utemeljena je za ameriške razmere ocena, da črnski del populacije prebiva na določenih območjih, na drugih ne. Da ima manjši delež v lasti nepremičnino, da je slabše ekonomsko situiran, da je več enostarševskih družin. Kar so vse dejavniki, ki jih program načeloma lahko upošteva, saj sami po sebi niso diskiminatorni. Diskriminatorni postanejo šele, ko med njimi najdemo skupno točko, ki temelji na rasi.

Prepričana sem, da bodo raziskovalci v Leskovčevi skupini vse omenjeno skušali kar se da upoštevati. Pomemben je tudi njegov poudarek, da gre za razvoj orodja, ki bi bil lahko v pomoč sodnikom. Tudi to je lahko sicer problematično, še posebej, kadar v igro vpelje tvegan koncept prognoze, nekoliko manj pa, ko temelji na obstoječih bazah podatkov o dosojenih primerih. 

A bolj zaskrbljujoč je novinarjev naslov, ki mu dosledno sledijo tudi komentarji (seveda anonimnih) bralcev, ki si (tudi) v Sloveniji namesto sodnikov želijo več računalnikov. Kar ostaja nezapisano ali premalo poudarjeno, je dejstvo, da za vsakim računalnikom stoji človek ali skupina ljudi, ki zapiše kodo, algoritem, po katerem bo računalnik izvajal analizo. Odgovornost za odločitev s tem samo prestavimo, zabrišemo, možnosti za zlorabo pa ostajajo (le da je nevarnost tovrstne zlorabe kar sistemska in ne vezana na posamezne primere).

torek, 14. april 2015

Sveže ideje za pravo v dobi velikega podatkovja (II. del)


Michael Mattioli v članku »Disclosing Big Data« razpravlja o pravicah intelektualne lastnine na podatkovnih zbirkah. Na podlagi izčrpne analize institutov poslovne skrivnosti, patenta in avtorske pravice v luči velikega podatkovja zaključi, da  pravo intelektualne lastnine lastnikov oz. imetnikov baz velikega podatkovja ne spodbuja v zadostni meri k razkritju metod in praks zbiranja in obdelave podatkov, kar onemogoča, da bi se v polni meri izkoristil (ekonomski) potencial velikega podatkovja, hkrati pa lahko bistveno oteži razvoj inovativnosti. Posledično avtor meni, da  so na tem področju potrebni novi pravni pristopi in predlaga sui generis obliko varstva intelektualne lastnine, ki jo poimenuje 'podatkovna pravica' ('dataright'). Ta institut bi bil na voljo prosilcem, ki bi jasno in v popolnosti razkrili opise svojih podatkovnih zbirk in metod za njihovo oblikovanje ter podatke, ustvarjene s temi metodami, pri čemer bi bil opredeljen s tremi značilnostmi, ki so tudi sicer lastne pravicam intelektualne lastnine: 1) predmet pravice, 2) izključna pravica na predmetu in 3) niz pravil, ki zagotavljajo ekskluzivnost.

Alessandro Mantelaro pa v članku »Future of consumer data protection in the E.U.: Re-thinking the “notice and consent” paradigm in the new era of predictive analytics«  analizira uveljavljene koncepte vnaprejšnjega soglasja posameznika za obdelavo njegovih osebnih podatkov in ugotavlja, da ljudje večinoma ne razumejo procesov obdelave velikega podatkovja in tudi ne namenov te obdelave, kar pomeni, da realno ne morejo sprejemati svobodnih in ozaveščenih (informiranih) 'opt-in' odločitev v zvezi s tem.  Avtor zato na področju obdelave velikega podatkovja predlaga sprejem pravil, ki bi temeljila na sistemu poznejšega odstopa ('opt-out'). Hkrati meni, da bi bilo potrebno zmanjšati vlogo posameznika in okrepiti vlogo neodvisnih nadzornih institucij za varstvo osebnih podatkov. Za razliko od posameznikov imajo te institucije namreč zadostno tehnično znanje, da lahko ocenijo tveganja, ki jih prinaša posamezna obdelava podatkov, na voljo pa imajo tudi pravne vzvode za obvladovanje teh tveganj. Poleg tega jim njihov status omogoča, da lahko uravnotežijo različne (kdaj tudi nasprotujoče si) interese različnih subjektov na področju obsežnih projektov zbiranja podatkov in podatkovnega rudarjenja. V zvezi s tem avtor predlaga uzakonitev stroge vsestranske vnaprejšnje ocene tveganj, ki se ne bi nanašala le na obdelavo podatkov, ampak tudi na družbene učnike in etična vprašanja, povezana z uporabo osebnih podatkov, pri čemer bi to oceno tveganj morala opraviti tretja oseba, nadzor pa bi opravljali pristojni organi za varstvo podatkov.