četrtek, 23. april 2015
cfp. Workshop on Fairness, Accountability, and Transparency in Machine Learning
Na delavnici ICML 2015, 11. julija, Lille, Francija, o strojnem učenju ("machine learinig") bodo obravnavali ključno tematiko velikega podatkovja in algoritmičnih predikcij:
kako preprečiti vkodiranje predsodkov v avtomatizirane odločitve?
Pravni odločevalci se bodo s sistemi za pomoč pri odločanju, ki temeljijo na algoritmih, (lahko) hitro skrili za algoritem, češ “the algorithm made me do it”. Vprašanje odgovornosti za odločitve je eno izmed ključnih pri uporabi velikega podatkovja za odločitve.
Submission Deadline: May 1, 2015.
TOPICS OF INTEREST
-------------------------------
We welcome contributions on theoretical models, empirical work, and everything in between, including (but not limited to) contributions that address the following open questions:
* How can we achieve high classification accuracy while preventing discriminatory biases?
* What are meaningful formal fairness properties?
* What is the best way to represent how a classifier or model has generated a particular result?
* Can we certify that some output has an explanatory representation?
* How do we balance the need for knowledge of sensitive attributes for fair modeling and classification with concerns and limitations around the collection and use of sensitive attributes?
* What ethical obligations does the machine learning community have when models affect the lives of real people?
PAPER SUBMISSION
-----------------------------
Papers are limited to four content pages, including figures and tables, and must follow the ICML 2015 format; however, an additional fifth page containing only cited references is permitted. Papers SHOULD be anonymized. Accepted papers will be made available on the workshop website; however, the workshop's proceedings can be considered non-archival, meaning contributors are free to publish their work in archival journals or conferences. Accepted papers will be either presented as a talk or poster (to be determined by the workshop organizers).
Papers should be submitted here: https://easychair.org/conferences/?conf=fatml2015
Deadline for submissions: May 1, 2015
Notification of acceptance: May 10, 2015
ORGANIZATION
----------------------
Workshop Organizers:
Solon Barocas, Princeton University
Sorelle Friedler, Haverford College
Moritz Hardt, IBM Almaden Research Center
Joshua Kroll, Princeton University
Carlos Scheidegger, University of Arizona
Suresh Venkatasubramanian, University of Utah
Hanna Wallach, Microsoft Research NYC
petek, 17. april 2015
Računalnik NAMESTO sodnika?
Na rtvslo.si so objavili intervju z dr. Juretom Leskovcem, enem izmed najuspešnejših slovenskih znanstvenikov, ki delujejo v tujini. Naslov prispevka "Računalnik je lahko boljši od sodnika" je zavajajoč in ne povzema povsem tega, kar je Leskovec v resnici povedal.
Številne anomalije v ameriškem sistemu kaznovanja seveda kličejo po inovacijah. V sistemu, ki ga preveva rasna diskriminacija in ki (tudi) zaradi svoje togosti ustvarja primere, daleč od sodobnega pojmovanja pravičnosti, je iskanje novih rešitev najbrž nekaj temeljnega. Zadeva je šla tako daleč, da je pred časom ameriški profesor Bernard Harcourt hudomušno, a ne neresno, predlagal, da bi boljše odločitve lahko sprejemali z metom kovanca.
Leskovec pravi, da na podlagi analize dveh milijonov primerov iz ameriške sodne prakse razvijajo tehnologijo, ki bo v pomoč sodnikom pri odločanju. Odlično! Ampak:
Ta zbirka demografskih podatkov je ključ do težave ali rešitve problema. Katere podatke bomo zajeli? Kot pravi Leskovec, med njimi ne sme biti vere, barve kože in spola. Ne sme biti torej podatkov, ki bi vodili v diskriminacijo. Problem je v tem, da vsi podatki, ki o nekem posamezniku obstajajo, izvirajo iz njegovih značilnosti, ki so povezane z njegovo bitjo. Povsem utemeljena je za ameriške razmere ocena, da črnski del populacije prebiva na določenih območjih, na drugih ne. Da ima manjši delež v lasti nepremičnino, da je slabše ekonomsko situiran, da je več enostarševskih družin. Kar so vse dejavniki, ki jih program načeloma lahko upošteva, saj sami po sebi niso diskiminatorni. Diskriminatorni postanejo šele, ko med njimi najdemo skupno točko, ki temelji na rasi.
Prepričana sem, da bodo raziskovalci v Leskovčevi skupini vse omenjeno skušali kar se da upoštevati. Pomemben je tudi njegov poudarek, da gre za razvoj orodja, ki bi bil lahko v pomoč sodnikom. Tudi to je lahko sicer problematično, še posebej, kadar v igro vpelje tvegan koncept prognoze, nekoliko manj pa, ko temelji na obstoječih bazah podatkov o dosojenih primerih.
A bolj zaskrbljujoč je novinarjev naslov, ki mu dosledno sledijo tudi komentarji (seveda anonimnih) bralcev, ki si (tudi) v Sloveniji namesto sodnikov želijo več računalnikov. Kar ostaja nezapisano ali premalo poudarjeno, je dejstvo, da za vsakim računalnikom stoji človek ali skupina ljudi, ki zapiše kodo, algoritem, po katerem bo računalnik izvajal analizo. Odgovornost za odločitev s tem samo prestavimo, zabrišemo, možnosti za zlorabo pa ostajajo (le da je nevarnost tovrstne zlorabe kar sistemska in ne vezana na posamezne primere).
Kaj ste ugotovili iz analize dveh milijonov sodniških primerov? Za kakšne primere je šlo?
Sodelovali smo z ekonomisti Harvarda, Cornella in Univerze v Chicagu. Dobili smo dostop do dveh milijonov primerov iz predkazenskih postopkov. Nekdo se, recimo, stepe v baru. Primejo ga, pripeljejo pred sodnika, ta pa se mora odločiti, ali je prestopnik nevaren ali ne. Lahko ga pod varščino spusti, lahko pa ga vtakne v pripor, da tam počaka na vsebinsko sodno obravnavo. Če je nekdo v priporu, je to seveda slabo zanj in obenem slabo za družbo. Če pa ga sodnik spusti, se lahko zgodi, da ta oseba zapusti državo ali ponovi kaznivo dejanje. Tu nastopi vprašanje, ali bi lahko sodnikom kakor koli pomagali k boljšemu odločanju.
Analiza nam je prinesla dve zanimivi ugotovitvi. Prva: objektiven program deluje 60 odstotkov bolje kot sodniki v ZDA. Razlika nastane v tem, da lahko program v nasprotju s človeškim sodnikom natančno analizira dva milijona sodnih primerov in najde vzorce v lastnostih prestopnikov, ki so povezani z negativnim obnašanjem v prihodnosti. Druga: analize kažejo, da se človek preveč osredini na osebne karakteristike. Program ima namreč dostop samo do kartoteke osumljenca. Sodnik osebo še vidi in pri presoji uporablja neka dodatna merila, ki ga vodijo v neoptimalne odločitve. To še delamo, a vsi, ki so videli dozdajšnje rezultate, so bili kar navdušeni in jih je zadeva zelo zanimala. Kmalu bomo delo objavili. Treba pa je poudariti, da ideja ni, da bi računalniki zamenjali ljudi, ampak kako lahko računalniki in ljudje skupaj sprejemajo boljše odločitve.
vir: http://cs.stanford.edu |
Številne anomalije v ameriškem sistemu kaznovanja seveda kličejo po inovacijah. V sistemu, ki ga preveva rasna diskriminacija in ki (tudi) zaradi svoje togosti ustvarja primere, daleč od sodobnega pojmovanja pravičnosti, je iskanje novih rešitev najbrž nekaj temeljnega. Zadeva je šla tako daleč, da je pred časom ameriški profesor Bernard Harcourt hudomušno, a ne neresno, predlagal, da bi boljše odločitve lahko sprejemali z metom kovanca.
Leskovec pravi, da na podlagi analize dveh milijonov primerov iz ameriške sodne prakse razvijajo tehnologijo, ki bo v pomoč sodnikom pri odločanju. Odlično! Ampak:
Nekdo ima kartoteko, drugi je nima. Podatki so od človeka do človeka različno dostopni. Kje so omejitve uporabnosti te metode - le na ljudeh s kriminalno preteklostjo?
Ne nujno. Veliko stvari se lahko vprašaš. Koliko časa nekdo živi na istem naslovu? Ima nepremičnino v lasti ali plačuje najemnino? Ima mobilni telefon? Veliko je demografskih podatkov. Sicer med njimi ne sme biti vere, barve kože in spola. Socialno-demografska kartoteka je zelo velika in kriminalna kartoteka sploh ni nujna. Čeprav je v realnosti velik del teh ljudi povratnikov.
Ta zbirka demografskih podatkov je ključ do težave ali rešitve problema. Katere podatke bomo zajeli? Kot pravi Leskovec, med njimi ne sme biti vere, barve kože in spola. Ne sme biti torej podatkov, ki bi vodili v diskriminacijo. Problem je v tem, da vsi podatki, ki o nekem posamezniku obstajajo, izvirajo iz njegovih značilnosti, ki so povezane z njegovo bitjo. Povsem utemeljena je za ameriške razmere ocena, da črnski del populacije prebiva na določenih območjih, na drugih ne. Da ima manjši delež v lasti nepremičnino, da je slabše ekonomsko situiran, da je več enostarševskih družin. Kar so vse dejavniki, ki jih program načeloma lahko upošteva, saj sami po sebi niso diskiminatorni. Diskriminatorni postanejo šele, ko med njimi najdemo skupno točko, ki temelji na rasi.
Prepričana sem, da bodo raziskovalci v Leskovčevi skupini vse omenjeno skušali kar se da upoštevati. Pomemben je tudi njegov poudarek, da gre za razvoj orodja, ki bi bil lahko v pomoč sodnikom. Tudi to je lahko sicer problematično, še posebej, kadar v igro vpelje tvegan koncept prognoze, nekoliko manj pa, ko temelji na obstoječih bazah podatkov o dosojenih primerih.
A bolj zaskrbljujoč je novinarjev naslov, ki mu dosledno sledijo tudi komentarji (seveda anonimnih) bralcev, ki si (tudi) v Sloveniji namesto sodnikov želijo več računalnikov. Kar ostaja nezapisano ali premalo poudarjeno, je dejstvo, da za vsakim računalnikom stoji človek ali skupina ljudi, ki zapiše kodo, algoritem, po katerem bo računalnik izvajal analizo. Odgovornost za odločitev s tem samo prestavimo, zabrišemo, možnosti za zlorabo pa ostajajo (le da je nevarnost tovrstne zlorabe kar sistemska in ne vezana na posamezne primere).
torek, 14. april 2015
Sveže ideje za pravo v dobi velikega podatkovja (II. del)
Michael
Mattioli v članku »Disclosing
Big Data« razpravlja o
pravicah intelektualne lastnine na podatkovnih zbirkah. Na podlagi izčrpne
analize institutov poslovne skrivnosti, patenta in avtorske pravice v luči
velikega podatkovja zaključi, da pravo
intelektualne lastnine lastnikov oz. imetnikov baz velikega podatkovja ne
spodbuja v zadostni meri k razkritju metod in praks zbiranja in obdelave
podatkov, kar onemogoča, da bi se v polni meri izkoristil (ekonomski) potencial
velikega podatkovja, hkrati pa lahko bistveno oteži razvoj inovativnosti.
Posledično avtor meni, da so na tem
področju potrebni novi pravni pristopi in predlaga sui generis obliko varstva
intelektualne lastnine, ki jo poimenuje 'podatkovna pravica' ('dataright').
Ta institut bi bil na voljo prosilcem, ki bi jasno in v popolnosti razkrili
opise svojih podatkovnih zbirk in metod za njihovo oblikovanje ter podatke, ustvarjene
s temi metodami, pri čemer bi bil opredeljen s tremi značilnostmi, ki so tudi
sicer lastne pravicam intelektualne lastnine: 1) predmet pravice, 2) izključna
pravica na predmetu in 3) niz pravil, ki zagotavljajo ekskluzivnost.
Alessandro Mantelaro pa v članku »Future of consumer data protection in the
E.U.: Re-thinking the “notice and consent” paradigm in the new era of
predictive analytics«
analizira uveljavljene koncepte vnaprejšnjega soglasja posameznika za
obdelavo njegovih osebnih podatkov in ugotavlja, da ljudje večinoma ne razumejo
procesov obdelave velikega podatkovja in tudi ne namenov te obdelave, kar
pomeni, da realno ne morejo sprejemati svobodnih in ozaveščenih (informiranih) 'opt-in'
odločitev v zvezi s tem. Avtor zato na
področju obdelave velikega podatkovja predlaga sprejem pravil, ki bi temeljila na
sistemu poznejšega odstopa ('opt-out'). Hkrati meni, da bi bilo
potrebno zmanjšati vlogo posameznika in okrepiti vlogo neodvisnih nadzornih
institucij za varstvo osebnih podatkov. Za razliko od posameznikov imajo te
institucije namreč zadostno tehnično znanje, da lahko ocenijo tveganja, ki jih
prinaša posamezna obdelava podatkov, na voljo pa imajo tudi pravne vzvode za
obvladovanje teh tveganj. Poleg tega jim njihov status omogoča, da lahko uravnotežijo
različne (kdaj tudi nasprotujoče si) interese različnih subjektov na področju
obsežnih projektov zbiranja podatkov in podatkovnega rudarjenja. V zvezi s tem
avtor predlaga uzakonitev stroge vsestranske vnaprejšnje ocene tveganj, ki se
ne bi nanašala le na obdelavo podatkov, ampak tudi na družbene učnike in etična
vprašanja, povezana z uporabo osebnih podatkov, pri čemer bi to oceno tveganj
morala opraviti tretja oseba, nadzor pa bi opravljali pristojni organi za
varstvo podatkov.
Naročite se na:
Objave (Atom)