Mérföldkövek az adatújságírás történetében
Megint okosodunk az inkLinkre adatújságírásról szóló sorozatunk második részével. Vigyázat: kiszivárogtatott adatok tömkelege van a cikkben!
Előző cikkünkben bemutattuk, hogyan hatottak az új IT-trendek és a társadalomtudományi kutatások az újságírásra, és hogyan alakult ki az adatújságírás. Most pedig folytatjuk történeti összefoglalásunkat.
A következő nagy robbanás a hírszolgáltatásban az internet elterjedése volt, melynek következtében létrejöttek a híroldalak, és minden valamire való lap online kiadással jelentkezett a világhálón. Ekkor jelentek meg az úgynevezett MVC-keretrendszerek (angolul model-view-controller), amik igen népszerűek lettek a hír- és tartalomiparban. A megoldás lényege, hogy elkülönítik az adatok reprezentálását és megjelenítését. Így egy modellhez akár több nézet is tartozhat, amit a két egység között közvetítő kontroller határoz meg. 2005-ben az Egyesült Államok egy kansasi kisvárosában, Lawrence-ben a helyi lap megengedte fejlesztőinek, hogy saját MVC-keretrendszert fejlesszenek ki, így született meg a Django webprogramozási keretrendszer, amit a Pinterest és a Mozilla mellett olyan nagy híroldalak is használnak, mint a The Washington Times és a Public Broadcasting Service.
Adrian Holovaty esszéjében azt kifogásolja, hogy az újságcikkek bevett struktúra szerint épülnek fel, a szerkesztőségekben pedig a sztori-centrikus világnézet uralkodik. Például egy esküvői bejelentésben szerepel a házasulandó pár neve, az eljegyzés és az esküvő dátuma, a vőlegény és a menyasszony születési helye, illetve még néhány kedves, boldog információ. Ez a séma nem nagyon változik. Holovaty persze nem azt szeretné elérni, hogy a megszokott körítés helyett minden információ táblázatokba kerülve jelenjen meg, de arra törekszik, hogy a lehető legértékesebb formátumban lehessen publikálni a fontos, aktuális információkat.
Adrian Holovaty, a Django egyik fejlesztője 2006-ban publikálta az A fundamental way newspaper sites need to change (Ahogy a híroldalaknak alapvetően meg kell változniuk) című esszét, amit a modern adatújságírás manifesztumának tartanak. Az esszé lényegében a hírekre is kiterjeszti az MVC-alapelvet. Mivel a narráció célja, hogy a tényadatokat (kik, mikor, hol és mit csináltak) kontextusba helyezze, érdemes külön is kigyűjteni az adatokat. Például egy helyi lapnál minden egyes betörésről születhet egy cikk, de egyben bővül is az adatbázisa, és az olvasók maguk is megnézhetik, hogy hol és mikor történtek betörések. Így lehetőség nyílik arra, hogy alaposabban megvizsgáljuk az adatokat és összevessük őket más tényezőkkel is (pl. van-e rendőrőrs a betörések közelében, mekkora arrafelé a munkanélküliség, milyen más bűncselekmények történtek az adott környéken stb.). Holovaty alapított is egy startupot ötletére, az Everyblockot, amit sajnos új tulajdonosa a napokban bezárt. Az esszé hatása azonban tovább él, és sokakat inspirál.
2006-ban lelkes aktivisták alapították a WikiLeaks alapítványt és portált. A híres kiszivárogtatások nagy kihívás elé állították a szerkesztőségeket, hiszen a WikiLeaks első évében több mint 1,2 millió dokumentum került napvilágra különböző ügyekben. Ezek áttekintése és értelmezése szinte lehetetlen feladat lenne a modern technika vívmányai nélkül. A 2010-ben kiszivárogtatott Iraq War Logs (iraki hadi cselekmények jelentései) összefoglalója egy 92,201 soros táblázat, ami tartalmazza a harci cselekmények helyét, idejét és rövid leírását. Ennek egy része hagyományos módszerekkel is elemezhető, de a leírások áttekintéséhez be kellett vetni a nyelvtechnológiát is.
Jonathan Stray adatújságíró és programozó az Associated Pressnél vezette a szöveges megjegyzések feldolgozására irányuló munkát, és felismerte, hogy egy általános problémával került szembe: nem csak a kiszivárogtatások során özönlenek a dokumentumok a szerkesztőségekbe, ugyanis az ún. FOIA (Freedom of Information Act – az információs szabadságról szóló amerikai törvény) keretében kikért információt a hatóságok gyakran szeretik átadni sok lényegtelen kísérő dokumentummal. A törvényes, ám cseppet sem etikus eljárás célja, hogy minél később akadjon az információt kérő a számára fontos adatokra. Ám maguk a szerkesztőségek is sok adatot halmoztak fel archívumaikban. A nyelvtechnológia segít abban, hogy kinyerhessük a szükséges információt és Holovaty elveinek megfelelően külön eltárolhassuk az adatokat. Stray a Knight Foundation támogatásával elindította az ilyen problémák megoldására alkotott The Overview Projectet.
A technológia és az újságírás sikeresen egymásra talált a közelmúltban és sokan gondolták azt, hogy az adatok korában a társadalomtudományi ihletettségű úgynevezett precíziós újságírás (precision journalism) pepecselős adatgyűjtése helyett, a nyílt és az ilyen-olyan módon megszerezhető adatok leveszik a kutatás terhét az újságírók válláról. A 2011-es angliai zavargások azonban rámutattak arra, hogy nem ilyen egyszerű a helyzet – sorozatunk következő részében erről számolunk be.
Április 6-án A Knight-Mozilla OpenNews támogatásával szervezzük az első adatújságírás-napot. Ennek keretében külföldi és hazai szakemberek segítségével ismerhetik meg az érdeklődők – újságírók, nyelvészek, programozók – az adatújságírás elméletét és gyakorlatát. Az előadásokkal párhuzmosan egy hack-day zajlik: ennek keretében lelkes fejlesztők próbálnak az újságírók számára használható nyílt forráskódú eszközöket alkotni. Az inkLink helyszíne a MÚOSZ-székház (1064 Budapest, Vörösmarty u. 47/A), a programok délelőtt 9 órakor kezdődnek.