maandag 21 november 2011

Datajournalistiek: de journalist als alpinist

Proefdraaien zoekmachine bij Clingendael, oktober 2011.


Foto's gemaakt op 19 november 2011 bij Legebeke Legaat van boven naar beneden en links naar rechts: Bart Jacobs, Chris Kijne (VPRO), Pieter Klein (RTL-Nieuws), Denis Brentjes (RU), Rik Harink (RU), Nick Overdijk (RU), Hans Laroes (voorm. NOS), Joost Oranje (NRC) en Henk van Ess (VVOJ).
Afgelopen zaterdag organiseerde het Legebeke Legaat een forum over wikileaks en de 'Argos Machinery'. Met die machine wordt een indexprogramma bedoeld dat effectief zoeken mogelijk maakt in drie bergen wikileaks documenten: de militaire logboeken uit Afghanistan en Irak en de Amerikaanse diplomatieke ambtsberichten (in totaal zevenhonderdduizend bestanden). Dat is een berg waar je het liefst omheen gaat.

Gerard Legebeke is de veel te vroeg gestorven eindredacteur van het VPRO/VARA radioprogramma Argos. Het legaat is opgericht om zijn motto 'de waarheid en niets dan de waarheid' kracht bij te zetten en te bevorderen dat onderzoeksjournalistiek een kerntaak van de publieke omroep is en blijft. Voor het Legebeke Legaat is wikileaks en zo'n zoekmachine een uitgelezen onderwerp, zeker omdat Argos zelf een hoofdrol speelde.

De redactie van Argos kwam er al snel achter dat het doorspitten van alle informatie met gewone zoekmethoden gekkenwerk was. Ik was die gek die voor hen door de Afghanistan logboeken ging en weken ploeterde om 2.500 documenten te selecteren waarin sprake was van operaties en activiteiten in Uruzgan en/of Nederlandse activiteiten in Afghanistan (die resultaten staan op mijn site).

Tijdens dat zoeken werd duidelijk:

1. dat bestand na bestand openklikken om te lezen bewerkelijk was en niet efficiënt. Grote digitale bestanden lees ik gewoonlijk met de Ctrl-f functie en ik denk dat veel mensen dat doen. Dat is mogelijk als gevonden informatie in één bestand staat.

2. dat ook een krant een dergelijk en even uitgebreid onderzoek had gedaan. Argos kreeg die gegevens en ik vergeleek mijn vondsten met die van hen. Zij hadden pagina's gevonden die ik mistte en andersom. Er moest een preciezere methode mogelijk zijn.

3. je door toenemende specifieke kennis allengs meer zoektermen krijgt, maar dat steeds opnieuw door die bulk heen gaan te tijdsintensief was.

Een snellere zoekmethode en betere verwerking van zoektochten, leek ons (o.a. Huub Jaspers van Argos en Sam Streefkerk van ONJO (het samenwerkingsverband van de programma's voor onderzoeks journalistiek van de publieke omroep)) een ICT-oplossing. Geen van allen waren we in staat met meer dan rudimentaire kennis van digitaal indexeren en datamining aan een dergelijke oplossing te werken. Op dat moment blijkt dat de goede naam en Nijmeegse connectie van Argos goud waard zijn. Jaspers kwam hoogleraar computerbeveiliging Bart Jacobs tegen en die – hoewel hij dat normaal gesproken niet doet – vroeg tijdens een college op de Radbout Universiteit of studenten er mee aan de slag wilden gaan. Vijf man sterk gaven zij zich op. Elf maanden later leverde dit uiteindelijk de Argos Machinery op.

Met trots werd het apparaat gedemonstreerd. Een verzameling zoekwoorden rond Kunduz (met trefwoorden van militaire eenheden, namen van personen, operaties, plaatsten, dorpjes en gehuchten) leverde ruim negentienduizend resultaten op. Door die vondst te beperken tot bestanden met Nederland erin bleef daarvan een klein deel over. Die vondsten werden geprojecteerd op een kaart en het grootste deel bleek in de provincie Kunduz te liggen en een kleiner deel in de hoofdstad Kabul. Wat mij weken kostte kan nu in een dag. En veel preciezer.

De machine komt niet online. Argos wil niet meewerken aan het verspreiden van persoonlijke gegevens (die mensen in gevaar kan brengen). Maar ze wil ook niet witten in de berichten. Soms kan een naam en adres je als journalist op een spoor zetten. Dat betekent niet dat je die gegeven publiceert, maar je gebruikt ze wel voor je onderzoek en ze moeten dan ook niet verloren gaan. De oplossing is dat journalisten de zoekmachine alleen kunnen gebruiken bij de VPRO zelf.

Als je geen journalist bent of niet naar het Mediapark wil gaan dan zijn er ook andere methoden die snel resultaten opleveren. Zoeken in de cables is minder moeilijk dan het lijkt. Je kan google gebruiken, bijvoorbeeld met de volgende zoekterm: "thales netherlands" site:wikileaks.org/cable. Zo vond ik een telex over de controle op de levering van optische technologie aan Algerije met onderdelen van Thales. Ik schreef er eerder dit jaar over, maar de cable voegt extra kennis toe aan wat ik al wist. Vrij precies is de Amerikaanse vergunningsafhandeling uit 2009 te volgen. Zoektermen kan je aanpassen aan eigen wensen op elk gebied, verander “thales netherlands” in shell nigeria en je krijgt weer hele andere berichten. En als je de zevenhonderdduizend bestanden naar je computer download ben je verzekerd van toegang en kan je met meer of minder specialistische software zoeken.

Er bestaat ook http://cablesearch.org, opgezet door Henk van Ess van de Vereniging voor Onderzoeks Journalisten (VVOJ). Dat biedt weer net andere mogelijkheden en is in het begin gemakkelijker in het gebruik. Of kijk rond op de wikileaks site zelf, maar dat is lastiger. Maar het haalt het allemaal niet bij het Argos product. De kleine redactie was door zijn gedrevenheid in staat een professionele zoekmachine te laten ontwikkelen (zonder de vijf studenten was het onbetaalbaar en onhaalbaar geweest), investeerde in de toekomst en leverde een forse bijdrage aan de Nederlandse onderzoeksjournalistiek. Hopelijk kunnen ze die voorsprong niet al te gemakkelijk behouden en gaan ook andere media investeren. Het hoeft voor de dataminers niet bij wikileaks te blijven; er zijn nog vele andere bergen.

WikiLeaks & de Argos-machinery, ONJO 2 december 2011

6 opmerkingen:

de Stripman zei

Mooi werk ! Ik heb bewondering voor de vasthoudendheid van onderzoeksjournalisten en mensen zoals jij...!

martin zei

Jan het is ook gewoon leuk. Afgelopen week haalde ik de naam van een vrouw die voor de CIA-werkte van het net. Ze stond gecodeerd in een boek. Het was juist een van de personen waar ik naar zocht. Googelde diepte haar zo op. Slechte code, maar voor mij leuk.Kan ik weer verder.

aadverbaast zei

Mooi project, met prima resultaten lees ik.
Vreemd overigens dat Wikileaks zelf geen goed functionerende zoekmachine heeft gemaakt en geplaatst op hun site.

martin zei

Aad het probleem met wikileaks is dat het:
1) aan alle kanten gedwarsboomd wordt en daaroom steeds nieuwe oplossingen moet zoeken voor het in de lucht houden van de site
2) een kleine groep is die de hele wereld van nieuws heeft voorzien en daarvoor te weinig financiële middelen en menskracht heeft
3) ook wikileaks wil niet zomaar alles op straat gooien. Ook zij hebben oog voor de gevaren. Mensen kunnen vermoord worden of worden veroordeeld tot de doodstraf als hun naam op straat komt te liggen. Daarom wilde de organisatie die gegevens uit de documenten witten (en dat kost ook tijd).

Bovendien:
4) is het project ze uit handen geglipt toen The Guardian alle cables liet ontsnappen.
5) Zoeken en zoeken zijn twee. Je kan als je op mijn Google Shell Nigeria link klikt of cablesearch gebruikt heel wat vinden, maar wil je meer en dieper gaan dan heb je betere en toegespitste technologie nodig. (Die kost doorgaans veel geld.)
6) The Guardian heeft een goed systeem, maar dit is maar beperkt bruikbaar voor de buitenstaander.

Anoniem zei

Hier zit een bron van informatie en mogelijkheden:

http://www.netzwerkrecherche.de/netzwerk-recherche/Recherchestipendien vom EFIJ
Of te ver gegrepen?
Der Europäische Fund für Investigativen Journalismus (European Fund for Investigative Journalism EFIJ) vergibt erneut Recherchestipendien. Insgesamt stehen 25.000 Euro für journalistische Projekte bereit, die sich grenzüberschreitenden investigativen Recherchen und/oder investigativen Recherchen über Europäische Angelegenheiten widmen. Ein Ziel der Förderung ist auch, Kooperationen zwischen investigativen Journalisten aus verschiedenen Ländern zu fördern.

martin zei

Bedankt anoniem. Het is wat moeilijk hier op te reageren. Het gaat i.i.g. om een flink project qua organisatie (vernieuwend en met mensen in verschillende landen) en beperkt in tijd. Ik onthoud het.

Hier wat voorbeelden van projecten.