Ik had met andere woorden geen data mining programma om door de 77.000 pagina’s met Afghanistan verslagen te gaan die de klokkenluiders site wikileaks deze zomer publiceerde. Ik deed het met een gewoon zoekprogramma, omdat ik dacht dat ik daarmee alles wel zou kunnen vinden. Hoe langer ik bezig was hoe meer ik in begon te zien dat het zoeken in een berg documenten een vak is, met zowel inhoudelijke als technische vaardigheden.
Wil je bijvoorbeeld alles over Nederlandse troepen weten of alles over de door Nederlanders ‘gecontroleerde’ provincie Uruzgan? Deze vraag bepaalt een groot deel van de trefwoorden die je gebruikt. FB Anaconda ligt wel in Uruzgan, maar werd niet zoals FB Poentjak of FP Volendam door Nederlanders gebruikt. Maar FB Poentjak – wat overigens het Indonesiche woord voor pas is en refereert naar Pas Poentjak op Java waar hevig is gevochten tussen de Nederlandse kolonialen en de Republiek - wordt elders weer FOB Poentjak genoemd. Zoeken op alleen Poentjak ligt dan voor de hand, maar bij Anaconda ga je dan de mist in, omdat in Oost-Afghanistan troepen onder die naam vochten.
Het is een vak wat je al doende leert. Call signs van vliegtuigen en helikopters kom je tijdens het zoeken bij toeval tegen. De RAMIT-63 is een Nederlandse F-16 die 500 of 1000 ponds bommen af kan gooien, rammuh, lachuh. Voor de Apaches zijn ook call signs die beginnen weer met STAB, ook al zo grappig. Dit soort details maakt het zoeken makkelijker. Ook de taal moet je een beetje leren; IVO staat bijvoorbeeld In de Nabijheid Van (In the Vicinity Of).
Achteraf gaf iemand me een onderzoekje naar programma’s die voor digitaal data analyse en extractie van gegevens op de markt zijn. Dat lijkt te laat, maar er ligt nu al weer een 50 meter bad te wachten met documenten over Irak die ik graag met betere techniek te lijf wil gaan. Nu heb ik alleen bij een luchtige zoektocht een document met NLD gevonden. Het betreft het onschadelijk maken van een mijn langs een weg door de EOD.
Niet alleen wikileaks publiceert grote hoeveelheden informatie. Het komt steeds vaker voor dat duizenden pagina’s met informatie over voordien vertrouwelijke onderwerpen naar buiten komen. Er zijn sites met de stukken die in door een beroep op de Wet Openbaarheid van Bestuur (WOB) zijn verkregen, zowel in Nederland als bijvoorbeeld door defensie instellingen in de VS. Journalisten worden soms door voorlichters verzopen in de informatie.
Mijn indruk is dat veel van die zwembaden vol digitale informatie rimpelloos blijven liggen of alleen oppervlakkig worden doorzocht. Slimme technologie zou kunnen helpen er meer uit te halen zonder dat je een zwembroek aan hoeft te trekken. Lezen zal soms niet eens nodig zijn, nadenken en technologische ontwikkelingen bijhouden wel.
Volkskrantblog 5 november 2010