Det har inte skrivits något på denna blogg sedan slutet av det Vinnova-projekt som finansierade det 2015. Ämnet är fortfarande aktuellt, och jag som drev Vinnova-projektet tänker, skriver och gör fortfarande en del i området. Bl a visualiseringsprojekt tillsammans med Simon Winter, som också bidrog till projektet Öppna data i skolan. I dessa visualiseringsprojekt, och framförallt när vi ska skriva om dem, kommer vi in på detta med distinktionen mellan data och information. Ibland är vi överens, ibland inte. Simon har skrivit en första text om sin syn, Data och information, del 1 på Infontology. Här kommer min första text, som inte bygger på Simons.
Vad är sammanhanget?
Ett vanligt sätt att definiera data och information är att säga utgå från att data är fakta eller signaler från världen (eller att helt enkelt ta data som något underförstått – sånt som finns i Excel-ark). Sedan definieras information som data som satts i ett sammanhang eller som har tolkats.
Ett problem med detta påstående är att det låter som att data är en helt neutral sak, utan tolkning, utan sammanhang. Men om man ser till hur system där flera delar av en organisation ska dela på samma data (var sig det är vården eller säg en affärsverksamhet) ser man att data samlas in eller skapas i ett sammanhang och att man vid själva tillfället för datainsamling samlar dem i vissa kategorier och strukturer.
Oväntat svårt med exempel
Även om man bortser från att den ”råa” datan samlats in i ett sammanhang, och alltså kan bära med sig vissa värderingar, så är sammanhangsdefinitionen problematisk när man ser till enskilda exempel. För på vilken nivå ska sammanhanget läggas? Vilket sammanhang, eller tolkning, är tillräckligt avancerat för att göra något till information?
Jag har t ex läst texter som lyfter fram ”Det regnar” som ett exempel på data. Informationen blir då vad man gör med det faktum att det regnar, eller att det finns någon tolkning kring orsak och verkan. Men är ”Det regnar” data? Någonstans har en signal tolkats som regn, på en viss plats, vid ett visst tillfälle. En person eller en mätare av något slag har tolkat att mängden vatten som faller från molnen överstiger ett visst tröskelvärde. Som jag ser det är ”det regnar” information.
Ett annat exempel. Min skostorlek är 40. Känns som data. Utan sammanhang – nej, det bygger på ett (av flera) system för skostorlekar. Vi kan tolka in en del saker, som storleken på min fot (via kunskap om storlekssystemen) och (om man vet lite om distributionen för skostorlekar bland kvinnor) att jag har hyfsat, men inte anmärkningsvärt stora fötter. Om man dessutom har data från flera personer kan man sammanställa olika statisktiska mått kring skostorlek, hur de ändras beroende på när man är född, etc. Är denna statistik data eller information? Mycket av det som presenteras som öppna data är just statistik. Men statistik är en tolkning, och i så fall information.
Bort med pyramiden
Det finns en visuell förklaring kring förhållandet mellan data, information och kunskap som brukar kallas för DIKW-pyramiden. Jag har framförallt stött på den i sammanhanget informationssystem och knowledge management (dvs system för att hantera kunskap). I pyramidens bas finner vi data, sedan byggs det på med information, kunskap och visdom. Förklaringen kommunicerar att varje nivå lägger till något till den förra och innebär att den nivån har ett högre värde än den innan. Ganska länge har jag stört mig på denna förklaring. Delvis handlar det om att den lite lättvindigt slänger upp visdom överst – ett koncept som är ännu mer svårdefinierat än kunskap. Dessutom antyder den att all kunskap kommer från data (via information).
DIKW-pyramiden uppstod på 80-talet, då de som byggde och sålde system behövde förtydliga värdet med det som de höll på med, genom att sätta den data som systemen hanterade i ett kontext. Pyramiden har sedan dykt upp i alla möjliga sammanhang, men även blivit kritiserad (se t ex Weinbergers artikel eller en summering av kritik från knowledge management-håll).
Sammanhang och kommunikativ avsikt?
Ofta används data och information som synonymer, och anges som sådana av exempelvis ordboken Marriam-Webster. Är detta ett problem? Och framförallt, hur ska vi kunna prata om de olika lager av tolkningar som görs när vi samlar in och lagrar ”saker” i tabeller och sedan gör mer eller mindre intressanta saker med dem? En sak jag tycker är viktigt att ta fasta på är det kommunikativa ursprunget i ordet information.
Data och information som ett kontinuum där saker kan vara mer rå:a eller mer informativa (dvs kommunicerande), men där många exempel hamnar i ett gränsland. Alla data samlas in i något sammanhang, och det sker ett urval av vad som ska samlas in. Jag skulle säga att i de flesta fall där det inte finns ett syfte i grunden är det svårt att finna svar i sina dataset. Ibland kan man byta sammanhang efter att data samlats in, men inte alltid.
Where is the life we lost in living?
Till sist, eventuellt ovidkommande, men intressant för mig. Sista året i gymnasiet (jag läste International Baccalaureate-programmet) skrev jag en uppsats utifrån några rader ur The Rock av T. S. Eliot. Detta var en av en liten lista med ämnen vi kunde välja på och utdraget var så här:
Where is the life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?
Jag minns inte att jag då undersökte sammanhanget för dessa rader. Det har jag inte heller gjort när jag genom åren stött på dem flera gånger, gärna som en en inramning för kopplingen information-kunskap-visdom. Ofta är det folk som skriver om informationssystem som tar upp dem, antingen för att visa på att hierarkin information-kunskap-visdom har varit beskriven flera decennier tillbaks eller för att visa på utmaningarna med system som hanterar kunskap.
Vad är då sammanhanget? The Rock skrevs för att pjäsen skulle samla in pengar för att bygga en större mängd kyrkor i London på 30-talet. Den sörjer förlusten av kontakten med Gud och argumenterar mot rörelsen mot ett rationellt, sekulärt samhälle.