Lab informatiekunde

Publicatieruimte voor studenten informatiekunde (faculteit Letteren, KU Leuven)

Zotero

Database

ZOTERO

Als deel van de opdracht voor het vak informatiekunde, moesten we via Zotero een soort database aanleggen van alle bronnen die we gebruikten voor het maken van deze blogs. Bij het schrijven van mijn vorige twee posts heb ik dat dus netjes gedaan, het resultaat is een database met allerlei bronnen die te maken hebben met internetcensuur in China.

In deze blog gaan we het echter niet over censuur hebben, we gaan het over een volledig andere boeg gooien: vandaag gaan we aan de slag met de gegevens die ik tot nu toe verzameld heb. Eerst exporteerde ik ze vanuit mijn Zotero-bibliotheek, vervolgens probeerde ik zo goed en zo kwaad als het ging de gegevens "op te schonen". Hieronder het resultaat van mijn pogingen.

EXCEL

Gebruikt voor dit onderdeel:
  • Zotero: een programma dat men kan gebruiken om bronnen bij te houden.
  • Excel: een programma dat men kan gebruiken om gegevens te analyseren.

DATA INVOEREN

Het allereerste wat ik deed, was uiteraard het openen van mijn Zotero-bibliotheek. Die zag er als volgt uit:

Zotero-bibliotheek

Vervolgens exporteerde ik mijn volledige bibliotheek naar een CSV-bestand, dat ik op zijn beurt dan weer importeerde in Excel. Wat ik toen kreeg was niet erg overzichtelijk, het zag er namelijk zo uit:

Ongeordende Excel

De volgende stap was dus het "opschonen" van deze data, zodat alles wat beter te analyseren was. Met opgeschoonde data zou ik daarna dan ook grafieken kunnen maken, om de gegevens te visualiseren.

DATA OPSCHONEN

Het eerste wat ik deed, was het ordenen van de gegevens in kolommen. Bij het invoeren had Excel namelijk niet herkend dat Zotero de verschillende categorieën van gegevens van elkaar scheidde met een komma, in plaats van met een punt-komma. Ik gaf aan dat ik mijn bestand dus in gescheiden kolommen wilde zien, en dat het bestand kopteksten bevatte. Die kopteksten zette ik vervolgens in het vet om het verschil tussen koptekst en gegevens wat duidelijker te maken. Nu ziet mijn Excel-bestand er als volgt uit:

Geordende Excel

Dat is al veel overzichtelijker! Ik maakte ook elke kolom breed genoeg om alles in één keer te kunnen weergeven. Vanwege enkele lange titels werd de kolom "title" natuurlijk wat breder dan de rest van de kolommen.

Er zijn nu wel een aantal lege kolommen, helemaal aan de rechterkant van het werkblad. Je zou deze eventueel kunnen verwijderen.

DATA VISUALISEREN

Nadat je de data "opgeschoond" hebt, kan je er analyses op uit gaan voeren. Ik heb ervoor gekozen om eens te gaan bekijken wanneer ik precies welke bronnen had toegevoegd. Ik voegde dus een draaitabel toe, waar ik het element "Date Added" als rij gebruikte, en het element "Key" als gesommeerde waarde. Vervolgens groepeerde ik de gegevens per dag (in eerste instantie werden de gegevens per minuut gegroepeerd). De gegevens die ik daarmee bekwam, goot ik in een grafiek. Die zag er als volgt uit:

Grafiek over datum van toevoeging

Het is duidelijk te zien dat ik op 24 november heel wat bronnen toevoegde. Ik vond het wel een beetje bizar dat er drie elementen zonder gegevens waren, dus dat ben ik even gaan nakijken. Het bleek om twee boeken te gaan (waarvan ik niet precies snap waarom die geen datum toegekend kregen) en de Zotero Quick Start Guide. Die heb ik dan ook meteen verwijderd uit mijn database, want dat is voor mijn blogs over censuur in China geen relevante bron.

SQLITE

Gebruikt voor dit onderdeel:
  • SQLite: een add-on die men kan gebruiken om databanken te beheren.

Excel is erg nuttig, maar het heeft één groot nadeel: het neemt de labels die ik toevoegde aan mijn verschillende bronnen niet over. Ik kan dus geen data-analyse doen op basis van die zelfgekozen tags. Dit kan ik echter wél doen in SQLite, wat ik dan ook gedaan heb.

Allereerst kopieerde ik mijn Zotero-bibliotheek naar SQLite, zoals getoond wordt in deze video. Ik voerde in dat ik graag per tag wilde gaan kijken hoeveel bronnen ik precies verzameld had. Het resultaat dat ik kreeg, exporteerde ik vervolgens naar een CSV-bestand, dat ik dan weer opende in Excel. Opnieuw stonden de gegevens niet netjes in kolommen, en moest ik even aangeven dat het scheidingsteken een komma was. Dat zag er als volgt uit:

Eerst mijn database in SQLite:

Database in SQLite

Vervolgens het ongeordende Excel-bestand:

Ongeordende Excel

En ten slotte het geordende Excel-bestand:

Geordende Excel

Vervolgens ging ik deze data dan analyseren. Ik maakte een draaitabel, met de labels als rijen. Ik ordende het aantal bronnen per label van hoog naar laag, en zo kon ik gemakkelijk zien welke tag ik het meest gebruikt had. Dit bleek "China" te zijn. Geen grote verrassing, als je bedenkt dat ik sinologe ben.

Deze grafiek zag er als volgt uit:

Grafiek volgens labels

DE BESTANDEN

Nu heb ik zo goed en zo kwaad als ik kon uit proberen te leggen wat ik met mijn database gedaan heb. Het zijn een heleboel foto's, maar ik hoop dat het daardoor wat begrijpelijk is. Hieronder heb ik dan ook nog eens de bestanden toegevoegd waarin ik gewerkt heb: