Nippur Hackathon over machine learning

Het kennisteam bij Nippur dat zich bezighoudt met Big Data en Data Science ging op 14 september aan de slag met machine learning. Het doel van de hackathon was om te ontdekken welke statistische modellen het best toepasbaar zijn voor verschillende businessvraagstukken.

Bij Nippur vinden we dat onze klanten zoveel mogelijk waarde moeten kunnen halen uit de beschikbare data. Op het gebied van Data Science zijn er veel nieuwe ontwikkelingen, met name op het gebied van machine learning.

Er komen tools beschikbaar waardoor algoritmes niet meer volledig expliciet geprogrammeerd hoeven te worden. Dit creƫert veel nieuwe mogelijkheden. Wij vinden het belangrijk onze kennis hiervan up-to-date te houden en in de praktijk te kunnen toepassen. De hackathon geeft ons de gelegenheid om de theorie in de praktijk te brengen en te experimenteren.

Case over predictive modeling

In de hackathon hebben we gebruik gemaakt van de open-source-tool Weka (Waikato Environment for Knowledge Analysis). Weka bevat een collectie van visualisatie tools en algoritmes voor data-analyse en predictive modeling. Daarnaast heeft het een grafische user interface, wat de toegang tot deze functies makkelijker maakt.

We startten met een korte uitleg over de werking van 3 algoritmes die veel worden toegepast in machine learning:

  • Decision tree
  • Lineaire regressie
  • Naive Bayes-classificaties

Hierna ging het kennisteam ervaren welk model het meest geschikt is, om de gebeurtenissen te voorspellen. De case die we behandelden ging over cacaobonen en stimuleerde out-of-the-box denken. De dataset bestond uit een mix van numerieke en nominale variabelen, met verschillende opties voor de te voorspellen variabele. De opdracht was om het best voorspellende algoritme te vinden.

Ervaringen uit de hackathon

Met de huidige tools lijkt het misschien makkelijk om met machine learning aan de slag te gaan. Toch merkten wij, dat je veel achtergrondkennis over de modellen en statistiek moet hebben voor een goede en betrouwbare toepassing in de praktijk. Een ander belangrijk leerpunt is, dat de preparatie van de data verreweg de meeste tijd kost. Wanneer je hiervoor niet de tijd neemt om het goed te doen, dan krijg je ook geen goed model.

Bij Nippur weten we nu dus hoe nauwgezet je deze techniek moet inzetten, om ook echt resultaat te boeken voor de klant. Zo kunnen we onze klant beter begeleiden in de keuze voor bepaalde technieken. We kijken terug op een hele boeiende en leerzame middag!