Certified Data Scientist Professional (CDSP)

Deze opleiding heeft als doel de Informatie Specialist van nu klaar te stomen voor het Data Science tijdperk van morgen. De opleiding bestaat uit presentaties, cursus materiaal, interactieve notebooks, voorbeelden en opdrachten. Je krijgt een introductie in de concepten en algoritmes aan de hand van een korte presentatie. Daarna wordt aan de hand van een concreet voorbeeldscript in python of R getoond hoe het werkt. We maken gebruik van de defacto standaard tools voor Data Science R, RStudio en Anaconda in python. Daarnaast maken we kennis met verschillende typen Big Data databases, waaronder een graph database en een xml document store. Alle voorbeelden en het cursusmateriaal zijn direct bruikbaar, ook na de cursus een waardevolle asset als ‘snel starter’ voor je nieuwe Data Science projecten! Een onmisbare toolbox voor een snelle start van je project bij elke klant of in elk project.

Een belangrijk onderdeel is de praktijkopdracht, de laatste 4 weken ga je onder begeleiding van de DIKW coaches je eigen Data Science project vormgeven. Je zult niet de eerste zijn die hiermee een daverende business case voor de investering in deze cursus realiseert!

DIKW Academy, een hoogwaardig opleidingsinstituut heeft nu als eerste in Nederland een volwaardig en uniek gecertificeerd programma ontwikkeld voor de nieuwe generatie B.I. professional.
We leven in de tijd van Big Data. Big Data is niet alleen groot, maar ook complex, gevarieerd en vaak in realtime. Zo voorspelt McKinsey in het rapport ‘Big Data: the next frontier for innovation, competition and productivity’ uit 2011 dat er in 2018 in de VS een tekort zal zijn van 140.000 tot 190.000 mensen met ‘deep analytical skills’ – hierbij gaat het met name om wiskunde, statistiek en machine learning.

Op het gebied van digitaal opgeslagen gegevens hebben we de afgelopen twintig jaar een spectaculaire ontwikkeling gezien. Vroeger werden vooral transactiegegevens opgeslagen, maar tegenwoordig wordt elke muisklik van elke internetgebruiker opgeslagen. Tegelijkertijd is het gebruik van data veranderd. Oorspronkelijk werden standaardrapportages gemaakt (bijvoorbeeld van verkoopcijfers); vanaf de jaren 1990 werden datawarehouses ingericht om patronen te ontdekken in data, en tegenwoordig willen we niet alleen in real-time weten wat er gebeurt, maar willen we bij voorkeur ook weten wat er in de toekomst gaat gebeuren. Google’s CEO Eric Schmidt zei over dit onderwerp in 2012: “Google needs to move beyond the current search format of you entering a query and getting 10 results. The ideal would be us knowing what you want before you search for it.”

Zowel de data-infrastructuur als de huidige kennis onder informatici is veelal ontoereikend om met big data om te gaan. In het webinar ‘Pattern- Based Strategy: Getting Value from Big Data’ concluderen analisten Genovese en Beyer van Gartner dat de bestaande datawarehouse-architectuur ongeschikt is voor Big Data.

Google’s Chief Economist Hal Varian formuleerde de behoefte aan experts op het gebied van big data als volgt: “The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it – that’s going to be a hugely important skill in the next decades.”

Niet voor niets werd het vak van data scientist door het vermaarde Harvard Business Review uitgeroepen tot “the sexiest job of the 21st century”.

In DIKW’s visie zullen succesvolle organisaties van de toekomst o.a. gaan transformeren vanuit een informatievoorzieningsperspectief naar een meer hybride omgeving in termen van gestructureerde en niet gestructureerde systemen.

Datascience is een breed vakgebied en omvat veel verschillende concepten, tools en technologie.

Deze certificering zorgt voor een brede basis in het vakgebied. Je bent natuurlijk niet gelijk een doorgewinterde specialist maar de certificering garandeert een gedegen kennis van de huidige stand van zaken zoals je dat van DIKW Academy verwacht.

Doelstelling

Deze opleiding heeft als doel de Informatie Specialist van nu klaar te stomen voor het datascience tijdperk van morgen. De opleiding bestaat uit presentaties, cursusmateriaal, voorbeelden en opdrachten aangevuld met een aantal relevante boeken. De opleiding is opgedeeld in 8 dagen van ieder 3 modules en een praktijkopdracht waarvoor je vier weken de tijd hebt. Per module  krijg je een introductie in de concepten aan de hand van een korte presentatie, daarna wordt aan de hand van een concreet voorbeeld script in python of R getoond hoe het algoritme werkt. De oefeningen en het huiswerk zorgen voor de opbouw van de nodige ervaring. Met de uitgewerkte voorbeelden en oefeningen zorg je voor een snelle start van je project bij elke klant of in elk project.

De datascientist, opgeleid door DIKW Academy, is na het volgen van dit intensieve programma voorbereid op de toekomst.

Tools

R-base, R-Studio
R-packages
Anaconda python machine learning toolset
iPython, pandas, scikit-learn, NLTK
JuPyTeR interactive notebooks (met zowel de R als python kernel)

Voor deelname aan de training is een eigen laptop met tenminste 4 GB intern geheugen nodig. We gaan er van uit dat de deelnemer software kan en mag installeren op de laptop.

Na deze training heb je voldoende kennis opgedaan van de meest gebruikte datascience tools van dit moment (python en R) om je Certified Data Scientist Professional (CDSP) te noemen.

Week 1: Introductie
Het programma wordt kort doorgelopen, zodat je weet wat je kunt verwachten. We duiken zo snel mogelijk  in de wereld van R met R-Studio. We behandelen de basis data bewerkingen in R en maken een start met uni-variate analyses in R.

Week 2: Meetwaarden, data munging en introductie python
We starten met een wetenschappelijk artikel van Stevens uit 1946 over meetwaarden en schalen. Daarna maken we kennis met data munging aan de hand van het package dplyr. Als laatste maken we kennis met het Anaconda platform voor datascience in python.

Week 3: Introductie machine learning , de classificatie taak en de kracht van de bootstrap.
We geven een overzicht van het machine-learning landschap en gaan aan de slag met de classificatie taak. Ook maken we kennis met de kracht van sampling technieken, permutaties en bootstraps.

Week 4: Visualisatie, clustering en matrix algebra
We maken kennis met de ‘Grammar of Graphics‘ in het package ggplot en bouwen een geavanceerde visualisatie stap voor stap op. In de tweede module laten we de kracht van matrix algebra zien en maken we onze eigen robuste clustering. We sluiten af met een overzicht van segmenterings en clusteringtechnieken.

Week 5: BIG Databases en Analytics
Wat is BIG data? Welke database opties heb ik? Document stores, tuple & triple stores, columnar databases. NoSQL XML databases. Distributed filesystems , Apache HADOOP ecosysteem. Na deze dag weet je hoe de wereld van de big data  eruit ziet en ben je in staat een keuze te maken voor een van deze systemen bij de start van een big data project. Daarnaast meer wiskunde met toepassingen van matrix decompositie in feature reductie en factor analyse.

Week 6: Advanced Machine Learning en Social Network Analysis
Ensemble learning, bagging, boosting en random forests staan op het programma. Ook kijken we in detail naar model kwaliteit en de verschillende maten om kwaliteit te meten. We sluiten af met social network analyse door live een twitter feed te analyseren.

Week 7: Semantics, Textmining en Natural Language Processing
Deze dag staat in het teken van tekst en search. Met python Natural Language Tool Kit (NLTK) onderzoeken we de mogelijkheden voor het analyseren van teksten. Feature extractie, tellen van woorden en woordcombinaties en het visualiseren van resultaten. Ook maken we kennis met open data en het semantic web , hierin heeft alle data context. We laten zien hoe we daar als datascientist gebruik van kunnen maken.

Week 8: Recommenders en tijdreeksen
Hoe bouw je een recommender algorithme in R? We gaan het gewoon doen! Daarnaast staat deze dag in het teken van (het voorspellen van) tijdreeksen en survival analyses.

Week 9: Opdracht data verzamelen – opdracht data bewerken
In overleg stellen we een opdracht samen per cursist, eventueel in team verband wordt er gewerkt aan een opdracht, een belangrijk onderdeel van de certificering als data scientist. De deelnemers hebben deze dag de tijd onder begeleiding aan de opdracht te werken.

Week 10: Opdracht analyseren & presenteren
Een kort oefenexamen wordt afgenomen als voorbereiding op het examen over theorie en statistiek.  De deelnemers hebben deze dag de tijd onder begeleiding aan de opdracht te werken.

Week 11: Examen
Het examen bestaat uit een aantal(50) multiple choice vragen(2 uur) en twee korte programmeer opdrachten (per opdracht 1 uur de tijd), een in python en een in R. Samen met de opdracht vormt dit examen de basis voor de certificering. Tevens is er ruimte om de laatste hand te leggen aan de eindpresentatie voor de opdracht.

Week 12: Voordracht & Borrel
Het resultaat van de opdracht wordt gepresenteerd in een voordracht van max 20 minuten. De presentatie is voor de andere cursus deelnemers en de examen commissie. De presentatie wordt beoordeeld op analytische diepgang en de commerciële businesscase. Na een evaluatie van de training door de cursisten en de beoordeling van de presentaties gaan we over tot de feestelijke uitreiking van de certificaten Certified data Science Professional !!!

in samenwerking met

PRAKTISCHE INFORMATIE

DEELNEMERS

Tussen 8 en 14 deelnemers

MAESTRO PRIJS

€ 6.600,-

PARTNER PRIJS

€ 5.995,-

CURSUS

Training

MATERIAAL

Inclusief materiaal

AANTAL DAGEN

De cursus duurt 12 weken, 1 dag per week en wordt op elke donderdag van de week gegeven.

TIJD

09:00 – 17:30 uur

Datum

Op aanvraag beschikbaar

DIRECT AANMELDEN

Aanmelden voor Certified Data Scientist Professional (CDSP)

VOORWAARDEN

  • Partners van de Maestro Academy: Specialisten aangesloten bij Het Finance Gilde, DataConnected of HeadFirst(Premium overeenkomst);
  • De genoemde prijzen zijn exclusief BTW;
  • De genoemde prijzen zijn inclusief materiaal;
  • De betaling dient vóór aanvang van de eerste trainingsdag volledig te zijn voldaan;