019. Data
La data ou le big data, que cela comprend-t-il, et que peut en faire l'entreprise la possède ?À la table, Sylvain Abélard, Stéphanie Baltus, Clément Demonchy et Christophe Philemotte.
Télécharger l'épisode (26 Mo) - Date de publication : 2017-06-26
- • Zenly racheté par Snapchat
- ou comment Snapchat s'achète la géolocalisation de ses utilisateurs.
La data ou le big data, que cela comprend-t-il, et que peut en faire l'entreprise la possède ?
La “data” : c’est quoi, ça sert à quoi ?
- il y a quoi dans la data ? - l’entreprise a quoi et veut quoi ?
- BI : analyse par des BizDev et analystes
- aujourd’hui pareil mais temps réel (plus rapides)
- avec davantage de volumétrie (6To chez LeBonCoin)
- avant : activité business + maintenant le comportement user
- sources de données hétérogènes (langage naturel, pas structuré)
- maintenant on peut tenter de l’utiliser (usage a priori vs a posteriori)
- internet partout, projets Agile qui évoluent vite, stockage pas cher
- 90~2000 : data en recherche (Gb + batch sungrid engine et distribué)
- données BDD & archives vs actuel chaud/froid
- la place de la BI dedans ?
- elle est toujours là, c’est un des métiers de la data (analyser/piloter)
- une partie de la “data” va pouvoir restructurer ma donnée pour BI
- MDM / KM
- les métiers de la data ?
- data engineer -> les pratiques et outils autour de la donnée
- ce qui était avant (infra / ops / admin) ?
- data scientist -> l’exploitation dans un cadre et un objectif précis
- ce qui était et est encore “statisticien”
- data analyst -> “moins informaticien” plus métiers
- data steward
- “responsible for policies, guidelines and responsibilities for administering organizations’ entire data in compliance with policy and/or regulatory obligations”
- la variété des données est difficile
- parce qu’on peut récupérer/acheter facilement
- targeting
- data engineer -> les pratiques et outils autour de la donnée
- modèles
- prédictif, catégorisation, classification, détection…]
- exemple simple : régression linéaire, boîte d’input/output
- phase pour s’assurer que les données sont bonnes
Qu’est-ce qui a changé ?
- BI vs big data (c’est quoi le big data)
- 4V : Volume + Variété + Valeur + Vitesse
- batch vs “temps réel”
- temps réel : fournir une réponse dans un temps donné
- streaming : on accepte de perdre et on traite de la data
- services de messaging : EventSourcing (consommé par plusieurs consommateurs) -> bus d’événements
- qui de la date et du microservice est venu le premier ?
- celui que l’objectif final va dicter et qu’on arrive à faire :)
- est-ce qu’on doit faire du machine learning ?
- faisons d’abord des choses qui marchent :)
- certains en ont besoin mais faisons attention à l’effet mode / bulle
On fait comment ?
… pour “passer à la data” (dans l’entreprise)
- collecte
- cartographier et savoir ce que j’ai, le réunir
- est-ce que ce que j’ai suffit pour mon besoin ?
- est-ce que je comprends ma donnée ?
- transformation pour harmonisation
- stockage et datalake
- modeling
- curation et exploration -> feedback
- feature engineering : reconnaître de quel objet mathématique on parle et recoller le réel dessus
- préparer la donnée brute, améliorer la qualité, faire tourner le modèle
- gouvernance & data steward
Pré-(re)-découvertes du jour : Qwant & DuckDuckGo
Découvertes des invités
- • Stéphanie Baltus
- les derniers maîtres de l'air-guitar ? – Avatar
- PgLoader
- • Christophe Philemotte
- Git as NoSQL Database
- IANTD
- • Sylvain Abélard
- Schemas for the Real World – @cczona
- • Clément Demonchy
- google keeps
- Le mois de la data — Xebia