Statistique et Informatique pour la Science des Données

⚠️ Attention : cette formation ne semble actuellement plus dispensée ⚠️

Dernière mise à jour : 
16/1/2020
Master II
Scolarité : 
243
 € par an
Le Master 2 Statistique et Informatique pour la Science des Données (SISE), du parcours Statistique et Informatique, propose une formation avancée à la data science, avec une forte composante data mining, machine learning et statistique d’une part, informatique et technologies big data d’autre part.

La complémentarité de ces compétences constitue le socle de la science des données (data science) et de la valorisation des données massives (big data). Les étudiants peuvent se tourner vers les métiers traditionnels de la statistique et du data mining (chargés d’études statistiques, chargés d'études marketing, consultant data mining, consultant data science, data analyst, ingénieur score,...). Ils peuvent également, de par leurs compétences approfondies en informatique - notamment les technologies big data et leurs applications (ex. hadoop, spark, dataviz, ...) - valoriser un profil de data scientist / data analyst dans le sens d’une synergie réelle entre la statistique et l’informatique.

Le savoir faire acquis dans les modules consacrés aux spécialisations (text mining, web mining, analyse des réseaux sociaux, valorisation des données de sécurité) leur permet d’être directement opérationnels dans des environnements exigeants. Ils le sont d'autant plus que près de 40% des enseignants du Master SISE sont assurés par des professionnels. Les étudiants sont ainsi au fait des pratiques et préoccupations récentes des entreprises. Ils sont en prise directe avec les évolutions technologiques particulièrement rapides dans le domaine de la data science.

Enfin, les étudiants de notre Master de Science des Données participent au programme académique de DataCamp (DataCamp for the Classroom). Ils y ont accès gratuitement au titre du Master SISE. Ce programme s’étale sur un semestre, il leur permet d’approfondir leurs connaissances en R, Python, statistique, data mining et machine learning, data visualisation (Dataviz) (la liste des enseignements est visible sur le site). Le programme DataCamp aboutit à une certification en Data Science.

Cette formation offre la possibilité par la suite d'occuper l'un des postes suivants : Data Analyst, Data Scientist, Data Engineer/Ingénieur.

SEMESTRE 3

UE Informatique appliquée

  • Programmation Statistique sous R

Apprentissage de la programmation sous R. Structures avancées. Programmation des algorithmes de statistique et de data mining sous R. Modèle objet sous R. Programmation big data (map reduce) sous hadoop. Programmation R sous spark. Création de packages.

  • Machine Learning sous Python

Bases de la programmation python, structures vectorielles et matricielles. Algorithmes de machine learning d'apprentissage supervisé et non supervisé (svm - support vector machine, dbscan, birch,…). Image mining, traitement des données images. Projets de ces dernières années : reconnaissance faciale, reconnaissance et recommandation musicale, programmation d'un chatbot.

  • Entrepôts de données avancés

[Commun avec BI&BD] Modélisation, création et exploitation des entrepôts de données (datawarehouse). Bases NoSQL. Reporting. Tableau software.

  • Logiciels spécialisés - Statistique, Data mining, BI

Data visualisation. Dataviz. Outils de reporting. Conception et manipulation des dashboards. Technologies Qlik (QlikView, QlikSense).

UE Applications

  • Text Mining - Données non structurées

Natural language processing (NLP). Appréhension et traitement de documents texuels à l'aide de méthodes de data mining et de machine learning. Techniques de nettoyage et préparation de textes. Modèle bag-of-words, recherche de structures, topic modeling, latent semantic indexing, latent dirichlet allocation, classement de documents, évaluation adaptée à la recherche d'information, algorithme de rocchio, naive bayes classifier. Mise en valeur des résultats avec Shiny. TD sous R et Python (NLTK).

  • Bases de données NoSQL

Conception et manipulation des bases de données NoSQL. Alimentation, requêtage.

  • Fouille de données massives

[Commun avec BI&BD] Etude des techniques de machine learning et de data mining adaptées aux très grandes volumétries. Parallélisation des algorithmes de machine learning. Programmation MapReduce. TD sous R.

UE Méthodes statistiques

  • Séries temporelles et données séquentielles

Etude des données temporelles. Modélisation, analyse et prévision. Lissage exponentiel. Modélisation ARMA, ARIMA, VAR. TD sous R.

  • Analyse de variance et plans d'expérience

Inférence statistique. Estimations et tests. Comparaison de populations, anova, ancova. Méthodes paramétriques. TD sous SAS.

  • Biostatistique, données catégorielles

Biostatistique. Traitement des données catégorielles. Tableaux de contingence. Régression logistique. Modèles log-linéaires. TD sous SAS.

SEMESTRE 4

UE Professionnalisation

  • Gestion de projets

[Commun avec BI&BD et OPSIE] Démarches agiles. Organisation des projets transversaux (forum entreprise, dataday, securiday, conférences des métiers,…).

  • Techniques de recherche d'emploi

Conduite des entretiens. Réseaux professionnels. Ecriture des CV. Rédaction des lettres de motivation.

  • Anglais

[Commun avec BI&BD et OPSIE] Anglais informatique.

  • Séminaires de recherche et ateliers techniques

[Commun avec BI&BD] Technologies Big Data. Comprendre et manipuler la chaîne de valeur Big Data. Plateforme Hadoop, ETL, stockage, requêtage, dataviz (Tableau). De l'installation de la plateforme jusqu'à l'analyse des données, en passant par les étapes intermédiaires. Mise en oeuvre, illustrée par des cas pratiques et des retours d'expérience concrets.

UE Data Science

  • Visualisation et analyse des données de sécurité

[Commun avec OPSIE] Traitement des données issues de la sécurité informatique. Détection des intrusions. Scan des fichiers logs. Mise en œuvre des techniques supervisées et non-supervisées de machine learning. Réseaux de neurones. Leave-one-out, validation croisée, bootstrap. Echantillonnage rapide pour l'appréhension des très grandes volumétries. Courbe ROC. TD sous R.

  • Web mining - Analyse des réseaux sociaux

Exploitation des données du web. Web mining. Filtrage collaboratif et système de recommandation. Extraction des itemsets et des règles d'association. Analyse des tweets. Fouille d'opinions. Analyse des sentiments. Random forest, boosting, gradient boosting. Découverte des communautés dans les réseaux sociaux. TD sous R et Python.

  • Data Mining et apprentissage statistique

Techniques avancées de machine learning. Deep learning. Techniques de réduction des dimensionnalités non linéaires. Méthodes de régression pénalisées (ridge, lasso, elasticnet). SVM, support vector machine. TD sous R.

  • Initiation à la recherche - Big Data

[Commun avec BI&BD] Technologies avancées et ecosystèmes Big Data. Spark. Programmation Python sous Spark. Librairie Machine learning MLlib. TD sous Python.

Stage

Stage en entreprise ou dans un organisme de recherche. 4 mois minimum. 6 mois maximum.

Lieux d'enseignement