MIASHS : Big Data et Fouille de Données

⚠️ Attention : cette formation ne semble actuellement plus dispensée ⚠️

Dernière mise à jour : 
16/1/2020
Master II
Scolarité : 
243
 € par an
Le master Informatique parcours MIASHS : Big Data et fouille de données vise à former des étudiants aux problématiques de recherche et d’application dans un domaine en pleine croissance, appelé aujourd’hui Big Data.

A la sortie de la formation, l’étudiant sera capable de concevoir, d’optimiser et d’implémenter des systèmes complexes, mettant en œuvre les technologies les plus récentes dans les domaines du « Big Data » et de la fouille de données, intégrant des compétences en informatique (systèmes complexes et programmation de haut niveau), en mathématiques appliquées, en humanités numériques, en industries de la langue (Data et « text mining »).

Nous avons deux types d’organismes qui sont intéressés par les étudiants de cette formation, dès le M2 et parfois le M1 : d’une part des grands groupes travaillant sur leurs propres données, d’autre part des start-up et des sociétés de conseil travaillant sur des données internet.

Les grands groupes ayant déjà confié des missions à des étudiants de notre master sont des banques (BNP, HSBC), des assurances (Natixis), des industries pharmaceutiques (Sanofi), des groupes hospitaliers (ELSAN), et d’autres (la Poste) ; et pour l’instant, des sociétés de conseil en finances. Ces listes ne sont pas limitatives et nous recevons de plus en plus d’offres. La problématique du « big data » est encore neuve et intègre plusieurs types de profil ; nos étudiants sont des développeurs de solutions « big data » compétents dans les domaines de la fouille de données massives, du « deep-learning », de l’exploration et de la modélisation des réseaux sociaux, des bases de données sql et nosql et des données textuelles et numériques du web. La plupart de nos étudiants ayant obtenu leur diplôme ont trouvé un CDI avant même la soutenance de leur mémoire, et parfois dès le M1, sans parler de ceux qui viennent en alternance.

Nos diplômés pourront être employés dans le domaine des solutions « big data » comme Ingénieurs en Recherche et Développement, Data Scientists, Data Engineers/Ingénieurs, Consultants de haut niveau, Directeurs de projets, ou créer leur propre société de services.

Enseignements du semestre 1

UE Programmation et big data 1 :
Il s’agit de compléter la formation des étudiants en programmation dans le traitement de mégadonnées et l’apprentissage neuronal.

  • Cadre logiciel pour big data
  • Techniques d’apprentissage artificiel

UE Outils mathématiques

Les étudiants renforceront dans cette UE leurs compétences en mathématiques sur les outils et concepts mathématiques nécessaires à l’analyse des données et de leur traitement.

  • Mathématiques et théorie de l’information
  • Complexité algorithmique

UE Optimisation et données
Les étudiants apprendront les problématiques fondamentales du traitement de données, ainsi que leurs enjeux, du point de vue de leur usage dans les sciences humaines et sociales.

  • Introduction aux problématiques des données en sciences humaines OU Graphes et théories de la décision
  • Web sémantique OU Construction d’ontologies OU autre option OU Bases de données avancées

UE Culture Générale

  • Anglais
  • Méthodologie de la recherche

Il s’agit d’introduire les étudiants à l’ensemble des domaines de recherche concernés par le « Big Data » et à l’état le plus récent de la recherche, du point de vue de l’informatique et de l’intelligence artificielle. Ce cours commence par un rappel des problématiques de la discipline, et s’accompagne d’un apprentissage des outils de communication scientifique, d’une initiation à la lecture d’articles scientifiques en français et en anglais et à la présentation de rapports scientifiques.

Enseignements du semestre 2

UE Programmation et big data 2
Les étudiants complèteront dans cette UE leur formation en programmation par la programmation multi-agent et s’initieront aux techniques de visualisation de grandes masses de données.

  • Visualisation de masses de données
  • Systèmes multi-agents

UE Organisation et analyse de données

  • Décision et parcours d’espace de données
  • Statistiques et analyse de données
  • Fouille de données et text mining

UE Humanités numériques

  • Etude des besoins en sciences de l’information OU Rencontres Crossmédia OU Intégration et qualité des données
  • Application aux sciences humaines OU EC libre

UE TER Projet dirigé
Les étudiants ont à réaliser un projet, écrire un mémoire et à soutenir publiquement ce projet. Il consiste d’une part à faire l’étude d’un domaine de spécialité et d’autre part à réaliser un programme informatique mettant en œuvre des technologies de pointe en utilisant les méthodes dites agiles. Un cours obligatoire complète leur accompagnement.

  • Méthodologie de la conception

Ce cours encadre les étudiants dans leur méthode de travail, de documentation bibliographique, d’écriture et de communication de leurs travaux. Les étudiants élaborent progressivement leur projet en référence au contexte théoriquerécent de la recherche et des technologies de pointe associées. Ils présentent régulièrement l’état d’avancement de leurs réalisations pratiques en alternance avec celles des étudiants de deuxième année dans le cadre du séminaire de même nom du semestre 4.

  • Projet et étude du domaine

Ce projet inclut l’exploration d’un domaine de spécialité associant mathématiques, informatique et sciences humaines (au sens large). Il représente pour l’étudiant environ 420h de travail. Il s’effectue sous la direction de l’un des enseignants du master ou de l’un des masters associés (Informatique, Humanités numériques). Le projet peut être effectué dans le cadre d’un stage, sous certaines conditions.

Enseignements du semestre 3

UE Recherche et développement
L’étudiant s’initie à la mise en œuvre, sur des problématiques complexes, des connaissances théoriques qu’il a acquises en M1.

  • Algorithmique pour le « big data »
  • Fouille de données

Ce cours commence par compléter la formation théorique et méthodologique de M1 sur les distributions de données, sur les algorithmes de construction de vecteurs à partir de données symboliques, sur l’architecture des systèmes de fouille de données et sur la validation. Il passe ensuite en revue les méthodes de prédiction et de classification sur différents types de données. Le passage à l’échelle est exploré au travers de jeux de données et d’applications réelles.

  • Grands corpus, données des réseaux sociaux
  • Apprentissage automatique

Ce cours reprend et approfondit les notions et modèles fondamentaux d’apprentissage automatique abordés en première année avec un fort ancrage dans la littérature scientifique et technique de référence aussi bien qu’applicative la plus récente.

  • Logiciels libres et protection de données

UE Mathématiques pour le « Big Data »
L’exploitation et la protection des masses de données nécessite des techniques mathématiques sophistiquées, l’objectif de cette UE est de présenter ces techniques en tenant compte du profil non spécialisé (en mathématiques) des étudiants auxquels elle s’adresse.

  • Modèles formels pour le « Big Data »
  • Protection et sécurité de l’information

UE Culture et Humanités

Un EC au choix

  • Littérature numérique
  • Humanités numériques
  • Ergonomie du web
  • Méthodes et outils d’analyse statistiques
  • Séminaire numérique et conférences professionnelles

Enseignements du semestre 4

UE Stage et spécialisation

  • Séminaire recherche et développement

Ce séminaire fait suite aux conférences du premier semestre, mais avec dans la mesure du possible des intervenants sur les spécialisations dans lesquels les étudiants travaillent, et avec en perspective un approfondissement de l’aspect recherche et développement. Des interactions sont organisées avec les intervenants ainsi que des séances de restitution.

  • Séminaire méthodologie de la conception

Dans la même philosophie que le cours du même nom de l’année antérieure, mais en accentuant plus sur la mise en situation régulière des étudiants et sur un suivi régulier du déroulement du stage, ce séminaire encadre les étudiants à la fois dans leur méthode de travail, d’écriture et de présentation. Pour mieux insérer les travaux des étudiants dans le contexte de la recherche et des méthodes de pointe, des doctorants ou d’anciens stagiaires devenus professionnels viennent exposer leur travail. Des thèses récentes sur des sujets connexes à ceux des étudiants sont étudiées.

  • Stage

La formation s’achève sur un stage de 700h (5 mois) minimum. Ce stage peut se dérouler en entreprise, si c’est un stage professionnel, ou dans un laboratoire public ou privé si c’est un stage de recherche. Il est validé avec la réalisation d’un système informatique ou d’une de ses parties et la rédaction d’un rapport écrit ou mémoire, et soutenu publiquement. L’étudiant doit avoir un tuteur de stage et, si le stage s’effectue à l’extérieur de l’université, également un encadrant de l’un des laboratoires sur lesquels s’appuie la formation, qui veillera à la conformité du déroulement du stage et du contenu du rapport ou mémoire avec les exigences du master.

Lieux d'enseignement