Introduction

Big Data ? Le big data se définit par la récolte, le traitement et l’analyse de flots massifs de données, dans le but d’en tirer une plus-value économique ou scientifique. Ces données peuvent par exemple venir de capteurs (anémomètres sur les éoliennes, thermomètres dans les fours industriels, …) ou bien directement d’utilisateurs (activité sur les […]

Lire la suite Introduction

1. MapReduce

Calcul distribué Depuis une dizaine d’années, les données que l’on récolte peuvent être tellement massives qu’une seule machine n’est pas capable de les traiter. C’est là qu’intervient le principe du calcul distribué : on utilise un cluster (une « grappe ») de serveurs qui se partagent le travail en se répartissant les tâches. Par exemple, si l’on […]

Lire la suite 1. MapReduce

2. Moteurs de recherche

Pourquoi utiliser un moteur de recherche ? Très souvent, pour requêter des bases de données relationnelles, on utilise le langage SQL et des systèmes de gestion comme MySQL, PostgreSQL, ou SQL Server par exemple. Les systèmes de gestion de bases de données sont matures et ont prouvé leur praticité. Mais les requêtes en SQL sont […]

Lire la suite 2. Moteurs de recherche

3. Streaming

L’intérêt du streaming Lorsque les premières technologies du big data émergent, à la fin des années 2000, il est d’usage de stocker les données sur des disques durs de serveurs distribués. C’est d’ailleurs le principe de HDFS, le système de stockage de Hadoop (voir partie 1). Il suffit d’abord d’extraire des données des disques durs […]

Lire la suite 3. Streaming