Overblog Suivre ce blog
Administration Créer mon blog

Articles avec #nouvelles technologies tag

Le Big Data : une révolution en marche

4 Mai 2012 , Rédigé par benkirane Publié dans #Nouvelles technologies

Avec l'avènement des réseaux sociaux en particulier et du Web en général, le nombre de données produites est en constante augmentation. Chaque individu, aujourd'hui, génère un nombre très élevé d'informations. Cette volumétrie génère, elle-même, de manière automatique de la donnée. En effet, plus on a d'informations, plus on a besoin de l’indexée (moteurs de recherche, annuaires) ou simplement de la traiter pour y apporter de la plus-value (Business Intelligence, CRM, cyber-criminalité, ...). Les problématiques de stockage, traitement et restitution de ces données dans des temps raisonnables sont devenues primordiales.La solution Big Data alliée à des frameworks comme Haddop ou le Map Reduce, a vu le jour pour répondre à ces problématiques. Cette nouvelle notion apporte avec elle quelques révolutions technologiques mais aussi intellectuelles.

Le Big Data : la révolution des systèmes de gestion des données

La première révolution qu'apporte le Big Data est la façon dont les données sont gérées. Pour traiter des quantités énormes de données qui arrivent, en temps réel, à partir de sources très diverses (humains, robots, électroniques, capteurs, ...), les contraintes imposées par les SGBD relationnels associé à leur coût exorbitant (administration, licence, infrastructures) ne peuvent plus perdurer. Deux principales causes à cela: la première est la capacité faible d'évolution des systèmes relationnels et la seconde la nécessité de structurer les données.

Dans les systèmes actuels, il devient de plus en plus difficile de prévoir la quantité de données qui seront stockées. Des entreprises comme google, facebook, amazon ou autre twitter ne peuvent savoir au Go près quel volume de données elles auront à gérer et à quel moment. La nécessité de disposer d'un système fortement évolutif est primordial. C'est là qu'interviennent les bases de données NoSQL (Not Only SQL). Cette terminologie représente l'ensemble des bases de données non relationnelles. Elles répondent exactement aux problématiques soulevées précédemment:

  • Elles sont fortement évolutives. Leur architecture technique est complètement distribuée et basée sur des machines standards ( moins coûteuses). L'augmentation de la capacité de stockage est alors simple puisqu'il s'agit bien souvent d'ajouter quelques machines dans le système. Les données et les temps de calcul sont alors réparties sur l'ensemble de celles-ci de manière automatique.
  • Les données ne sont pas structurées. Il n'y a plus de notions de tables, de type de données et encore moins de relations entre elles. Les données sont stockées de façon brutes, les causes d'erreurs lors des enregistrements sont alors très limitées, voir inexistantes.

En réalité, le NoSQL n'est pas vraiment une révolution puisque le terme est apparu la première fois en 1998. C'est plutôt sa mise en œuvre à grande échelle depuis ces dernières années qui est une révolution. Les investissements des grandes entreprises de l'informatique moderne citées précédemment sur ce type de SGBD sont sans précédent.

Le Big Data : la révolution des algorithmes de calculs

L'idée première derrière l'utilisation du Big Data est le traitement de l'information à des fins politiques ou commerciales. L'important est d'apporter de la plus-value à ces volumes de données. C'est ce qu'on appelle la Business Intelligence. On traite, par exemple, le contenu des messages postés par un utilisateur afin de connaître ses aspirations et lui fournir du contenu personnalisé qui y réponds.

La volumétrie des données ne permet plus d'utiliser des algorithmes de calculs classiques par récupération de lots de données. Il est nécessaire de recourir à de nouveaux concepts de regroupement de données associé à un calcul distribué. C'est sur ces bases qu'a été imaginé le framework Map Reduce proposé par Google et faisant partie de la solution Hadoop (Apache).

En très simplifié, l'algorithme Map Reduce s'exécute en deux étapes:

  1. La partie Map associe une valeur ou un ensemble de valeurs à une clé personnalisée,
  2. La partie Reduce effectue un calcul sur chacune des valeurs en regroupant les données ayant une clé identique.

Pour comprendre en détail cet algorithme, je vous propose de lire le tutoriel Map Reduce sur le site officiel d'Hadoop.

La possibilité de paralléliser cet algorithme de traitement en fait un outil très puissant pour générer, efficacement, des données à forte valeur ajoutée.

Le Big Data : la révolution des usages

Comment souvent en informatique, des révolutions techniques entrainent souvent des révolutions en terme d'usage. Les applications mobiles en sont un bon exemple. Pour le Big Data, c'est la même chose! La capacité à stocker et traiter un nombre de données en constante augmentation et en temps réel a permis à de nombreuses entreprises d'innover. On a ainsi entendu parler ces dernières années de social TV, de voiture connectée ou encore d'habitat connecté.

Lire la suite