Archives par mot-clé : vulgarisation

BIG DATA : Pourquoi les entreprises le convoitent-elle autant?

 

Qu’est ce que le Big Data ?

La plupart du temps le Big Data est défini comme un moyen de répondre à des problématiques de volume massif de données, d’où le terme « Big data » qui peut être traduit par “données massives”

Mais avec cette définition on passe à côté d’un concept fondamental du Big Data. Il est vrai que le Big Data est capable de traiter des volumétries conséquentes de données, mais l’enjeu principal c’est la valorisation de ces données, quel que soit leur volume.

Et dans cette vidéo, on va parler des transformations technologiques du Big Data nécessaire pour arriver à la valorisation des données

Enjeux et défis

Aujourd’hui, les entreprises font face à une augmentation exponentielle des données (pour vous donner une idée plus précise cette masse de données peut atteindre Jusqu’à plusieurs peta octets de données de natures diverses :

  • logs,
  • réseaux sociaux,
  • e-commerce,
  • analyse des données,
  • Internet des objets
  • images,
  • audio,
  • vidéo, …

Et évidemment beaucoup d’entreprises souhaitent tirer un avantage de leurs gisements de données ou de ceux qui sont publics (notamment du web et de l’open data)

Petit problème :

Les technologies traditionnelles de traitement des données (Business Intelligence, bases de données) n’ont pas été pensées pour de telles volumétries. Et dégager de la valeur des données ne va être possible qu’en dépassant les limites auxquelles peuvent être confrontés les systèmes d’informations traditionnels.

Ces principales limites, sont appelées les « 5V ».

Limites des 5V

Volume

C’est l’explosion des volumes de données qu’il faut traiter et analyser. C’est cet aspect dont on a parlé jusqu’à présent

Variété

C’est la difficulté de stocker, d’interpréter et de croiser efficacement ces nouvelles sources de données toujours plus diverses et de nature multiples (XML, JSON, bases de données mais aussi des données non structurées : mails, pages web, et multimédia (son, image, vidéo, etc.)) 

Velocité

La vitesse à laquelle les données sont générées, capturées et partagées. Les consommateurs mais aussi les entreprises génèrent plus de données dans des temps beaucoup plus courts.

Or, il existe encore un temps de traitements et d’analyse de ces données en décalage avec la vitesse de génération des données. Les entreprises ne peuvent capitaliser sur ces données que si elles sont collectées et partagées en temps réel.

Valeur

Il s’agit de monétiser les données d’une entreprise évidemment mais aussi de mesurer le retour sur investissements de la mise en oeuvre du Big Data. 

Véracité

C’est la capacité à disposer de données fiables pour le traitement. En fonction du critère de confiance, on accordera plus ou moins d’importance à la donnée. Par exemple, Parmi les données dont il faut éventuellement se méfier on trouve les données des réseaux sociaux dont la provenance et l’objectivité est difficile à évaluer.

Face à ces contraintes, le véritable apport du Big Data, c’est qu’il va aujourd’hui proposer un ensemble de technologies permettant de dépasser ces 5 limites à la fois

Mise en oeuvre du Big Data

Le traitement de ces données et leur valorisation va alors se faire grâce à la mise en oeuvre d’une architecture Big Data.

Il s’agit de la mise en place d’une plateforme permettant une collecte les données de l’entreprise, souvent stocké dans un Data Lake (entrepôt universel des données) en vue de les analyser, puis les monétiser. Et on voit là la finalité du Big Data

Le Big Data déplace le centre d’intérêt des entreprises vers les données et la valeur qu’elles peuvent apporter à l’entreprise.

 

Technologies Big Data

Revenons au côté technique, les caractéristiques premières des architectures Big Data sont:

  • la capacité à traiter des volumétries de données importantes,
  • la scalabilité des solutions,
  • et la capacité à gérer l’évolutivité des formats traités.

Et je vais vous parler de 2 technologies du Big Data populaires qui y ont su répondre à ces caractéristiques : Hadoop et NoSQL.

Hadoop

Hadoop est un framework libre et open source mis au point par la Apache Software Fundation. Hadoop permet de fractionner les fichiers en gros blocs et les distribue à un cluster de machines pour traitement (en termes d’échelle on parle de volume de données supérieures à 1 pétaoctet  avec un cluster de potentiellement des milliers de machine)

Tout cela permet la création d’applications dites distribuées et scalables, ce qui est réponds au besoin du big data. Mais la principale raison de la popularité d’Hadoop dans le big data est d’abord économique :

  •  Avant, le traitement de grandes quantités de données nécessitaient des supercalculateurs ou du matériel spécialisé, et donc forcément tout ça est très coûteux.
  • Alors que justement Hadoop permet d’effectuer toutes ces opérations de calcul de façon fiables et distribuées sur des serveurs standard.
  • Avec Hadoop, il est possible de traiter des pétaoctets de données à moindre coût.
Base de données NoSQL

Les bases de données NoSQL pour Not only SQL désigne une famille de systèmes de gestion de base de données (ou SGBD) qui s’éloigne du modèle classique des bases relationnelles SQL. On aura par exemple MongoDB ou Cassandra.

Une base NoSQL privilégie une architecture de base de données simplifiée et plus souple que les base de données relationnelles SQL un peu trop rigides.

Les solutions NoSQL vont permettre de stocker la base de données sur un maximum de machines peu couteuses .Ce qui aboutit à une base de données distribuée permettant de répartir la charge dynamiquement.

Les BDD NoSQL permettent donc

  • de fournir des performances élevées en terme de traitement de gros volumes de données,
  • de supporter la variété des données,
  • et enfin d’avoir une architecture scalable

C’est pour toutes ces raisons que Les bases de données NoSQL sont populaires dans les solutions Big Data