Archives par mot-clé : Big data

Le BIG DATA veut engloutir toutes vos données personnelles !

Les entreprises utilisent les technologies du BIG DATA pour collecter, stocker, analyser et utiliser les données personnelles sur individus pour améliorer leurs bénéfices.

Le problème c’est que dans ces données personnelles, il y a aussi des données sensibles et privés. Quelque chose qui nous touche directement et intimement donc.

Que faire face à ce BIG DATA qui veut avaler toute notre vie?

Si Les entreprises convoitent autant nos données personnelles c’est parce qu’elle représente un avantage concurrentiel énorme. Ces données personnelles permettent aux entreprises de mieux répondre aux attentes des clients.

Grâce à des informations tirées de sources diverses : aux réseaux sociaux, aux applications ou encore aux objets connectés, nous donnons accès à des données personnelles extrêmement importantes pour les entreprises :

  • Nom, sexe, coordonnées… (classique!)
  • Parfois même, des données bien plus précises, telles que des informations de géolocalisation, comportement d’achat et tous nos petits secrets.

Et c’est tout ça qui qui permet aux entreprises de cibler leurs clients et adapter leur stratégie marketing. Chaque client se voit proposer un produit adapté à toutes ses attentes.

On parle donc d’hyper-personnalisation des offres.

C’est ce qu’Amazon fait depuis des années grâce au Big Data. Amazon utilise un algorithme pour personnaliser au maximum les suggestions d’achat. Si vous êtes sur Amazon, vous recevez régulièrement que ce soit sur leur site ou via mails, des propositions personnalisées de produits se basant sur les informations de ses précédents achats et sur ses dernières recherches. Cela permet à Amazon de tirer un max de profit de produits que vous voulez ou avez envie. Et faut reconnaitre qu’ils sont très efficaces à ce petit jeu.

Aujourd’hui on est tous face à un dilemme. On est partagés entre l’envie de profiter des bénéfices offerts par les nouvelles technologies et le souci du respect de leur vie privée

Mais c’est pas pour autant qu’il faut donner ses données personelles en mode open bar. Et si je fais cette vidéo c’est justement parce que c’est devenu trop banal d’autoriser les entreprises à exploiter nos données personnelles.

C’est comme l’application chinoise Meitu qui avait cartonné début d’année. Cette application permettait de faire des filtres kawai. Parmi les nombreuses permissions demandées, figurent l’enregistrement des données de géolocalisation, l’accès au calendrier ou encore des SMS et MMS ou numéro IMEI de l’appareil. L’application revendrait alors les données de ses utilisateurs. Et ça c’est pas trop kawai !

Et c’est là où on peut changer les choses:

En étant vigilant d’une part sur les données récoltées par une entreprise, et en forçant les entreprises à considérer davantage la protection des données comme étant un grand atout concurrentiel. C’est à dire privilégier les entreprises qui ont une utilisation appropriée et responsable des données et une communication transparente dessus.

Par exemple, si une entreprise de VTC nous traque même lorsqu’on a éteint l’application, alors on devrait désinstaller l’application et utiliser son concurrent (s’il a un usage plus éthique des données évidemment)

Pour terminer ce post, je vais vous confier une astuce pour garder la main sur tes données personnelles. Cette astuce vous permettra de savoir ce qu’une entreprise détient comme données personnelles sur vous.

Pour chaque entreprise, vous devez trouver un contact, en général sur le site web, vous faites un mail pour demander à l’entreprise en question de vous envoyer toutes les données qu’elle possède sur vous. Évidemment il faut joindre joindre une pièce d’identité avec pour attester que ce sont bien vos données que vous demandez

Vous pouvez ainsi demander à une entreprise d’arrêter d’utiliser vos données dans un cadre commercial. Et si l’entreprise ne répond pas, vous vous adressez à la CNIL en leur montrant que vous avez bien fais les démarches. Et la CNIl va s’occuper de les fouetter.

BIG DATA : Pourquoi les entreprises le convoitent-elle autant?

 

Qu’est ce que le Big Data ?

La plupart du temps le Big Data est défini comme un moyen de répondre à des problématiques de volume massif de données, d’où le terme « Big data » qui peut être traduit par “données massives”

Mais avec cette définition on passe à côté d’un concept fondamental du Big Data. Il est vrai que le Big Data est capable de traiter des volumétries conséquentes de données, mais l’enjeu principal c’est la valorisation de ces données, quel que soit leur volume.

Et dans cette vidéo, on va parler des transformations technologiques du Big Data nécessaire pour arriver à la valorisation des données

Enjeux et défis

Aujourd’hui, les entreprises font face à une augmentation exponentielle des données (pour vous donner une idée plus précise cette masse de données peut atteindre Jusqu’à plusieurs peta octets de données de natures diverses :

  • logs,
  • réseaux sociaux,
  • e-commerce,
  • analyse des données,
  • Internet des objets
  • images,
  • audio,
  • vidéo, …

Et évidemment beaucoup d’entreprises souhaitent tirer un avantage de leurs gisements de données ou de ceux qui sont publics (notamment du web et de l’open data)

Petit problème :

Les technologies traditionnelles de traitement des données (Business Intelligence, bases de données) n’ont pas été pensées pour de telles volumétries. Et dégager de la valeur des données ne va être possible qu’en dépassant les limites auxquelles peuvent être confrontés les systèmes d’informations traditionnels.

Ces principales limites, sont appelées les « 5V ».

Limites des 5V

Volume

C’est l’explosion des volumes de données qu’il faut traiter et analyser. C’est cet aspect dont on a parlé jusqu’à présent

Variété

C’est la difficulté de stocker, d’interpréter et de croiser efficacement ces nouvelles sources de données toujours plus diverses et de nature multiples (XML, JSON, bases de données mais aussi des données non structurées : mails, pages web, et multimédia (son, image, vidéo, etc.)) 

Velocité

La vitesse à laquelle les données sont générées, capturées et partagées. Les consommateurs mais aussi les entreprises génèrent plus de données dans des temps beaucoup plus courts.

Or, il existe encore un temps de traitements et d’analyse de ces données en décalage avec la vitesse de génération des données. Les entreprises ne peuvent capitaliser sur ces données que si elles sont collectées et partagées en temps réel.

Valeur

Il s’agit de monétiser les données d’une entreprise évidemment mais aussi de mesurer le retour sur investissements de la mise en oeuvre du Big Data. 

Véracité

C’est la capacité à disposer de données fiables pour le traitement. En fonction du critère de confiance, on accordera plus ou moins d’importance à la donnée. Par exemple, Parmi les données dont il faut éventuellement se méfier on trouve les données des réseaux sociaux dont la provenance et l’objectivité est difficile à évaluer.

Face à ces contraintes, le véritable apport du Big Data, c’est qu’il va aujourd’hui proposer un ensemble de technologies permettant de dépasser ces 5 limites à la fois

Mise en oeuvre du Big Data

Le traitement de ces données et leur valorisation va alors se faire grâce à la mise en oeuvre d’une architecture Big Data.

Il s’agit de la mise en place d’une plateforme permettant une collecte les données de l’entreprise, souvent stocké dans un Data Lake (entrepôt universel des données) en vue de les analyser, puis les monétiser. Et on voit là la finalité du Big Data

Le Big Data déplace le centre d’intérêt des entreprises vers les données et la valeur qu’elles peuvent apporter à l’entreprise.

 

Technologies Big Data

Revenons au côté technique, les caractéristiques premières des architectures Big Data sont:

  • la capacité à traiter des volumétries de données importantes,
  • la scalabilité des solutions,
  • et la capacité à gérer l’évolutivité des formats traités.

Et je vais vous parler de 2 technologies du Big Data populaires qui y ont su répondre à ces caractéristiques : Hadoop et NoSQL.

Hadoop

Hadoop est un framework libre et open source mis au point par la Apache Software Fundation. Hadoop permet de fractionner les fichiers en gros blocs et les distribue à un cluster de machines pour traitement (en termes d’échelle on parle de volume de données supérieures à 1 pétaoctet  avec un cluster de potentiellement des milliers de machine)

Tout cela permet la création d’applications dites distribuées et scalables, ce qui est réponds au besoin du big data. Mais la principale raison de la popularité d’Hadoop dans le big data est d’abord économique :

  •  Avant, le traitement de grandes quantités de données nécessitaient des supercalculateurs ou du matériel spécialisé, et donc forcément tout ça est très coûteux.
  • Alors que justement Hadoop permet d’effectuer toutes ces opérations de calcul de façon fiables et distribuées sur des serveurs standard.
  • Avec Hadoop, il est possible de traiter des pétaoctets de données à moindre coût.
Base de données NoSQL

Les bases de données NoSQL pour Not only SQL désigne une famille de systèmes de gestion de base de données (ou SGBD) qui s’éloigne du modèle classique des bases relationnelles SQL. On aura par exemple MongoDB ou Cassandra.

Une base NoSQL privilégie une architecture de base de données simplifiée et plus souple que les base de données relationnelles SQL un peu trop rigides.

Les solutions NoSQL vont permettre de stocker la base de données sur un maximum de machines peu couteuses .Ce qui aboutit à une base de données distribuée permettant de répartir la charge dynamiquement.

Les BDD NoSQL permettent donc

  • de fournir des performances élevées en terme de traitement de gros volumes de données,
  • de supporter la variété des données,
  • et enfin d’avoir une architecture scalable

C’est pour toutes ces raisons que Les bases de données NoSQL sont populaires dans les solutions Big Data