Archives par mot-clé : Big data

Les algorithmes nous contrôlent-ils ?

Aujourd’hui on va parler des algorithmes, le buzzword du moment!

Quand le moteur de recherche Google te propose des résultat de recherche, c’est en fait un algorithme qui va décider des résultats qui te seront présentés et leur classement.

Quand Netflix te conseille une série, c’est pareil, c’est un algorithme qui va te faire ces suggestions.

Les news qui vont apparaître sur ton fil d’actualité et leur ordre, c’est aussi un algorithme. Pareil pour l’ordre des photos et des stories sur Intagram, là aussi c’est un algorithme qui organise tout ça.

Le pouvoir des algorithmes est d’autant plus important que le numérique fait partie intégrante de notre vie (smartphone, les objets connecté, service en ligne, applications, etc). Et quand tu regardes un peu ce qu’en pense les médias c’est encore plus anxiogène. Tu as juste l’impression d’être l’esclaves des algorithmes, qu’on a perdu notre libre arbitre qu’ils nous lavent le cerveau.

Alors, Les algorithmes nous contrôlent-ils tous?  Je fais cette vidéo pour un peu demystifier tout ça justement. Qu’est ce qu’il y a derrière les algorithmes, tout ce que vous devez savoir sur le sujet et savoir quels sont les vrais enjeux des algorithmes et leur réel pouvoir.

 

Déjà voyons ce qu’est un algorithme : un algorithme, c’est tout simplement une suite d’instructions permettant de résoudre un problème. Et ces instructions doivent pouvoir être applicable mécaniquement, sans réfléchir, pour arriver à un résultat.

 

Les premiers algorithmes auquels on pense ce sont forcément les algorithmes mathematiques. Rappelez vous en primaire… La fameuse division euclidienne pour trouver le plus grand commun diviseur. Vous avez dû apprendre cet algorithme pour arriver à trouver le plus grand commun diviseur entre 2 nombres entiers.

M’enfin, au dela des mathématiques, il y a bien plus simple comme algorithme dans la vie de tous les jours,

Lorsque vous suivez une recette de cuisine pour faire un gateau. Si vous suivez bien la recette avec les bon ingrédients, à la fin le resultat c’est le gâteau. La recette c’est en fait un algorithme avec une suite d’instructions à éxécuter étape par étape pour faire ce gâteau. 

Transposé à l’informatique, les algorithmes permettent tout simplement de dire à un programme informatique tout ce qu’il doit faire. Les concepteurs de programmes informatiques vont définir dans l’algorithme une suite d’opérations logiques pour un arriver à un résultat voulu. Tout ça sera ensuite codé dans un langage informatique adapté pour pouvoir être appliqué automatiquement par le programme informatique.

 

Ce sont les algorithmes qui définissent les actions des bots. Ce sont les algorithme qui vont décrire les tâches spécifiques que doivent réaliser ces programme informatique. Par exemple, les algorithme sont derrière les moteur de recherche, les fameux bot twitter qui font des actions spécifiques comme retweeter ou liker un mot clé spécifiques défini, et ce sont les algorithmes qui sont derrière l’intelligence des chatbot comme ceux sur messenger ou bien même les assistants vocaux comme Siri ou Alexa.

Evidemment, il y a quand même une grosse différence entre l’algorithme simple du bot twitter qui fait que retweeter bêtement ce qu’on lui a dit  aux algorithmes de facebook, netflix ou amazon qui sont capable de s’adapter aux consommateurs.

Cette différence c’est ce qu’on appelle le machine learning.

Le machine learning c’est en gros quand l’algorithme va utiliser vos données pour apprendre et faire des actions plus efficaces. Les algorithmes ne sont maintenant plus seulement les instructions de base programmées par un développeur. Ils sont capable d’apprendre.  La machine peut générer de nouvelles instructions en apprenant à partir à la masse de  données qui lui sont fournies.  Ces données sont notamment des données personnelles que vous leur fournissez sur vous

Et c’est comme ça que les algorithmes semblent parfois bien connaître nos goûts, nos envies et nos besoins.  Et là vous pensez aux suggestions d’Amazon qui des fois sont vraiment bluffantes car c’est ce que vous vouliez, la playlist spotify qui vous ait proposé et qui correspondent bien à vos goûts

 

je vais vous prendre un exemple sympa.

L’objectif  de netflix c’est de vous faire rester le plus longtemps sur sa plateforme parce que c’est l’abonnement qui va rémunérer netflix. Du coup, pour que vous restiez sur la plateforme le but c’est que vous consommiez toujours plus de contenu.

La mission de l’algorithme c’est de faire en sorte que vous consommiez toujours plus de contenu

C’est pour ça que l’algorithme doit apprendre à connaitre vos goûts pour vous pousser vers les séries ou films susceptibles de vous faire continuer à regarder plus.

Saviez vous que Netflix va jusqu’à personnaliser les vignettes des series en fonction des données que netflix possède sur vous.

Cela a été fait avec Stranger things :

L’algorithme Netflix est capable de « prédire la probabilité que vous cliquiez sur un contenu en fonction d’une image donnée » et la vignette avec la plus forte probabilité de vous faire cliquer sera affichée par l’algorithme Netflix. C’est comme ça que Netflix arrive à vous faire regarder le plus de série possible

Que ce soit Instagram, Facebook, Amazon, Youtube, aujourd’hui ces algorithmes complexes ont besoin de données sur vous pour être plus performant. Un des éléments clés à retenir c’est que sans vos données personnelles, ces algorithmes ne seraient pas aussi puissants. D’où l’importance de bien maitriser ses données personnelles en ligne.

En tout cas, avec le machine learning, on entre dans la notion d’intelligence articielle. On parle de machine learning pour désigner la capacité d’une machine à apprendre et donc évoluer.

La machine acquiert alors  de nouvelles connaissances qu’on ne lui avait pas programmés au départ. La machine apprend, s’améliorer et ‘évoluer d’elle même grâce à de nouvelles données. C’est pour cela qu’on parle d’intelligence artificielle.

 

Avec ce que l’on vient de voir, on peut constater une chose : ces algorithme ne sont pas NEUTRE. et c’est important de le prendre en compte. Ils ont été conçus et codé par des développeurs qui leur a transmis une façon de fonctionner et un objectif à atteindre que ce soit les news sur fil d’actualité sur facebook, l’exemple des résultats de recherches Google, l’ordre des stories et photo sur Instagram, etc

On a l’impression que c’est objectif mais il est important de retenir que ce des gens qui derrière tout ça on mis en place des critères de classement en fonction de leurs objectifs et de ses préjugés, de contraintes. Quand on parle d’algorithme on a l’impression que c’est neutre. Alros que cela peut masquer des convictions politiques, des objectifs financiers, des stratégies d’entreprises, etc. D’ailleurs les GAFA restent très discret sur le fonctionnement des algorithmes. et comme on l’a vu dans la vidéo c’est parce qu’il y a de réels enjeux derrière.

C’est important d’avoir du recul sur l’action des algorithmes et de savoir qu’ils ne sont pas neutre pourempêcher que les GAFA et des entreprises du numérique de  transférer leur responsabilité sur les algorithmes. Lorsque facebook a été utilisé ou plutot leur algorithme détourné pour propager des fake news notamment pour les élections américaines de 2016, c’est de la faute de facebook, l’algorithme c’est juste l’épouvantail. Facebook a une responsabilité de l’utilisation de sa plateforme et de ce qui en est fait (et là je vous parle meme pas des données). 

Les gens qui ont reussi à hacker ont détourné l’algorithme à leur avantages pour diffuser des fake news. C’est à Facebook d’en assumer la responsabilité, ils sont responsable de leur algorithme. 

 

Le BIG DATA veut engloutir toutes vos données personnelles !

Les entreprises utilisent les technologies du BIG DATA pour collecter, stocker, analyser et utiliser les données personnelles sur individus pour améliorer leurs bénéfices.

Le problème c’est que dans ces données personnelles, il y a aussi des données sensibles et privés. Quelque chose qui nous touche directement et intimement donc.

Que faire face à ce BIG DATA qui veut avaler toute notre vie?

Si Les entreprises convoitent autant nos données personnelles c’est parce qu’elle représente un avantage concurrentiel énorme. Ces données personnelles permettent aux entreprises de mieux répondre aux attentes des clients.

Grâce à des informations tirées de sources diverses : aux réseaux sociaux, aux applications ou encore aux objets connectés, nous donnons accès à des données personnelles extrêmement importantes pour les entreprises :

  • Nom, sexe, coordonnées… (classique!)
  • Parfois même, des données bien plus précises, telles que des informations de géolocalisation, comportement d’achat et tous nos petits secrets.

Et c’est tout ça qui qui permet aux entreprises de cibler leurs clients et adapter leur stratégie marketing. Chaque client se voit proposer un produit adapté à toutes ses attentes.

On parle donc d’hyper-personnalisation des offres.

C’est ce qu’Amazon fait depuis des années grâce au Big Data. Amazon utilise un algorithme pour personnaliser au maximum les suggestions d’achat. Si vous êtes sur Amazon, vous recevez régulièrement que ce soit sur leur site ou via mails, des propositions personnalisées de produits se basant sur les informations de ses précédents achats et sur ses dernières recherches. Cela permet à Amazon de tirer un max de profit de produits que vous voulez ou avez envie. Et faut reconnaitre qu’ils sont très efficaces à ce petit jeu.

Aujourd’hui on est tous face à un dilemme. On est partagés entre l’envie de profiter des bénéfices offerts par les nouvelles technologies et le souci du respect de leur vie privée

Mais c’est pas pour autant qu’il faut donner ses données personelles en mode open bar. Et si je fais cette vidéo c’est justement parce que c’est devenu trop banal d’autoriser les entreprises à exploiter nos données personnelles.

C’est comme l’application chinoise Meitu qui avait cartonné début d’année. Cette application permettait de faire des filtres kawai. Parmi les nombreuses permissions demandées, figurent l’enregistrement des données de géolocalisation, l’accès au calendrier ou encore des SMS et MMS ou numéro IMEI de l’appareil. L’application revendrait alors les données de ses utilisateurs. Et ça c’est pas trop kawai !

Et c’est là où on peut changer les choses:

En étant vigilant d’une part sur les données récoltées par une entreprise, et en forçant les entreprises à considérer davantage la protection des données comme étant un grand atout concurrentiel. C’est à dire privilégier les entreprises qui ont une utilisation appropriée et responsable des données et une communication transparente dessus.

Par exemple, si une entreprise de VTC nous traque même lorsqu’on a éteint l’application, alors on devrait désinstaller l’application et utiliser son concurrent (s’il a un usage plus éthique des données évidemment)

Pour terminer ce post, je vais vous confier une astuce pour garder la main sur tes données personnelles. Cette astuce vous permettra de savoir ce qu’une entreprise détient comme données personnelles sur vous.

Pour chaque entreprise, vous devez trouver un contact, en général sur le site web, vous faites un mail pour demander à l’entreprise en question de vous envoyer toutes les données qu’elle possède sur vous. Évidemment il faut joindre joindre une pièce d’identité avec pour attester que ce sont bien vos données que vous demandez

Vous pouvez ainsi demander à une entreprise d’arrêter d’utiliser vos données dans un cadre commercial. Et si l’entreprise ne répond pas, vous vous adressez à la CNIL en leur montrant que vous avez bien fais les démarches. Et la CNIl va s’occuper de les fouetter.

BIG DATA : Pourquoi les entreprises le convoitent-elle autant?

 

Qu’est ce que le Big Data ?

La plupart du temps le Big Data est défini comme un moyen de répondre à des problématiques de volume massif de données, d’où le terme « Big data » qui peut être traduit par “données massives”

Mais avec cette définition on passe à côté d’un concept fondamental du Big Data. Il est vrai que le Big Data est capable de traiter des volumétries conséquentes de données, mais l’enjeu principal c’est la valorisation de ces données, quel que soit leur volume.

Et dans cette vidéo, on va parler des transformations technologiques du Big Data nécessaire pour arriver à la valorisation des données

Enjeux et défis

Aujourd’hui, les entreprises font face à une augmentation exponentielle des données (pour vous donner une idée plus précise cette masse de données peut atteindre Jusqu’à plusieurs peta octets de données de natures diverses :

  • logs,
  • réseaux sociaux,
  • e-commerce,
  • analyse des données,
  • Internet des objets
  • images,
  • audio,
  • vidéo, …

Et évidemment beaucoup d’entreprises souhaitent tirer un avantage de leurs gisements de données ou de ceux qui sont publics (notamment du web et de l’open data)

Petit problème :

Les technologies traditionnelles de traitement des données (Business Intelligence, bases de données) n’ont pas été pensées pour de telles volumétries. Et dégager de la valeur des données ne va être possible qu’en dépassant les limites auxquelles peuvent être confrontés les systèmes d’informations traditionnels.

Ces principales limites, sont appelées les « 5V ».

Limites des 5V

Volume

C’est l’explosion des volumes de données qu’il faut traiter et analyser. C’est cet aspect dont on a parlé jusqu’à présent

Variété

C’est la difficulté de stocker, d’interpréter et de croiser efficacement ces nouvelles sources de données toujours plus diverses et de nature multiples (XML, JSON, bases de données mais aussi des données non structurées : mails, pages web, et multimédia (son, image, vidéo, etc.)) 

Velocité

La vitesse à laquelle les données sont générées, capturées et partagées. Les consommateurs mais aussi les entreprises génèrent plus de données dans des temps beaucoup plus courts.

Or, il existe encore un temps de traitements et d’analyse de ces données en décalage avec la vitesse de génération des données. Les entreprises ne peuvent capitaliser sur ces données que si elles sont collectées et partagées en temps réel.

Valeur

Il s’agit de monétiser les données d’une entreprise évidemment mais aussi de mesurer le retour sur investissements de la mise en oeuvre du Big Data. 

Véracité

C’est la capacité à disposer de données fiables pour le traitement. En fonction du critère de confiance, on accordera plus ou moins d’importance à la donnée. Par exemple, Parmi les données dont il faut éventuellement se méfier on trouve les données des réseaux sociaux dont la provenance et l’objectivité est difficile à évaluer.

Face à ces contraintes, le véritable apport du Big Data, c’est qu’il va aujourd’hui proposer un ensemble de technologies permettant de dépasser ces 5 limites à la fois

Mise en oeuvre du Big Data

Le traitement de ces données et leur valorisation va alors se faire grâce à la mise en oeuvre d’une architecture Big Data.

Il s’agit de la mise en place d’une plateforme permettant une collecte les données de l’entreprise, souvent stocké dans un Data Lake (entrepôt universel des données) en vue de les analyser, puis les monétiser. Et on voit là la finalité du Big Data

Le Big Data déplace le centre d’intérêt des entreprises vers les données et la valeur qu’elles peuvent apporter à l’entreprise.

 

Technologies Big Data

Revenons au côté technique, les caractéristiques premières des architectures Big Data sont:

  • la capacité à traiter des volumétries de données importantes,
  • la scalabilité des solutions,
  • et la capacité à gérer l’évolutivité des formats traités.

Et je vais vous parler de 2 technologies du Big Data populaires qui y ont su répondre à ces caractéristiques : Hadoop et NoSQL.

Hadoop

Hadoop est un framework libre et open source mis au point par la Apache Software Fundation. Hadoop permet de fractionner les fichiers en gros blocs et les distribue à un cluster de machines pour traitement (en termes d’échelle on parle de volume de données supérieures à 1 pétaoctet  avec un cluster de potentiellement des milliers de machine)

Tout cela permet la création d’applications dites distribuées et scalables, ce qui est réponds au besoin du big data. Mais la principale raison de la popularité d’Hadoop dans le big data est d’abord économique :

  •  Avant, le traitement de grandes quantités de données nécessitaient des supercalculateurs ou du matériel spécialisé, et donc forcément tout ça est très coûteux.
  • Alors que justement Hadoop permet d’effectuer toutes ces opérations de calcul de façon fiables et distribuées sur des serveurs standard.
  • Avec Hadoop, il est possible de traiter des pétaoctets de données à moindre coût.
Base de données NoSQL

Les bases de données NoSQL pour Not only SQL désigne une famille de systèmes de gestion de base de données (ou SGBD) qui s’éloigne du modèle classique des bases relationnelles SQL. On aura par exemple MongoDB ou Cassandra.

Une base NoSQL privilégie une architecture de base de données simplifiée et plus souple que les base de données relationnelles SQL un peu trop rigides.

Les solutions NoSQL vont permettre de stocker la base de données sur un maximum de machines peu couteuses .Ce qui aboutit à une base de données distribuée permettant de répartir la charge dynamiquement.

Les BDD NoSQL permettent donc

  • de fournir des performances élevées en terme de traitement de gros volumes de données,
  • de supporter la variété des données,
  • et enfin d’avoir une architecture scalable

C’est pour toutes ces raisons que Les bases de données NoSQL sont populaires dans les solutions Big Data