PROJET AUTOBLOG


Framablog

Site original : Framablog

⇐ retour index

Comment s’organiser contre la domination assistée par ordinateur ? [forum ouvert]

mardi 8 août 2023 à 08:28

Dans le cadre de l’Université d’Été des Mouvements Sociaux et de la Solidarité (UEMSS) qui se déroulera du 23 au 27 août à Bobigny, et avec les copaines de Attac, Ritimo, Globenet, Convergence Services Publics, Transiscope, l’April, L’Établi numérique, La Dérivation… Nous avons voulu proposer ensemble un forum ouvert pour permettre la rencontre de celles et ceux impliquées dans des luttes et confronter nos expériences et nos réflexions.

Cette journée d’échanges se déroulera le samedi 26 août. Elle nécessite de s’inscrire à l’UEMSS (prix libre).

Forum ouvert : Comment s’organiser contre la domination assistée par ordinateur ?

Amazon utilisant des algorithmes sophistiqués pour imposer des cadences inhumaines aux chauffeurs et aux employé⋅es des centres logistiques. Facebook et al. collectant les opinions politiques des collectifs qui s’organisent dessus et favorisent structurellement la réaction. L’industrie de la tech poussant à acheter toujours plus d’appareils électroniques, générant ainsi toujours plus d’extraction de ressources et de déchets qui finissent par s’entasser dans énormes décharges dans les pays du Sud. La police demandant l’accès à nos communications, la possibilité de nous surveiller en temps réel par la reconnaissance faciale ou la biométrie aux frontières. ParcoursSup organisant la sélection sociale dans un service public de l’enseignement en crise.

Les différentes dominations auxquelles nous faisons face mobilisent maintenant toutes l’infrastructure informatique pour se renforcer, s’amplifier et élargir leurs champs d’actions. Il est devenu difficile de trouver un exemple de lutte où le numérique n’apparaît pas à un moment comme un outil utilisé par celleux d’en face. La domination est maintenant assistée par ordinateur.

Si on ne s’intéresse pas au numérique, le numérique, lui, s’intéresse à nous. Il est donc indispensable de réfléchir ensemble, de nous organiser collectivement pour faire face à cette domination. Les questions sont multiples : pouvons-nous retourner les outils numériques contre le capitalisme ? Comment mieux nous protéger face à la surveillance généralisée permise par la technologie ? À quoi ressemblerait un monde numérique désirable et vivable ?

Le numérique est devenu une réalité politique à part entière, et son évolution ne peut pas être laissée à des prétendu·es expertes et au capitalisme.

Vous avez des pistes d’actions concrètes, des idées, des envies ? Venez avec votre enthousiasme pour les partager !

Rȯse, la mascotte de Mobilizon en avant pour le forum ouvert
illustration : David Revoy (CC-By)

Forum ouvert ?

Un forum ouvert se construit à partir des sujets que les personnes y participant souhaitent aborder. Le programme est élaboré ensemble au début de la journée. Le reste se déroule ensuite au rythme des différents groupes qui travaillent en parallèle et des nombreuses discussions informelles qui habitent les couloirs.

4 principes gouvernent un forum ouvert :

La loi de la mobilité permet à une personne qui n’est ni en train d’apprendre, ni de contribuer, de changer de groupe.

Pistes de réflexion

Nous proposons quatre textes ou discussions pour alimenter nos réflexions avant l’événement :

Pour vous inscrire, c’est par ici !

Khrys’presso du lundi 7 août 2023

lundi 7 août 2023 à 07:42

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

RIP

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?

lundi 31 juillet 2023 à 11:42

Le flou entretenu entre open source et libre, déjà ancien et persistant dans l’industrie des technologies de l’information, revêt une nouvelle importance maintenant que les entreprises se lancent dans la course aux IA…
Explications, décantation et clarification par Stéphane Bortzmeyer, auquel nous ouvrons bien volontiers nos colonnes.


Vous le savez, les grands modèles de langage (ou LLM, pour « Large Language Model ») sont à la mode. Ces mécanismes, que le marketing met sous l’étiquette vague et sensationnaliste d’IA (Intelligence Artificielle), ont connu des progrès spectaculaires ces dernières années.
Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.
Il faut donc se distinguer du concurrent et, pour cela, certains utilisent des arguments qui devraient plaire aux lecteurs et lectrices du Framablog, en affirmant que leur modèle est (en anglais dans le texte) « open source ». Est-ce vrai ou bien est-ce du « libre-washing » ?
Et qu’est-ce que cela veut dire pour cet objet un peu particulier qu’est un modèle de langage ?

Copie d'écran d'un tweet de Viva technology citant le président Macron au salon Vivatech où il insiste sur les LLM souverains. le texte le cite "on doit accélérer l'open source et tous les grands modèles et avoir des LMM européens qui permettront de réguler. i faut ensuite qu'on arrive à régler des cas critiques, savoir si c'est de l'IA ou pas".

Tout le monde parle des LLM (ici, avec une faute de frappe).

Source ouverte ?

Traitons d’abord un cas pénible mais fréquent : que veut dire « open source » ? Le terme désigne normalement l’information qui est librement disponible. C’est en ce sens que les diplomates, les chercheurs, les journalistes et les espions parlent de ROSO (Renseignement d’Origine en Sources Ouvertes) ou d’OSINT (Open Source Intelligence). Mais, dans le contexte du logiciel, le terme a acquis un autre sens quand un groupe de personnes, en 1998, a décidé d’essayer de remplacer le terme de « logiciel libre », qui faisait peur aux décideurs, par celui d’« open source ». Ils ont produit une définition du terme qu’on peut considérer comme la définition officielle d’« open source ». Il est intéressant de noter qu’en pratique, cette définition est quasiment équivalente aux définitions classiques du logiciel libre et que des phrases comme « le logiciel X n’est pas libre mais est open source » n’ont donc pas de sens. Ceci dit, la plupart des gens qui utilisent le terme « open source » ne connaissent ni l’histoire, ni la politique, ni la définition « officielle » et ce terme, en réalité, est utilisé pour tout et n’importe quoi. On peut donc se dire « open source » sans risque d’être contredit. Je vais donc plutôt me pencher sur la question « ces modèles sont-ils libres ? ».

Grand modèle de langage ?

Le cas du logiciel est désormais bien connu et, sauf grande malhonnêteté intellectuelle, il est facile de dire si un logiciel est libre ou pas. Mais un modèle de langage ? C’est plus compliqué, Revenons un peu sur le fonctionnement d’un LLM (grand modèle de langage). On part d’une certaine quantité de données, par exemple des textes, le « dataset ». On applique divers traitements à ces données pour produire un premier modèle. Un modèle n’est ni un programme, ni un pur ensemble de données. C’est un objet intermédiaire, qui tient des deux. Après d’éventuels raffinements et ajouts, le modèle va être utilisé par un programme (le moteur) qui va le faire tourner et, par exemple, générer du texte. Le moteur en question peut être libre ou pas. Ainsi, la bibliothèque transformers est clairement libre (licence Apache), ainsi que les bibliothèques dont elle dépend (comme PyTorch). Mais c’est le modèle qu’elle va exécuter qui détermine la qualité du résultat. Et la question du caractère libre ou pas du modèle est bien plus délicate.

Notons au passage que, vu l’importante consommation de ressources matérielles qu’utilisent ces LLM, ils sont souvent exécutés sur une grosse machine distante (le mythique « cloud »). Lorsque vous jouez avec ChatGPT, le modèle (GPT 3 au début, GPT 4 désormais) n’est pas téléchargé chez vous. Vous avez donc le service ChatGPT, qui utilise le modèle GPT.

Mais qui produit ces modèles (on verra plus loin que c’est une tâche non triviale) ? Toutes les grandes entreprises du numérique ont le leur (OpenAI a le GPT qui propulse ChatGPT, Meta a Llama), mais il en existe bien d’autres (Bloom, Falcon, etc), sans compter ceux qui sont dérivés d’un modèle existant. Beaucoup de ces modèles sont disponibles sur Hugging Face (« le GitHub de l’IA », si vous cherchez une « catch phrase ») et vous verrez donc bien des références à Hugging Face dans la suite de cet article.  Prenons par exemple le modèle Falcon. Sa fiche sur Hugging Face nous donne ses caractéristiques techniques, le jeu de données sur lequel il a été entrainé (on verra que tous les modèles sont loin d’être aussi transparents sur leur création) et la licence utilisée (licence Apache, une licence libre). Hugging Face distribue également des jeux de données d’entrainement.

Dans cet exemple ci-dessous (trouvé dans la documentation de Hugging Face), on fait tourner le moteur transformers (plus exactement, transformers, plus diverses bibliothèques logicielles) sur le modèle xlnet-base-cased en lui posant la question « Es-tu du logiciel libre ? » :

 % python run_generation.py --model_type=xlnet --model_name_or_path=xlnet-base-cased
...
Model prompt >>> Are you free software ?
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (-1). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
=== GENERATED SEQUENCE 1 ===
Are you free software ? Are you a professional ? Are you a Master of Technical Knowledge ? Are you a Professional ?

Ce modèle, comme vous le voyez, est bien moins performant que celui qui est derrière le service ChatGPT ; je l’ai choisi parce qu’il peut tourner sur un ordinateur ordinaire.

Vous voulez voir du code source en langage Python ? Voici un exemple d’un programme qui fait à peu près la même chose :

from transformers import pipeline

generator = pipeline("text-generation", model="DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS") 
print(generator("Are you free software ?"))

Le modèle utilisé est un raffinement du précédent, DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS. Il produit lui aussi du contenu de qualité contestable([{‘generated_text’: « Are you free software? What ever you may have played online over your days? Are you playing these games? Any these these hours where you aren’t wearing any heavy clothing?) mais, bon, c’est un simple exemple, pas un usage intelligent de ces modèles.

 

Un chat gris pensif dans une librairie, assis sur un bac empli de livres

Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer. Plutôt qu’une de ces stupides illustrations de robot (les LLM n’ont pas de corps, bon sang !), je mets une image d’un chat certainement intelligent. Drew Coffman, CC BY 2.0, via Wikimedia Commons

 

Que veut dire « libre » pour un LLM ?

Les définitions classiques du logiciel libre ne s’appliquent pas telles quelles. Des entreprises (et les journalistes paresseux qui relaient leurs communiqués de presse sans vérifier) peuvent dire que leur modèle est « open source » simplement parce qu’on peut le télécharger et l’utiliser. C’est très loin de la liberté. En effet, cette simple autorisation ne permet pas les libertés suivantes :

Sans ces informations, on ne peut pas refaire le modèle différemment (alors que la possibilité de modifier le programme est une des libertés essentielles pour qu’un logiciel soit qualifié de libre). Certes, on peut affiner le modèle (« fine-tuning a pre-trained model », diront les documentations) mais cela ne modifie pas le modèle lui-même, certains choix sont irréversibles (par exemple des choix de censure). Vous pouvez créer un nouveau modèle à partir du modèle initial (si la licence prétendument « open source » le permet) mais c’est tout.

Un exemple de libre-washing

Le 18 juillet 2023, l’entreprise Meta a annoncé la disponibilité de la version 2 de son modèle Llama, et le fait qu’il soit « open source ». Meta avait même convaincu un certain nombre de personnalités de signer un appel de soutien, une initiative rare dans le capitalisme. Imagine-t-on Microsoft faire signer un appel de soutien et de félicitations pour une nouvelle version de Windows ? En réalité, la licence est très restrictive, même le simple usage du modèle est limité. Par exemple, on ne peut pas utiliser Llama pour améliorer un autre modèle (concurrent). La démonstration la plus simple de la non-liberté est que, pour utiliser le modèle Llama sur Hugging Face, vous devez soumettre une candidature, que Meta accepte ou pas («  Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json. Access to model meta-llama/Llama-2-7b is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Llama-2-7b to ask for access. »)

Mais la communication dans l’industrie du numérique est telle que très peu de gens ont vérifié. Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta. Les auteurs de la définition originale d’« open source » ont expliqué clairement que Llama n’avait rien d’« open source », même en étant très laxiste sur l’utilisation du terme. Ceci dit, il y a une certaine ironie derrière le fait que les mêmes personnes, celles de cette Open Source Initiative, critiquent Meta alors même qu’elles avaient inventé le terme « open source » pour brouiller les pistes et relativiser l’importance de la liberté.

Au contraire, un modèle comme Falcon coche toutes les cases et peut très probablement être qualifié de libre.

La taille compte

Si une organisation qui crée un LLM publie le jeu de données utilisé, tous les réglages utilisés pendant l’entrainement, et permet ensuite son utilisation, sa modification et sa redistribution, est-ce que le modèle peut être qualifié de libre ? Oui, certainement, mais on peut ajouter une restriction, le problème pratique. En effet, un modèle significatif (disons, permettant des résultats qui ne sont pas ridicules par rapport à ceux de ChatGPT) nécessite une quantité colossale de données et des machines énormes pour l’entrainement. L’exécution du modèle par le moteur peut être plus économe. Encore qu’elle soit hors de portée, par exemple, de l’ordiphone classique. Si une application « utilisant l’IA » tourne soi-disant sur votre ordiphone, c’est simplement parce que le gros du travail est fait par un ordinateur distant, à qui l’application envoie vos données (ce qui pose divers problèmes liés à la vie privée, mais c’est une autre histoire). Même si l’ordiphone avait les capacités nécessaires, faire tourner un modèle non trivial épuiserait vite sa batterie. Certains fabricants promettent des LLM tournant sur l’ordiphone lui-même (« on-device ») mais c’est loin d’être réalisé.

Mais l’entraînement d’un modèle non trivial est bien pire. Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU (puces graphiques) pour créer le modèle. Le modèle Llama aurait nécessité des milliers de machines et Bloom une bonne partie d’un super-calculateur. Cette histoire de taille ne remet pas en question le caractère libre du modèle, mais cela limite quand même cette liberté en pratique. Un peu comme si on vous disait « vous êtes libre de passer votre week-end sur la Lune, d’ailleurs voici les plans de la fusée ». Le monde du logiciel libre n’a pas encore beaucoup réfléchi à ce genre de problèmes. (Qui ne touche pas que l’IA : ainsi, un logiciel très complexe, comme un navigateur Web, peut être libre, sans que pour autant les modifications soit une entreprise raisonnable.) En pratique, pour l’instant, il y a donc peu de gens qui ré-entrainent le modèle, faisant au contraire une confiance aveugle à ce qu’ils ont téléchargé (voire utilisé à distance).

Conclusion

Pour l’instant, la question de savoir ce que signifie la liberté pour un modèle de langage reste donc ouverte. L’Open Source Initiative a lancé un projet pour arriver à une définition. Je ne connais pas d’effort analogue du côté de la FSF mais plus tard, peut-être ?

Khrys’presso du lundi 31 juillet 2023

lundi 31 juillet 2023 à 07:42

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

RIP

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

Le X de Musk n’est pas une inconnue…

mercredi 26 juillet 2023 à 07:42

L’actualité récente nous invite à republier avec son accord l’article de Kazhnuz sur son blog (il est sous licence CC BY-SA 4.0) qui souligne un point assez peu observé de la stratégie d’Elon Musk : elle n’est guère innovante et ne vise qu’à ajouter un X aux GAFAM pour capter une base utilisateur à des fins mercantiles…


Twitter vers X, la marketplacisation1 d’Internet

Photo Blue bird seen at Lake Merritt Oakland par Michael Slaten.

par Kazhnuz

L’annonce a été faite le 23 juillet, Twitter va être remplacé par X, le « rêve » de Musk de créer l’app-à-tout-faire à la WeChat en Chine. Le logo va être changé, et la marque Twitter va être abandonnée au profit de celle de X, et le domaine x.com redirige déjà vers Twitter. Le nom a déjà été utilisé jadis par Musk pour sa banque en ligne (qui après moult péripéties deviendra Paypal, justement parce que le nom est nul et pose des tonnes de soucis – ressembler à un nom de site X justement), et cette fois comme y’a personne pour lui dire « stop mec ton idée pue », il le fait.

Cependant, je pense qu’il y a quelques trucs intéressants à dire sur la situation, parce qu’au final, plus qu’une « lubie de Musk », il y a dedans quelque chose qui informe de la transformation faite de twitter, et de la façon dont Musk fait juste partie d’un mouvement fortement présent dans la Silicon Valley.

Encore un

Je pense qu’il ne faut pas voir ce changement de nom comme quelque chose de si surprenant, imprévisible, parce que c’est jouer le jeu de Musk de croire qu’il est l’électron libre qu’il prétend être. Parce que même s’il va plus loin en changeant carrément la marque du produit, Musk ne fait (encore une fois) que copier-coller un comportement déjà présent dans le milieu de la tech.

Parce qu’au final, Twitter appartenant et devenant X Corp, c’est comme Facebook qui devient Meta Plateform, ou Google qui devient Alphabet Inc. Un changement en grande partie pour tenter de forger la « hype », l’idée que le site fait partie de quelque chose de plus grand, du futur, de ce qui va former l’Internet – non la vie – de demain. Bon je pense que ça se voit que je suis un peu sarcastique de tout ça, mais y’a cette idée derrière les grandes entreprises de la tech. Elles ne sont plus dans l’idée de tourner autour de quelques produits, elles se présentent comme le « futur ». X Corp n’est qu’une tentative de créer un autre GAFAM, et fait partie des mêmes mouvements, des mêmes visions, du même aspect « techbro ».

C’est pour ça que le nom « rigolo » est moins mis en avant par rapport au nom plus « générique-mais-cool-regardez ». Meta, pour ceux qui vont au-delà et le métavers. X pour la variable inconnue. Alphabet pour aller de A à Z. Tout cela est de l’esbroufe, parce que plus que vendre un produit, ils vendent de la hype aux investisseurs.

Et le fait que Musk a voulu réutiliser ce nom dans le passé ne change pas grand-chose à tout ça. Le but, l’ego est le même. Donner l’impression qu’on est face à une grosse mégacorporation du futur. Et ce manque d’originalité n’est pas que dans le changement de nom, mais aussi au final dans son plan derrière tout ça : transformer Twitter en une marketplace.

X, une autre marketplace

Le passage de Twitter à X.com, montre le même cœur que les metaverse et crypto… et au final une grande partie des transformations qui se sont produites : tout transformer en marketplace, enrobé dans une esthétique de technofuturisme. Cela se voit encore plus dans le message de Linda Yaccarino, la CEO de Twitter :

X est l’état futur de l’interactivité illimitée – centrée sur l’audio, la vidéo, la messagerie, les paiements/les banques – créant une place de marché globale pour les idées, les biens, les services et les opportunités. Propulsé par l’IA, X va nous connecter d’une manière que nous commençons juste à imaginer.

— Linda Yaccarino, twitter

On peut remarquer deux choses dans ce message :

Le premier est qu’il n’y a rien d’original dedans. Nous y retrouvons exactement la même chose que l’on retrouvait à l’époque des crypto et des NFT : le truc qui fait tout mais surtout des trucs qui existent déjà, et basé sur la technologie du turfu. Y’a déjà 500 plateformes pour faire payer pour des services, que ce soit en crowdfunding, au format « patreon », via des commissions, etc. Des ventes de biens sur internet, y’a aussi des tonnes de moyens, etc. Tout ce qui est rajouté c’est « on va faire tous ces trucs qui existent déjà, et on a dit « IA » dedans donc c’est le futur ça va tout révolutionner tavu ». C’est le modus operandi classique, et il n’y a rien d’original dans ce que propose Twitter. D’ailleurs, le rôle que peut avoir l’IA dedans est très vague : est-ce que c’est pour modifier les algorithmes ? (cela ne sert pas à grand-chose, on les hait tous déjà). Est-ce que c’est pour pouvoir générer des produits par IA pour les vendre ? Le produit que veut proposer X Corp n’a pas besoin d’IA pour fonctionner, elle est là juste pour dire « c’est le futur », et hyper les investisseurs.

Le second est que cela transforme l’idée de base de Twitter (l’endroit où les gens parlent) en avant tout une « place de marché », comme indiqué plus haut. Twitter était le lieu de la discussion, du partage de l’idée à la con qu’on a eue sous la douche. D’où le format du microblogging. Là aussi, même cet aspect devient quelque chose de commercialisable, ce qui rappelle encore une fois le mouvement qu’il y avait eu autour de la crypto et des NFT : tout doit pouvoir devenir commercialisable, tout doit pouvoir devenir un produit. C’est aussi ce mouvement qui fait qu’on a de plus en plus de « jeux-services », qui servent avant tout à vendre des produits dématérialisés n’ayant de valeur qu’à l’intérieur du jeu (et encore). Beaucoup de jeux ne peuvent plus juste « être un jeu », ils doivent être une « marketplace ».

Conclusion

La transformation de twitter en X n’est donc pas une surprise – en plus du fait que c’était annoncé depuis longtemps. Il ne s’agit que d’un phénomène qui arrive tout le temps sur Internet. Une volonté de transformer un site populaire en une « place de marché du futur » pour hyper des investisseurs. Encore une fois.

Et au final, on sait bien ce qu’a acheté Musk quand il a acheté Twitter. Il n’a pas acheté un produit. Il a acheté une userbase (une base d’utilisateurs et utilisatrices) pour l’injecter directement dans le nouveau produit qu’il voulait faire. C’est assez ironique de voir que Twitter a fini de la même manière que certains comptes populaires : revendu pour être renommé et envoyer sa pub à des tonnes d’utilisateurs.

l'oiseau bleu de twitter sur le dos et à terre, mort avec un X qui lui ferme l'œil.