Variation continue : la manie autoréférentielle des images contemporaines
Ambre Charpier
Nr 12 . 26 juin 2023
Table des matières
Des raisons d’y croire
La méfiance généralisée concernant les images peut sans peine être inférée au malaise de la représentation contemporaine, où l’image est une technique qui opère sur la réalité au lieu d’en être la cause. Jugées comme une construction discursive, nos images sont hantées par le doute de la fabrication et de la manipulation, exacerbant à dessein l’anxiété de tous ceux qui, par soucis de compréhension, tentent d’apprendre à les lire. Il est vrai que les techniques émergentes, notamment l’usage immodéré de l’intelligence artificiel appliqué à tout domaine de production, rend le statut de l’image d’autant plus inquiétant. Notre doute n’est ni infondé, ni le symptôme d’une paranoïa technologique collective : les images générées par les récents modèles de diffusions et réseaux antagonistes génératifs tels le renommé DALL-E1 ou le plus confidentiel Midjouney2 imitent avec une exactitude alarmante les textures de notre monde et imaginent des représentations passables d’événements qui ne sont jamais arrivés.
Mais pourtant, et cela dû aux conditions d’utilisation de ces logiciels, les images générées par les logiciels non-payants s’inscrivent majoritairement dans une typologie des images indissociable du web social : des mêmes absurdes et des expérimentations techniques. D’ailleurs, ce qui inquiète les créateurs critiques de ces logiciels n’est pas la possibilité d’une refonte épistémologique de ce que nous considérons comme la réalité, l’objectivité et la vérité, déjà mises à mal par les médias computationnels, mais plutôt l’obsolescence de leur corps de métier. La promesse implicite de ces services est avant tout d’automatiser la chaîne de production et de montage des images, de générer pour une somme modique, une multiplicité de variation sur une idée donnée. Se disséminant dans les secteurs d’emploi dits « créatifs », ces générateurs d’images déprofessionnalisent notamment les designers, les monteurs et autre petites mains des industries de la culture. Pourquoi salarier s’il devient possible de déléguer la production de maquettes de sites webs, d’affiches, de stock photographies, de publicité mais aussi de pseudo peintures de Van Gogh et autres presque Rembrandt, à des services qui ne nécessitent ni cotisation ni congés payés ?
Malgré l’apparent catastrophisme de ces travailleurs, leur opposition fait état d’un présent de l’image déjà opérant où un nombre grandissant de personnes industrialisent l’image grâce à ces programmes, illustrant magistralement leurs capacités techniques au détriment d’une quelconque recherche esthétique. Si l’émergence de nouvelles technologies n’annonce jamais la fin effective du travail pour les designers, les artistes, les photographes et autres créateurs – dont certains stratégiquement les démantèlent à la source – il demeure que cette énième atteinte portée à l’intégrité de l’art et plus spécifiquement de l’image, doit nous interroger quant à notre sympathie à l’égard de l’exploitation de la représentation par le capitalisme communicationnel.
Vilipendés, DALL-E et Midjourney semblent être la synthèse, voire parfois le bouc-émissaire, d’une crise massive de la culture : la précarisation du travail, la complicité des institutions artistiques avec un marché de l’art douteux et l’intrusion de l’algorithmie dans toutes sphère de la vie contemporaine3. Finalement ce qu’ils rejettent peut se résumer ainsi, dans les mots mêmes de la critique Rosalind Krauss : « la complète perméabilité de l’image dans l’espace sociale et le quotidien signifie que l’expérience esthétique est désormais partout, dans une expansion culturelle qui n’a pas seulement rendu la notion de travail artistique individuel intégralement problématique, mais a aussi évidé le concept d’une autonomie esthétique4. »
En réponse, les défenseurs acclament la joyeuse corruption des conventions par ces images, les qualifiant de surréalistes5. Peut-être discernent-ils dans leur étrange absurdité, la même provocation artistique résultant de la juxtaposition de plusieurs réalités disparates ? Voient-ils dans cette liberté de composition, un traitement automatique libéré de la logique et de la raison ? Je ne peux que demander alors, pourquoi ces images sont-elles si uniformes dans leur multiplicité, et cela malgré les maladresses visuelles, les erreurs et autres libertés supposées ? Pourquoi sont-elles finalement si conventionnelles, et cela malgré leur totale artificialité ?
Cette banalité visuelle est conséquente, et cela est l’hypothèse de cet essai, des procédés de traitement de l’image. Ces images sont avant tout la synthèse mathématique de ce que perçoivent ces réseaux neuronaux monstres dans des bases de données d’images ; ne pouvant créer ex-nihilo, les réseaux antagonistes et les modèles de diffusion doivent en amont s’entraîner à discerner les textures et nuances de ce monde grâce à de l’existant. A ce titre, ces techniques génèrent moins des images que des assemblages d’éléments visuels jugés représentatifs de la réalité, réduisant l’image à des indices mesurables et computables. Ils produisent alors ce que cet essai qualifie de variations continues, des multiples épuisant des concepts jusqu’à leur stérilisation.
Un capital semi-automatique
Quand un programme tel que DALL-E produit des images, il opère un nombre de décisions définies par les instructions encodées par des programmateurs. À cela s’ajoutent les contraintes de la basse matérialité de nos machines auxquelles DALL-E et autres ne peuvent se soustraire, que ce soit les espaces de stockage, le BIOS, la puissance de calcul d’un processeur, l’électricité qui y circulent. Ces images en sortie, et cela en dépit de leur « pouvoir hallucinatoire particulier qui a perdu sa foi dans les règles6. », sont le résultat d’une chaîne de commande décisionnelle au gré de laquelle la ferme adhérence ou la transgression de nos attentes visuelles sont, bien-entendu, conséquentes des instructions prescrites.
Bien que le critique Vilém Flusser, avec lequel nous discuterons du devenir technique des images, n’avait pas envisagé la génération pseudo-spontanée d’images, ces extrapolations se constatent, hélas, dans la relation symbiotique entre image, information et capital financier. Les images de synthèse, nous instruit-il, héritent nécessairement de la consécration de la donnée en tant que médium transactionnel dans la société dite « télématique », néologisme de télécommunication et informatique. L’abandon de la relation mimétique et descriptive à la nature, qu’il renvoie avec peu de conviction à une préhistoire de l’image, est perçu par l’auteur comme une libération définitive de la représentation visuelle. D’ailleurs, sa pensée technique de l’image relègue la pseudo-objectivité des procédés analogues dans les limbes de l’histoire de l’image, désormais substituée dans notre société télématique par une imagination conceptuelle logique « qui sert maintenant à programmer des images. » Les images de DALL-E et Midjourney, loin d’être à la hauteur des images promotionnelles placardées sur des fils d’actualités, sont majoritairement des arrangements précaires d’artefacts visuels entremêlés.
[Figure 1]Et c’est ici dans leur illisibilité que la liberté de ces réseaux neuronaux commence. Avec une conduite propre, ces générateurs d’images construisent et encodent des typologies de représentations internes, qui de l’extérieur semblent indéchiffrables, représentatives de l’espace dit « latent », la zone abstraite dans laquelle les images sont déconstruites en informations computables.
De la pensée systémique de Flusser, transparaît une critique de la notion de programme, c’est à dire d’un ensemble de règles et de protocoles déterminant une séquence d’action qui régissent l’ordonnance des appareils, photographiques ou computationnels. Les programmes, notamment ceux de la production d’images de synthèse, rendent visible un nouvel ordre de créativité par « des images presque impossibles parce qu’insaisissables, inimaginables et incompréhensibles7 ». Dans ce cadre épistémologique et idéologique nouveau, ce qu’il s’y joue est pour l’auteur limpide : l’automation totale de toute production visuelle, s’émancipant progressivement d’un programmateur et auto-gouvernée par les programmes. Sans évoquer frontalement les infrastructures économiques, il est apparent que Vilèm Flusser les incrimine, elles et les programmes autonomes, dans cette tendance inhumaine à l’automatisation accélérée en 2023 par les intelligences artificielles.
Les entreprises du web social ont vite saisi qu’en poussant ce système vers des formes d’exploitation plus intenses et plus rentables, elles pouvaient tirer financièrement avantage de l’incessante circulation des images. Incidemment, ils soumettaient aussi le langage, devenu un « agent descriptif et matériel8 » lui aussi automatisé, annotant des bases de données d’images monstrueuses pour les rendre opérantes. Ce constat s’observe dans les tâches les plus anodines : exemplairement, le langage HTML qui permet l’affichage de pages web comprenait jusqu’à récemment des descripteurs d’images usuellement rédigés par un opérateur. Cette tache est désormais partiellement exécutée par des techniques d’apprentissage non-supervisées dont la pauvreté linguistique dépouille nos images de tout contexte émotionnel ou sensible : à un entraînement de golf entre amis, les algorithmes de reconnaissance d’images de Facebook préféreront les brefs et désaffectés golf, dehors, herbe accolés à des émojis.
[Figure 2]Chez Facebook, entre autres, ce langage additionnel de références visuelles permet aux plateformes des réseaux sociaux de capitaliser sur ce « surplus informationnel9 », considéré comme la condition primordiale de cette économie communicationnelle. Les entreprises du web font de l’extraction d’informations l’une de leurs ressources financières prédominante par des algorithmes d’apprentissage automatiques qui analysent le flux d’images y circulant. Des photographies personnelles en passant par les mêmes, toutes images et textes d’utilisateurs servent à affiner les recommandations, les publicités, ou encore à optimiser l’analyse de la viralité d’un contenu visuel afin de le promouvoir ou de le bannir des contenus dans les limbes du scroll sans fin.
L’artificialisation de la vision et l’automatisation brisent le pacte de la représentation de l’image, l’assujettissant au rôle contraint d’image source afin d’entraîner divers types d’algorithmes à discriminer puis à interpréter ce qui relève du bruit ou du signal, à différencier par exemple un bon citoyen d’un mauvais manifestant. Autant dire que ces élégants procédés d’optimisation peuvent aussi bien militariser la représentation visuelle que la vendre aux industries culturelles les plus offrantes.
La critique artistique ne manque pas de dresser les facteurs de comorbidité de ces nouveaux modes de création d’images avec une certaine fascination ambivalente. S’ajoute à la longue liste de symptômes précédemment décrits, la destruction du droit d’auteur ou encore les biais identitaires – pourquoi toute figure humaine est par défaut caucasienne dans ces images ? – faisant de ces procédés une zone de non droit éthique. Les réseaux neuronaux – dont les réseaux antagonistes génératifs qui font figure de cas d’étude de cet essai – font des images un échantillonnage visuel traitable algorithmiquement grâce auquel d’autres images apparaîtront, qui elles aussi deviendront, dans une boucle de rétroaction infernale, un nouvel échantillon visuel.
Du pareil au même
Aux capacités imitatives des intelligences artificielles symboliques, dites de première génération, ces réseaux neuronaux artificiels délaissent la déduction logique, par une approche pseudo-heuristique de l’essai et de l’erreur10. C’est dans cette nouveauté que se tient la qualité première des générateurs d’images, leur possibilité d’apprendre par l’arbitrage quasi-libre de la représentation. Bien que paramétré, un réseau décide sans intervention extérieure des similarités ou des différences entre des échantillons d’images à partir desquelles il distinguera des objets entre eux. Dans le cas des réseaux antagonistes génératifs, une image « modèle » est confrontée à un ensemble d’entraînement de milliers, voire de millions d’images organisées en « classes » pré-triées, que le réseau doit en principe pouvoir assimiler à l’une des catégories qu’il a pré-établi. Typiquement, une image de table est, pour un réseau bien entraîné, distinguable d’un canapé, d’une lampe, voire d’une chaise pour les plus audacieux. Toutes les images échantillonnées sont déconstruites, réduites à un index de pixels pour les confronter entre elles en tentant de saisir les caractéristiques déterminantes et nécessaires qui les distingue. Le réseau définit en interne par cette opération de discrimination les classes d’objets d’une image, différenciant alors une porte d’une table, une table d’un lit voire entre deux styles de lits spécifiques.
Discriminer, comme le rappelle avec éloquence Wendy Hui Kyong Chun dans son récent ouvrage Discriminating Data11, n’est pas exclusivement une pathologie sociale favorisant l’homogénéité d’un groupe d’individu basé sur des normes, mais est inhérente à la discrétisation mathématique. Ce processus repose sur une reconnaissance de la différence entre des entités. Au préalable, discriminer requiert une connaissance des caractéristiques communes afin de saisir celles qui doivent être exclues, résultant au passage dans notre cas d’étude, de la création de modèles de représentation. En définitive, l’acte de discriminer n’est pas une production de catégories stables, mais un processus en constante évolution, envisageable uniquement si il est précédé par la reconnaissance. Corrélation et discrimination sont, dans un même mouvement, interdépendantes ; ces deux principes sont dans ces générateurs d’images le cœur des mécanismes de recombinaison, de découverte de motifs et de relations dans un même échantillonnage visuel.
Ce procédé discriminatoire génère une taxonomie grâce à laquelle le générateur pourra épuiser par la suite, dans une infinie variété monotone, la notion de table . Le rôle de l’algorithme générateur est d’intégrer des images dont la composition visuelle nouvelle agence des formes appartenant à la classe d’objets similaires à l’image modèle. Il confrontera chacune de ses itérations en un second temps à l’algorithme discriminant qui prédit si l’image qui lui est présentée est une image authentique ou une image générative. Ce procédé est un jeu de probabilités interne : si l’image générée est indistinguable des échantillons d’images d’entraînements, le générateur gagne et inversement si l’image ne trompe pas le discriminateur, le cycle d’entraînement recommence. La pondération de l’information, caractéristique de ce connexionnisme artificiel, fait de l’information corrompue une ressource adaptative, usant de la perte de données comme un surplus informationnel. Ce renforcement de l’apprentissage permet finalement à ces algorithmes de produire des images réalistes pour l’algorithme, puisqu’elles semblent être des images authentiques vis-à-vis des paramètres du discriminateur.
[Figure 3]
DALL-E, dont la version opensource et publique nommée Craiyon est l’un producteur de mêmes et d’art favoris du web, démontre la capacité de ces réseaux neuronaux à absorber des bases de données d’images démesurées dont à l’évidence il peine encore à définir les caractéristiques au vu des images qu’il génère. Techniquement, l’usage de ce logiciel répond à l’impatience des utilisateurs moyens des technologies : il suffit désormais d’énoncés simples – une chaise d’Ettore Sottsass par exemple descriptif : « Ettore Sottsass’s chair » généré par la version en ligne gratuite Craiyon Mini – afin qu’une combinaison graphique de concepts soit générée, synthétisant le médium symbolique du langage par un modèle visuel. Les images perfectionnées par des bases de données d’entraînement impressionnantes semblent être l’emblème d’un régime visuel automatisé, mais les images déteintes aux textures brouillées qui circulent en ligne nous rappellent leur réalité technique : elles demeurent le résultat d’un agglomérat d’éléments visuels synthétiques de millions d’images indexées, d’un ensemble de médias dont la représentation est considérée analogue, somme toute une sérialisation à partir du même modèle, un multiple visuelle.
[Figure 4][Figure 5][Figure 6]Lorsque Vilèm Flusser figure les techniques photographiques de son temps telle une intelligence artificielle consciente globale, outillée par les êtres humains pour réaliser sa seule directive : l’épuisement définitif de l’image, les techniques contemporaines se chargent de concrétiser cette éventualité. Manifestement, ils accélèrent la production d’image en proposant une multiplicité de formes et de textures, saturant potentiellement des concepts par des milliers d’itérations différentes. Mais, et cela se constate dans la pratique de ces réseaux, toutes ces images échouent à s’émanciper un tant soit peu de standards préétablis et de formes déjà explorés. A ce titre, si ces images déplient visuellement des concepts, en contre partie elles tombent inexorablement dans les mêmes rengaines esthétiques en ne proposant que des variations continues sur un même thème. Elles illustrent, par les expérimentations pauvres, la paupérisation d’une créativité en perpétuel renoncement à la nouveauté. Les images de ces générateurs, et c’est là où le bas blesse, remplacent lentement l’expérience sensible de la représentation visuelle comme médiation et matérialisation de concepts, par du paramétriques et des images-clichés qui restreignent l’imagination par une techno-créativité cyclique et désaffectée.
De cette saturation advient le plaisir aliénant de ces images qui substitue au plaisir esthétique le spectacle de l’interprétation algorithmique. Les chimères exubérantes, les mains dédoublées, les perspectives contradictoires et les ombres incohérentes ne résultent d’aucunes intentions artistiques. Ces éléments sont insignifiants – ils ne signifient littéralement rien. Il n’y a ici que la preuve par l’image d’un jeu qui se dérobe à la vue entre un algorithme qui malicieusement en dupe un autre. Cependant, et malgré la posture critique envers les propositions issues de ces techniques, certains artistes rusent et stratégiquement, explorent ces techniques. N’en déplaisent à Vilém Flusser, leur radicalité n’est à pas à la hauteur de sa vision d’un art qui procède de la technique afin de la subvertir, faisant de l’art un jeu politique12. Nous pouvons cependant concéder que le détournement des réseaux antagonistes génératifs dans l’art contemporain rompt avec la bonne ordonnance prescrites à ces techniques, où l’indiciel est liquidé au profit d’un retour au symbolique.
Exemplairement, la série d’image Adversarially Evolved Hallucinations de l’artiste Trevor Paglen démontrent une volonté claire de tordre les règles de ces procédés en s’amusant à confronter des concepts basés sur « sur de la littérature, de la philosophie, de la sagesse populaire, de l’histoire et d’autres domaines irrationnelles13 » à un corpus d’images choisies. Les algorithmes, explique Trevor Paglen, ont été entraîné à ne voir qu’exclusivement des symboles analytiques freudiens ou encore à ne discerner que les signes de mauvais augures dans le corpus d’images. A partir de cette taxonomie instable, des algorithmes générateurs produisent des images absentes partiellement de référents stables puisqu’une catégorisation certaine est ici impossible : lire les augures, c’est entrevoir dans divers domaines du vivant et du non-vivant, des comètes aux formations mouvantes des oiseaux migratoires, les signes occultes d’un futur à venir. Ce type d’entraînement trompe la logique indicielle de ces algorithmes et les arrache à leur fonction première de soutien technique du capitalisme communicationnel, exposant au passage les associations que ce permettent les réseaux. Mais, malheureusement, ces œuvres toujours résistent à exposer les soubassements de ces techniques, la cannibalisation du régime visuel, du travail intellectuel, artistique et créatif.
A Multiple Journey
Nul doute que les stratégies d’occultation de ces techniques par les industriels rendent ces algorithmes si opaques, que les postures critiques artistiques peinent encore à exposer la techno-politique. Il est certain que les déclarations provocantes de l’artiste Josh Allen, après sa victoire à la State Fair avec son image générée par Midjourney, résume l’étrange impuissance que certains créateurs cultivent à l’égard de ces techniques : « Ça ne va pas s’arrêter … L’art est mort, mec. C’est fini. Les intelligences artificielles ont gagné. Les humains, perdu14. ». Cette crainte ne peut être vrai que si l’imagination humaine et les plaisirs esthétiques sont effectivement mesurables par des paramètres limitants ; que si nous acceptons que les formes variées d’arts et plus vastement les activités humaines, sont immuablement objectivables. Nous ne sommes pas tant prisonniers de ces techniques qui viendront à saturer subtilement les industries culturelles, que nous sommes aux prises avec notre propre dépossession du langage et des techniques contemporaines. En peinant à construire nos propres moyens de naviguer dans les représentations présentes et leurs moyens de production, nous sommes contraints de reproduire, comme l’énonce avec éloquence Rob Horning, « le passé comme horizon du futur15 ».
Alors que la production d’images générée par des intelligences artificielles en tous genres deviennent le terrain d’affrontements théoriques sur la place du travail créatif, de l’agentivité artistique voire de l’imagination humaine, je ne peux moi-même m’extraire de cette inévitable boucle de rétroaction en pensant ici les hypothèses de Vilèm Flusser comme constats sur l’image poussés à leur paroxysme.
Déshistoricisées et réduites à des modèles, nos images deviennent finalement une variation visuelle dans un univers lui même de synthèse où « les producteurs d’images techniques, ceux qui imaginent (photographes, cameramen, vidéastes), sont littéralement à la fin de l’histoire. Et dans le futur, tout le monde imaginera. Tout le monde pourra utiliser des clés qui lui permettront, avec tout le monde, de synthétiser des images sur l’écran de l’ordinateur […] Même leur propre conscience, leurs pensées, leurs désirs et leurs valeurs se sont désintégrés en particules, en bits d’information, une masse qui peut être calculée16. ». C’est dans l’ambivalence de cette dernière citation, que je laisse le soin à tous producteurs d’imaginer des représentations qui nous ravissent parce qu’elles résistent à une universalité du langage, parce qu’elles échapperaient alors à leur computation.
Citer cet article
Ambre Charpier, « Variation continue : la manie autoréférentielle des images contemporaines », [Plastik] : De multiples à multiple #12 [en ligne], mis en ligne le 26 juin 2023, consulté le 21 novembre 2024. URL : https://plastik.univ-paris1.fr/2023/06/26/variation-continue-la-manie-autoreferentielle-des-images-contemporaines/