Small is Beautiful
Les fichiers Zip semblent omniprésents. Vous en avez probablement utilisé un cette semaine, même si vous pensiez ouvrir un document Word, lire un livre électronique ou planifier d’assister à un concert de Jimmy Buffet. Vous savez peut-être que « zipper » est un terme qui désigne le fait de combiner et de réduire des fichiers sur votre ordinateur, et vous avez peut-être récemment lancé WinZip ou l’un de ses concurrents pour envoyer des photos ou partager une compilation musicale. Mais je parie que vous n’avez jamais regardé sous le capot pour voir comment les données sont réduites, et vous n’avez certainement pas remarqué que ChatGPT et ses amis ne sont rien d’autre que des systèmes de compression ultra-sophistiqués.
La première loi pour réduire quoi que ce soit, qu’il s’agisse de vos enfants, d’un gratte-ciel ou de l’ensemble de Wikipédia, est de rechercher une fidélité parfaite. La compression « avec perte », qui sacrifie la qualité au profit de la taille, est relativement facile mais pas très efficace ; si vous êtes assez âgé, vous vous souvenez certainement des vidéos granuleuses et saccadées des débuts d’Internet, massivement compressées pour passer à travers les canaux audio étroits de l’époque. En revanche, la norme de référence est la compression sans perte, qui préserve parfaitement chaque octet et chaque pixel tout en réussissant à réduire la taille globale du fichier. Cela n’est possible que si vos données comportent beaucoup de redondances et de répétitions, ce qui est heureusement généralement le cas : nous pouvons compresser
10000000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000
sous la forme « 1 suivi de cent zéros » ou 10¹⁰⁰ ou un googol (non, pas celui-là), qui sont tous beaucoup plus courts que d’écrire le nombre en notation décimale. (La forme décimale est elle-même compressée : un googol de marques de comptage prendrait beaucoup plus de place !) Les données bruitées ou aléatoires sont beaucoup plus difficiles à réduire que ces beaux exemples répétitifs, c’est pourquoi les streamers Twitch détestent la neige.
Et si vous y réfléchissez, vous comprendrez pourquoi il doit y avoir une limite stricte à la taille minimale que vous pouvez atteindre sans détruire quoi que ce soit. Il peut sembler possible de partir d’un lac de données de la taille d’un zettaoctet et de le réduire 1 000 fois pour obtenir un exaoctet, mais que se passerait-il si vous continuiez au même rythme, en compressant à nouveau 1 000 fois pour obtenir un pétaoctet, puis un pteroctet, puis un téraoctet, et ainsi de suite (oui, j’invente tout cela) ? Au final, vous obtiendriez toutes les données du monde stockées en huit 1 et 0, ce qui est absurde. Pour vous en convaincre, essayez de compresser un fichier zip, puis de compresser le résultat ; vous constaterez rapidement que le fichier devient plus volumineux à mesure que vous le compressez, une tâche sisypheenne qui s’apparente plutôt à plier du papier dix fois.
Les tentatives visant à concevoir des systèmes de compression toujours plus efficaces ont contribué à inspirer l’étude de la théorie de l’information. Les chercheurs ont déterminé les limites théoriques de la réduction possible : moins votre texte est compressible, plus il contient d’« informations ». Il est donc assez facile de condenser les propos des politiciens et des influenceurs, mais beaucoup moins ceux de Joyce ou de Hawking. Un mathématicien soviétique ingénieux nommé Kolmogorov a inventé la principale mesure de l’« information », en prenant comme référence la longueur du programme informatique le plus court qui produit le texte que vous mesurez. Et une fois que vous voyez les choses sous cet angle, vous commencez à comprendre que la compression intelligente implique en fait un certain degré d’intelligence.
Remarquez dans notre exemple « googol » ci-dessus que les représentations deviennent plus courtes à mesure qu’elles deviennent plus sophistiquées : « cent zéros » implique simplement de compter, tandis que « 10¹⁰⁰ » nécessite une récursivité et une exponentiation. C’est également ce qui se passe dans la compression zip réelle, où les programmeurs réduisent la taille des fichiers à l’aide de méthodes astucieuses telles que le codage adaptatif de Huffman, qui détermine comment ajuster la méthode de compression à la volée en analysant les données à mesure qu’elles arrivent. Dans notre vie quotidienne, nous utilisons et inventons constamment de nouvelles représentations compressées du monde qui nous entoure, comme les équations de Maxwell, l’échelle d’inférence ou même « Make America Great Again ».
Et si vous regardez attentivement votre chatbot préféré, il commence à ressembler à un superordinateur de compression, capturant une grande partie de la complexité des tonnes de données qu’il a absorbées pendant son entraînement avec « seulement » quelques trillions de paramètres. Je ne dirais pas que ChatGPT et Claude « pensent », mais ils semblent certainement construire des modèles internes sophistiqués du monde, dont certains commencent à être découverts à l’intérieur de leur « cerveau ».
Oui, il est vrai que les IA ne font rien de plus sophistiqué que de prédire le mot suivant, et pour cette raison, vous pouvez les considérer comme de simples perroquets si vous le souhaitez. Mais en réalité, anticiper ce qui va suivre à partir des informations limitées déjà disponibles est exactement ce dont vous avez besoin pour rendre vos données compressées compréhensibles, et il existe des preuves solides que cette capacité est étroitement liée à des performances « intelligentes ». Un chercheur croit si fermement à ce lien qu’il vous donnera jusqu’à 500 000 euros si vous parvenez à faire une percée dans le domaine de la compression « intelligente ». Personnellement, malgré l’inévitable correction du marché, je suis suffisamment confiant dans l’utilité à long terme des chatbots intelligents actuels pour commencer à écrire un nouveau livre sur la façon de les utiliser sans discuter. Ne retenez pas votre souffle en attendant la singularité, mais vous seriez fou de ne pas augmenter votre productivité et vos profits grâce à une armée d’assistants adéquats.

