🧠 ChatGPT : quelles données d'apprentissage ?

Focus

oct. 23, 2023

Bonjour à tous,

Je suis très heureux de vous retrouver pour un nouveau focus 🔬. Aujourd’hui, on va rentrer un peu plus dans les entrailles de ChatGPT.

Mais avant cela, si vous avez reçu cette édition par un autre moyen, n’hésitez pas à vous inscrire, en format gratuit ou payant, c’est comme vous voulez. Vous deviendrez incollable en matière d’innovation technologique :

Démystifier ChatGPT et l’IA gen (générative)

Bien sûr, de très nombreuses personnes s’inquiètent de l’avancée rapide de l’intelligence artificielle : la machine serait devenue pensante 🧠, elle agirait par elle-même.

Eh bien, rassurez-vous, ce n’est pas du tout le cas.

Bien au contraire.

L’IA résulte bien du travail de femmes et d’hommes.

Prenons ChatGPT par exemple : il a été inventé par une petite équipe autour de Sam Altman, la patron d’OpenAI et de Mira Murati, sa discrète CTO - Chief Technology Officer - directrice de la technologie -, un poste très en vogue dans la Silicon Valley.

Mira Murati, 34 ans, l’architecte de ChatGPT

Il y a donc derrière les créateurs de ChatGPT, des visages juvéniles avec un background d’ingénieur qui travaillent simplement à construire le monde 🌍 de demain. Pas de grand méchants loups qui veulent détruire l’humanité.

ChatGPT : la synthèse du savoir humain

Mais surtout : chatGPT fonctionne et est alimenté par une tonne de données, les fameuses données d’apprentissage, qui font tourner le modèle. On parle de LLM pour large language model.

Et ces données ne viennent pas de nulle part. Elles viennent des êtres humains, de leurs connaissances accumulées à travers le temps. Utiliser la technologie pour restituer un savoir et répondre 💬 à toutes nos questions, n’a donc rien de mal !

En ce qui me concerne, il m’arrive de me poser plein de questions dans le cadre de mon travail de superviseur bancaire. Pour trouver des réponses, j’interroge en priorité mes collègues, mais je constate que les réponses sont (parfois) floues, abstruses, désordonnées et aussi, il faut bien le dire, fausses dans certains cas 🤯.

Je vous donne un exemple : j’ai demandé à ChatGPT de m’expliquer le hedging ratio, dans le cadre d’exemptions de charge en capital pour une banque. La réponse n’était certes pas totalement satisfaisante, mais au moins plus claire que des explications fournies par des êtres humains qui ne peuvent simplement pas tout savoir.

Soyons honnête : ça vous est aussi arrivé dans votre travail, j’en suis sûr !

Chargement...

D’où viennent vraiment les données ?

Évidemment, après tout cela, je me suis demandé : mais comment ChatGPT est alimenté au juste ?

Réponse : par des données d’apprentissage, c’est-à-dire les sources qu’utilise ChatGPT3 pour répondre à nos questions. Suivant les paramètres utilisés par le LLM, vous aurez des réponses différentes : certaines seront plus ‘woke’ que d’autres par exemple.

Tout dépend, vous l’aurez compris, du choix des données, de leur QUALITÉ et de leur granularité.

Pour GPT-3, voici ses sources :

Sites et page Web 🌐 : tels que Common Crawl qui explore le Web et fournit gratuitement ses archives et ses données au public
Corpus de livre 📚 sur l’histoire, les sciences, la fiction, BookCorpus, Projet Gutenberg (une bibliothèque de versions électroniques libres de livres)
Article de presse 📰 : provenant de diverses sources, ChatGPT s’appuie beaucoup sur le Washington Post et le New York Times, mais aussi sur NewsCrawl ou Reddit
Les conversations 🗣️ : notamment les forums et discussions sur les réseaux sociaux, Cornell Movie-Dialog Corpus, etc.

Je précise que 93% des données 📊 d’apprentissage sont en anglais. À noter aussi que, si on agrège les sources par grande catégorie, Common Crawl représente quand même 60% de la base de données de ChatGPT3. C’est 22% pour Reddit dont je vous ai déjà parlé quand j’ai voulu créer notre forum de discussion.

Un dataset monstrueux !

Au total, ChatGPT-3 repose sur 175 milliards de paramètres. Pour GPT-4, le chiffre serait de plus de 1 000 milliards 😳, selon certaines estimations fournies par le média américain Semafor.

Nombre de paramètres selon les versions de ChatGPT - Source : datacamp et Wired

Pour finir, je me suis fait une autre réflexion : ce serait encore mieux si toutes ces sources étaient répertoriées dans une blockchain ⛓️, ou un DLT (registre distribué) consultable par tout un chacun, à tout moment, dès qu’un utilisateur fait une recherche.

Eh oui, la technologie de la chaine de blocs rend possible une plus forte traçabilité, voire une vraie gouvernance de l’IA.

Qu’en pensez-vous ?

📨 Pour plus d’infos sur ChatGPT, n’hésitez pas à consulter mes éditions précédentes sur le sujet :

❤️❤️❤️ Si vous aimez ma newsletter, n’hésitez SURTOUT pas à la partager à vos amis avec le bouton qui suit pour continuer à élargir le réseau.

Share Lettres Ouvertes

🃏 Par ailleurs, avec 3 recommandations, vous gagnerez un abonnement payant d’un mois qui vous permettra d’accéder à tous mes contenus mais aussi à tout l’historique. Avec 5 recommandations, la durée sera de 3 mois. Et avec 25 recommandations, la durée sera de 6 mois

Refer a friend

Vous pouvez aussi me suivre sur :

X via mon compte perso ou sur celui de la news ;
Instagram sur le compte de la newsletter.

À très vite,

Amaury

Lettres Ouvertes