Bonjour Ă tous,
Je suis trĂšs heureux de vous retrouver pour un nouveau focus đŹ. Aujourdâhui, on va rentrer un peu plus dans les entrailles de ChatGPT.
Mais avant cela, si vous avez reçu cette Ă©dition par un autre moyen, nâhĂ©sitez pas Ă vous inscrire, en format gratuit ou payant, câest comme vous voulez. Vous deviendrez incollable en matiĂšre dâinnovation technologique :
DĂ©mystifier ChatGPT et lâIA gen (gĂ©nĂ©rative)
Bien sĂ»r, de trĂšs nombreuses personnes sâinquiĂštent de lâavancĂ©e rapide de lâintelligence artificielle : la machine serait devenue pensante đ§ , elle agirait par elle-mĂȘme.
Eh bien, rassurez-vous, ce nâest pas du tout le cas.
Bien au contraire.
LâIA rĂ©sulte bien du travail de femmes et dâhommes.
Prenons ChatGPT par exemple : il a Ă©tĂ© inventĂ© par une petite Ă©quipe autour de Sam Altman, la patron dâOpenAI et de Mira Murati, sa discrĂšte CTO - Chief Technology Officer - directrice de la technologie -, un poste trĂšs en vogue dans la Silicon Valley.
Il y a donc derriĂšre les crĂ©ateurs de ChatGPT, des visages juvĂ©niles avec un background dâingĂ©nieur qui travaillent simplement Ă construire le monde đ de demain. Pas de grand mĂ©chants loups qui veulent dĂ©truire lâhumanitĂ©.
ChatGPT : la synthĂšse du savoir humain
Mais surtout : chatGPT fonctionne et est alimentĂ© par une tonne de donnĂ©es, les fameuses donnĂ©es dâapprentissage, qui font tourner le modĂšle. On parle de LLM pour large language model.
Et ces donnĂ©es ne viennent pas de nulle part. Elles viennent des ĂȘtres humains, de leurs connaissances accumulĂ©es Ă travers le temps. Utiliser la technologie pour restituer un savoir et rĂ©pondre đŹ Ă toutes nos questions, nâa donc rien de mal !
En ce qui me concerne, il mâarrive de me poser plein de questions dans le cadre de mon travail de superviseur bancaire. Pour trouver des rĂ©ponses, jâinterroge en prioritĂ© mes collĂšgues, mais je constate que les rĂ©ponses sont (parfois) floues, abstruses, dĂ©sordonnĂ©es et aussi, il faut bien le dire, fausses dans certains cas đ€Ż.
Je vous donne un exemple : jâai demandĂ© Ă ChatGPT de mâexpliquer le hedging ratio, dans le cadre dâexemptions de charge en capital pour une banque. La rĂ©ponse nâĂ©tait certes pas totalement satisfaisante, mais au moins plus claire que des explications fournies par des ĂȘtres humains qui ne peuvent simplement pas tout savoir.
Soyons honnĂȘte : ça vous est aussi arrivĂ© dans votre travail, jâen suis sĂ»r !
DâoĂč viennent vraiment les donnĂ©es ?
Ăvidemment, aprĂšs tout cela, je me suis demandĂ©Â : mais comment ChatGPT est alimentĂ©Â au juste ?
RĂ©ponse : par des donnĂ©es dâapprentissage, câest-Ă -dire les sources quâutilise ChatGPT3 pour rĂ©pondre Ă nos questions. Suivant les paramĂštres utilisĂ©s par le LLM, vous aurez des rĂ©ponses diffĂ©rentes : certaines seront plus âwokeâ que dâautres par exemple.
Tout dĂ©pend, vous lâaurez compris, du choix des donnĂ©es, de leur QUALITĂ et de leur granularitĂ©.
Pour GPT-3, voici ses sources :
Sites et page Web đ : tels que Common Crawl qui explore le Web et fournit gratuitement ses archives et ses donnĂ©es au public
Corpus de livre đ sur lâhistoire, les sciences, la fiction, BookCorpus, Projet Gutenberg (une bibliothĂšque de versions Ă©lectroniques libres de livres)
Article de presse đ°Â : provenant de diverses sources, ChatGPT sâappuie beaucoup sur le Washington Post et le New York Times, mais aussi sur NewsCrawl ou Reddit
Les conversations đŁïžÂ : notamment les forums et discussions sur les rĂ©seaux sociaux, Cornell Movie-Dialog Corpus, etc.
Je prĂ©cise que 93% des donnĂ©es đ dâapprentissage sont en anglais. Ă noter aussi que, si on agrĂšge les sources par grande catĂ©gorie, Common Crawl reprĂ©sente quand mĂȘme 60% de la base de donnĂ©es de ChatGPT3. Câest 22% pour Reddit dont je vous ai dĂ©jĂ parlĂ© quand jâai voulu crĂ©er notre forum de discussion.
Un dataset monstrueux !
Au total, ChatGPT-3 repose sur 175 milliards de paramĂštres. Pour GPT-4, le chiffre serait de plus de 1 000 milliards đł, selon certaines estimations fournies par le mĂ©dia amĂ©ricain Semafor.
Pour finir, je me suis fait une autre rĂ©flexion : ce serait encore mieux si toutes ces sources Ă©taient rĂ©pertoriĂ©es dans une blockchain âïž, ou un DLT (registre distribuĂ©) consultable par tout un chacun, Ă tout moment, dĂšs quâun utilisateur fait une recherche.
Eh oui, la technologie de la chaine de blocs rend possible une plus forte traçabilitĂ©, voire une vraie gouvernance de lâIA.
Quâen pensez-vous ?
đš Pour plus dâinfos sur ChatGPT, nâhĂ©sitez pas Ă consulter mes Ă©ditions prĂ©cĂ©dentes sur le sujet :
â€ïžâ€ïžâ€ïž Si vous aimez ma newsletter, nâhĂ©sitez SURTOUT pas Ă la partager Ă vos amis avec le bouton qui suit pour continuer Ă Ă©largir le rĂ©seau.
đ Par ailleurs, avec 3 recommandations, vous gagnerez un abonnement payant dâun mois qui vous permettra dâaccĂ©der Ă tous mes contenus mais aussi Ă tout lâhistorique. Avec 5 recommandations, la durĂ©e sera de 3 mois. Et avec 25 recommandations, la durĂ©e sera de 6 mois
Vous pouvez aussi me suivre sur :
X via mon compte perso ou sur celui de la news ;
Ă trĂšs vite,
Amaury