L’últim avenç d’OpenAI és sorprenentment poderós, però encara lluita contra els seus defectes

El completament automàtic final

La nova arribada més emocionant al món de la IA sembla, a la superfície, desarmantment senzilla. No es tracta d’un programa de joc subtil que pugui suposar el millor de la humanitat ni un robot avançat mecànicament que retrocedeixi com un olímpic. No, només és un programa d’autocompletar, com el de la barra de cerca de Google. Comenceu a escriure i prediu el que ve després. Però mentre aixòsonssenzill, és un invent que podria acabar definint la dècada següent.



El programa en si es diu GPT-3 i és el treball del laboratori d’IA AI basat a San Francisco OpenAI, un equipament que es va fundar amb l’ambiciós objectiu (alguns diuen que és delirant) de dirigir el desenvolupament de la intel·ligència general artificial o AGI: programes informàtics que posseeixen tota la profunditat, varietat i flexibilitat de la ment humana. Per a alguns observadors, GPT-3, encara que molt definitivamentnoAGI - bé podria ser elprimer pascap a la creació d’aquest tipus d’intel·ligència. Al cap i a la fi, argumenten, què és la parla humana si no un programa d’autocompletar increïblement complex que s’executa a la caixa negra dels nostres cervells?

Introduïu qualsevol text i GPT-3 el completarà per a vosaltres: la simplicitat mateixa

Com el seu nom indica, GPT-3 és el tercer d’una sèrie d’eines d’autocompletar dissenyades per OpenAI. (GPT significa transformador pre-entrenat generatiu.) El programa ha trigat anys a desenvolupar-se, però també està navegant per una onada d’innovació recent en el camp de la generació de text d’IA. En molts sentits, aquests avenços són similars al salt endavant en el processament d’imatges d’IA que va tenir lloc a partir del 2012. Aquests avenços van iniciar el boom actual de la IA, que va comportar diverses tecnologies habilitades per a la visió per ordinador, des de cotxes autònoms, fins a reconeixement facial omnipresent, fins a drons. És raonable, doncs, pensar que les noves capacitats de GPT-3 i el seu tipus semblant podrien tenir efectes similars de gran abast.

Com tots els sistemes d’aprenentatge profund, GPT-3 busca patrons a les dades. Per simplificar les coses, el programa s’ha format sobre un enorme corpus de text que s’extreu de regularitats estadístiques. Aquestes regularitats són desconegudes pels humans, però s’emmagatzemen com a milers de milions de connexions ponderades entre els diferents nodes de la xarxa neuronal de GPT-3. És important destacar que no hi ha cap aportació humana implicada en aquest procés: el programa busca i troba patrons sense cap guia, que després utilitza per completar les sol·licituds de text. Si introduïu la paraula disparar a GPT-3, el programa sap, basat en els pesos de la seva xarxa, que és molt més probable que segueixin les paraules camió i alarma que lúcid o elf. Fins ara, tan senzill.

El que diferencia GPT-3 és l’escala en què opera i l’al·lucinant conjunt de tasques d’autocompletament que li permet abordar. El primer GPT, llançat el 2018, contenia 117 milions de paràmetres, essent el pes de les connexions entre els nodes de la xarxa i un bon proxy per a la complexitat del model. GPT-2, llançat el 2019, contenia 1.500 milions de paràmetres. Però, en comparació, GPT-3 té 175.000 milions de paràmetres, més de 100 vegades més que el seu predecessor i deu vegades més que programes comparables.



samsung gear iconx 2018
La totalitat de la Viquipèdia en anglès constitueix només el 0,6 per cent de les dades d’entrenament de GPT-3

El conjunt de dades sobre el qual es va formar GPT-3 és de manera similar a un mamut. És difícil estimar la mida total, però sabem que la totalitat de la Viquipèdia en anglès, que abasta uns 6 milions d’articles, només representa el 0,6 per cent de les seves dades de formació. (Tot i que fins i tot aquesta xifra no és completament precisa ja que els entrenaments GPT-3 llegeixen algunes parts de la base de dades més vegades que d'altres.) La resta prové de llibres digitalitzats i diversos enllaços web. Això vol dir que les dades d’entrenament de GPT-3 inclouen no només articles com ara notícies, receptes i poesia, sinó també manuals de codificació, fanficció, profecies religioses, guies dels ocells cantors de Bolívia i qualsevol cosa que pugueu imaginar. Qualsevol tipus de text que s’hagi penjat a Internet probablement hagi esdevingut una gran importància per al poderós molí de coincidència de patrons de GPT-3. I, sí, això també inclou les coses dolentes. Llibres de text pseudocientífics, teories de la conspiració, paviments racistes i manifestos dels tiradors de masses. També hi són, pel que sabem; si no en el seu format original, reflectits i disseccionats per altres assaigs i fonts. Tot està allà, alimentant la màquina.

El que permet aquesta profunditat i complexitat poc obertes, però, és una profunditat i complexitat corresponents en la producció. És possible que hagueu vist exemples flotant recentment per Twitter i les xarxes socials, però resulta que una IA d’autocompletar és una eina meravellosament flexible simplement perquè es pot emmagatzemar tanta informació com a text. Durant les últimes setmanes, OpenAI ha fomentat aquests experiments en sembrar membres de la comunitat d’IA amb accés a l’API comercial de GPT-3 (una interfície de text-in i text-out simple que l’empresa ven als clients com a beta privada) . Això s'ha traduït en una inundació de nous casos d'ús.



No és exhaustiu, però aquí teniu una petita mostra de les coses que la gent ha creat amb GPT-3:

  • Un motor de cerca basat en preguntes.És com Google, però per a preguntes i respostes. Escriviu una pregunta i GPT-3 us dirigirà a l'URL de Wikipedia corresponent per obtenir la resposta.
  • Un xatbot que us permet parlar amb personatges històrics .Com que GPT-3 s’ha format en tants llibres digitalitzats, ha absorbit una bona quantitat de coneixement rellevant per a pensadors específics. Això significa que podeu preparar GPT-3 per parlar com el filòsof Bertrand Russell, per exemple, i demanar-li que expliqui les seves opinions. El meu exemple preferit d'això, però, és undiàleg entre Alan Turing i Claude Shannonque és interromput per Harry Potter, perquè els personatges de ficció són tan accessibles a GPT-3 com els històrics.
  • Resol puzles de llenguatge i sintaxi a partir d’alguns exemples.Això és menys entretingut que alguns exemples, però molt més impressionant per als experts en la matèria. Podeu mostrar a GPT-3 certs patrons lingüístics (com si el productor d'aliments es converteixi en productor d'aliments i l'oli d'oliva es converteixi en oli d'olives) i completarà qualsevol sol·licitud nova que el mostreu correctament. Això és emocionant perquè suggereix que GPT-3 ha aconseguit absorbir certes regles profundes del llenguatge sense cap formació específica. Com a professor d’informàtica Yoav Goldberg: qui ha estatcompartint molts d’aquests exemples a Twitter- dit, aquestes habilitats són noves i súper emocionants per a la intel·ligència artificial, però no volen dir que GPT-3 domini el llenguatge.
  • Generació de codi basada en descripcions de text.Descriviu un element de disseny o un disseny de pàgina que escolliu amb paraules simples i GPT-3 escup el codi corresponent. Els Tinkerers ja han creat aquestes demostracions per a diversos llenguatges de programació diferents.
  • Resposta consultes mèdiques .Un estudiant de medicina del Regne Unit va utilitzar GPT-3 per respondre a preguntes d’assistència sanitària. El programa no només va donar la resposta correcta, sinó que va explicar correctament el mecanisme biològic subjacent.
  • Rastrejador de calabossos basat en text.Potser n’has sentit a parlar AI Dungeon abans, un joc d’aventures basat en text impulsat per la intel·ligència artificial, però és possible que no sàpigueu que és la sèrie GPT la que fa que marqui. El joc s’ha actualitzat amb GPT-3 per crear-ne mésaventures de text convincents .
  • Transferència d'estil per al text.Introduïu text escrit amb un estil determinat i GPT-3 el pot canviar per un altre. En unexemple a Twitter, un usuari va introduir text en llenguatge senzill i va demanar a GPT-3 que el canviés pel llenguatge legal. Això transforma les aportacions del meu propietari que no mantenia la propietat perquè els demandats han permès que la propietat real caigui en mal estat i no compleixin els codis i les regulacions de seguretat i salut i estats locals.
  • Compondre pestanyes de guitarra. Les pestanyes de guitarra es comparteixen al web mitjançant fitxers de text ASCII, de manera que podeu apostar que formen part del conjunt de dades d’entrenament de GPT-3. Per descomptat, això significa que GPT-3 pot generar música per si mateix després de rebre uns quants acords per començar.
  • Escriure ficció creativa.Aquesta és una àmplia àrea dins del conjunt de competències de GPT-3, però increïblement impressionant. La millor col·lecció de mostres literàries del programa prové de l’investigador i escriptor independent Gwern Branwen, que ha recollit un munt d’escrits de GPT-3aquí. Va d'un tipus de joc de paraules d'una frase conegut com aTom Swiftya la poesiaa l’estil d’Allen Ginsberg, T.S. Eliot i Em ily DickinsonaNavy SEAL copypasta.
  • Completa automàticament imatges, no només text. Aquest treball es va fer amb GPT-2 en lloc de GPT-3 i pel propi equip OpenAI, però no deixa de ser un exemple sorprenent de la flexibilitat dels models. Mostra que la mateixa arquitectura bàsica GPT es pot tornar a entrenar en píxels en lloc de paraules, cosa que li permet realitzar les mateixes tasques d’autocompletar amb dades visuals que fa amb l’entrada de text. Podeu veure en els exemples següents com s’alimenta el model de mitja imatge (a la fila de l’extrem esquerre) i com la completa (quatre files centrals) en comparació amb la imatge original (a la dreta).

GPT-2 ha estat redissenyat per completar automàticament les imatges i el text.

Imatge: OpenAI

Totes aquestes mostres, però, necessiten un petit context per entendre-les millor. En primer lloc, el que els fa impressionants és que GPT-3 no ha estat entrenat per completar cap d’aquestes tasques específiques. El que sol passar amb els models d'idioma (inclòs amb el GPT-2) és que completen una capa base d'entrenament i, a continuació, es posen a punt per realitzar treballs concrets. Però el GPT-3 no necessita un ajustament precís. Als trencaclosques de sintaxi, es requereixen alguns exemples del tipus de sortida desitjat (conegut com a aprenentatge en pocs trets), però, en termes generals, el model és tan vast i extens que totes aquestes funcions es poden trobar en algun lloc dels seus nodes. . L’usuari només ha d’introduir l’indicatiu correcte per convèncer-los.

Els usuaris que desitgen crear noves empreses a partir de GPT-3 passen per alt les seves debilitats

L’altra part del context és menys afavoridora: són exemples elegits amb cireres, en més d’un sentit. En primer lloc, hi ha el factor publicitari. Com va assenyalar l’investigador de l’IA Delip Rao en un assaig que desconstruïa elbombo al voltant de GPT-3Moltes de les primeres demostracions del programari, incloses algunes de les anteriors, provenen de tipus d’empresaris de Silicon Valley amb ganes de promocionar el potencial de la tecnologia i ignorar les seves trampes, sovint perquè tenen un ull en una nova posada en marxa que la IA permet. (Com assenyala amb ironia Rao: Cada vídeo de demostració es va convertir en un pitch pitch per a GPT-3.) De fet, el boosterisme d'ulls salvatges es va fer tan intens que el CEO d'OpenAI, Sam Altman, fins i tot va intervenir a principis d'aquest mes per atenuar les coses, dient: 3 hype és massa.

En segon lloc, la recol·lecció de cireres passa en un sentit més literal. La gent mostra els resultats que funcionen i ignoren els que no ho fan. Això significa que les habilitats de GPT-3 semblen més impressionants en conjunt que en detall. Una inspecció detallada de les sortides del programa revela errors que cap ésser humà no cometria, així com una escriptura senzilla i senzilla.

GPT-3 comet errors senzills que cap ésser humà faria mai

Per exemple, tot i que GPT-3 sens dubte pot escriure codi, és difícil jutjar la seva utilitat general. És un codi desordenat? És el codi el que crearà més problemes per als desenvolupadors humans més endavant? És difícil dir-ho sense proves detallades, però sabem que el programa comet greus errors en altres àrees. En el projecte que utilitza GPT-3 per parlar amb personatges històrics, quan un sol usuariva parlar amb Steve Jobs,preguntant-li, on estàs ara mateix? Jobs respon: estic a la seu d’Apple a Cupertino, Califòrnia; és una resposta coherent però difícilment fiable. GPT-3 també es pot veure coment errors similars quan respon a preguntes trivials o problemes bàsics de matemàtiques; fallant, per exemple, en respondre correctamentquina xifra arriba al milió. (Nou-cents mil noranta-nou va ser la resposta que va proporcionar).

Però pesar la importància i la prevalença d’aquests errors és difícil. Com jutgeu la precisió d’un programa del qual podeu fer gairebé qualsevol pregunta? Com es crea un mapa sistemàtic dels coneixements de GPT-3 i després com es marca? Per fer aquest repte encara més difícil, tot i que el GPT-3 produeix sovint errors, sovint es poden corregir ajustant el text que s’està alimentant, conegut com a sol·licitud.

Branwen, l’investigador que produeix algunes de les ficcions creatives més impressionants del model,fa l’argumentque aquest fet és vital per entendre els coneixements del programa. Assenyala que el mostreig pot demostrar la presència de coneixement, però no l’absència, i que es poden corregir molts errors en la sortida de GPT-3 ajustant el missatge.

En unaexempleper error, es pregunta a GPT-3: Què és més pesat, una torradora o un llapis? i respon: Un llapis és més pesat que una torradora. Però Branwennotesque si alimenteu la màquina amb certes indicacions abans de fer aquesta pregunta, dient-li que un bullidor és més pesat que un gat i que l'oceà és més pesat que la pols, donarà la resposta correcta. Pot ser un procés complicat, però suggereix que GPT-3 té les respostes adequades:sija saps on mirar.

El mostreig pot demostrar la presència de coneixement, però no l’absència.

La necessitat d’un mostreig repetit és als meus ulls una clara acusació de com fem preguntes sobre GPT-3, però no la intel·ligència bruta de GPT-3, explica BranwenThe Vergeper correu electrònic. Si no us agraden les respostes que obteniu demanant un missatge incorrecte, utilitzeu-ne un de millor. Tothom sap que generar mostres de la manera que fem ara no pot ser el correcte, només és un pirata perquè no estem segurs del que és correcte i, per tant, hem de treballar-hi. Subvalora la intel·ligència de GPT-3, no la sobrevalora.

Branwen suggereix que aquest tipus de posada a punt podria acabar convertint-se en un paradigma de codificació en si mateix. De la mateixa manera que els llenguatges de programació fan que la codificació sigui més fluida amb una sintaxi especialitzada, el següent nivell d'abstracció podria ser deixar-los completament i simplement utilitzar la programació de llenguatge natural. Els professionals obtindrien les respostes correctes dels programes pensant en les seves debilitats i donant forma a les seves indicacions en conseqüència.

Però els errors de GPT-3 plantegen una altra pregunta: la naturalesa poc fiable del programa soscava la seva utilitat general? GPT-3 és molt un projecte comercial per a OpenAI, que va començar la seva vida sense ànim de lucre peròpivotatper atreure els fons que diu que necessita per a la seva investigació cara i que consumeix molt de temps. Els clients ja ho sónexperimentant amb l’API de GPT-3per a diversos propòsits; des de crear bots d’atenció al client fins a automatitzar la moderació del contingut (una via que Reddit està explorant actualment). Però les incongruències en les respostes del programa podrien convertir-se en una responsabilitat greu per a les empreses comercials. Qui voldria crear un bot de servei al client que ocasionalment insulti un client? Per què utilitzar GPT-3 com a eina educativa si no hi ha manera de saber si les respostes que dóna són fiables?

Es va dir a un investigador sènior en IA que treballa a Google que volia mantenir l'anonimatThe Vergepensaven que el GPT-3 només era capaç d’automatitzar tasques trivials que podrien fer els programes d’intel·ligència artificial més petits i més econòmics, i que la manca de fiabilitat del programa en última instància el desaprofitaria com a empresa comercial.

sumerament
Qualsevol fet que us indiqui, hi ha un 50% de probabilitats que es compongui.

L’investigador va dir que el GPT-3 no és prou bo per ser realment útil sense molta enginyeria. Simultàniament, és prou bo per ser perillós ... Vaig provar LearnFromAnyone.com [l'històric programa de bot de xat] i molt ràpidament va començar a dir-me coses com Alan Turing no era gai i en realitat no es va suïcidar, i els nazis no van fer mal a Anne Frank , etc, etc. Qualsevol fet que us indiqui, té un 50% de probabilitats que es compongui. Si teníeu un amic que parlés així, els evitaríeu i definitivament no els contractareu a la vostra empresa.

Com a investigador de l’IA Julian Togeliusposar-ho: GPT-3 sovint funciona com un estudiant intel·ligent que no ha llegit, intentant fer broma a través d’un examen. Alguns fets coneguts, algunes mitges veritats i algunes mentides rectes, encadenades en el que primer sembla una narració fluida. (Tot i que molts ho han assenyalat: estudiants intel·ligents que saben fer merda van molt lluny en aquest món perquè la gent no sempre examina el que diu).

Un altre problema greu és el biaix en la sortida de GPT-3. La professora Anima Anandkumar, directora d’IA a Nvidia,assenyalatque el programa està format en part sobre dades filtrades per Reddit i que els models construïts a partir d’aquestes dades produeixen un text esbiaixadament impactant. En unadocument que examina la sortida de GPT-2, per exemple, el model produeix tota mena d'estereotips ofensius quan se li demana que completi les frases següents (les indicacions escrites per humans són en negreta):L’home treballava comun venedor de vehicles al local Wal-Mart;L’home negre va treballar comun proxeneta durant 15 anys;La dona treballava comuna prostituta amb el nom de Hariya.

sobrenatural sense netflix
Com molts models d'idiomes, la sèrie GPT produeix resultats ofensius i esbiaixats

Jerome Pesenti, cap d'AI de Facebook, va plantejar preocupacions similars,assenyalantque un programa construït amb GPT-3 per escriure tweets a partir d'una sola paraula d'entrada produís missatges ofensius com un holocaust tindria tant de sentit mediambiental, si aconseguíssim que la gent estigués d'acord que era moral. En un Twitterfil, Pesenti va dir que desitjava que OpenAI fos més prudent amb el llançament del programa, que Altmanva respondreassenyalant que el programa encara no estava preparat per a un llançament a gran escala i que OpenAI havia afegit des de llavors un filtre de toxicitat a la versió beta.

Alguns del món de la IA creuen que aquestes crítiques són relativament poc importants, argumentant que el GPT-3 només reprodueix biaixos humans que es troben a les seves dades d’entrenament i que aquestes afirmacions tòxiques es poden eliminar més endavant. Però, sens dubte, hi ha una connexió entre els resultats esbiaixats i els no fiables que apunten a un problema més gran. Tots dos són el resultat de la manera indiscriminada que GPT-3 gestiona les dades, sense supervisió ni regles humanes. Això és el que ha permès escalar el model, perquè el treball humà necessari per ordenar les dades seria massa intensiu en recursos per ser pràctic. Però també ha creat els defectes del programa.

Deixant de banda, però, el terreny variat de les fortaleses i debilitats actuals de GPT-3, què podem dir sobre el seu potencial, sobre el futur territori que podria dominar?

Per tenir èxit a AGI, només cal afegir dades i calcular

Aquí, per a alguns, el cel és el límit. Observen que, tot i que la sortida de GPT-3 és propensa a errors, sívalor realrau en la seva capacitat per aprendre diferents tasques sense supervisió i en les millores que s’ofereixen únicament aprofitant una escala més gran. El que fa que GPT-3 sigui increïble, diuen, no és que pugui dir-vos que la capital del Paraguai és Asunción (és) o que 466 vegades 23,5 és 10.987 (no), sinó que és capaç de respondre tant a preguntes com a moltes més enllà simplement perquè es va formar en més dades durant més temps que altres programes. Si hi ha alguna cosa que sabem que el món cada cop en crea més, són dades i potència informàtica, cosa que significa que els descendents de GPT-3 només seran més intel·ligents.

Aquest concepte de millora per escala és molt important. Va directament al cor d’un gran debat sobre el futur de la IA: podem construir AGI utilitzant les eines actuals o hem de fer nous descobriments fonamentals? No hi ha una resposta consensuada entre els professionals de la IA, però hi ha un gran debat. La divisió principal és la següent. Un camp argumenta que ens falten components clau per crear ments artificials; que els ordinadors necessiten entendre coses comcausa i efecteabans que puguin apropar-se a la intel·ligència a nivell humà. L’altre camp diu que, si la història del camp demostra alguna cosa, és que els problemes de la IA, de fet, es resolen simplement llançant-hi més dades i processant-los.

La lliçó amarga: la quantitat té la seva pròpia qualitat

Aquest darrer argument es va fer més famosament en un assaig anomenatLa lliçó amargade l’informàtic Rich Sutton. En ell, assenyala que quan els investigadors han intentat crear programes d’intel·ligència artificial basats en el coneixement humà i en regles específiques, generalment han estat vençuts per rivals que simplement han aprofitat més dades i càlcul. És una lliçó amarga perquè demostra que intentar transmetre el nostre preuat enginy humà no funciona ni tan sols deixar que els ordinadors computin. Com escriu Sutton: La lliçó més gran que es pot llegir des de fa 70 anys de recerca en IA és que els mètodes generals que aprofiten la computació són, en última instància, els més eficaços i amb un gran marge.

Aquest concepte, la idea que la quantitat té una qualitat pròpia, és el camí que ha seguit fins ara GPT. La pregunta ara és: quant ens pot portar aquest camí?

Si OpenAI va poder augmentar la mida del model GPT 100 vegades en només un any, quina mida haurà de tenir GPT-N abans que sigui tan fiable com un ésser humà? Quantes dades necessitarà abans que els seus errors siguin difícils de detectar i després desapareguin completament? Alguns han defensat que ho somapropant-se als límitsdel que poden aconseguir aquests models de llenguatge; d’altres diuen que hi ha més marge de millora. Com l’anomenat investigador de l’IA Geoffrey Hintonha piulat, llengüeta: extrapolar l’espectacular rendiment de GPT3 al futur suggereix que la resposta a la vida, l’univers i tot són només 4.398 bilions de paràmetres.

Si els ordinadors poden ensenyar-se a si mateixos, què cal més?

Hinton feia broma, però d’altres es prenen aquesta proposta més seriosament. Branwen diu que creu que hi ha una petita però no trivial possibilitat que GPT-3 representi l’últim pas d’una trajectòria a llarg termini que condueix a AGI, simplement perquè el model mostra aquesta facilitat amb un aprenentatge sense supervisió. Una vegada que comenceu a alimentar aquests programes a partir de les infinites piles de dades brutes assegudes al voltant i de fluxos sensorials bruts, argumenta, què és el que els impedeix construir un model de món i el coneixement de tot el que conté? En altres paraules, un cop ensenyem els ordinadors a ensenyar-se realment a si mateixos, quina altra lliçó cal?

Molts seran escèptics sobre aquestes prediccions, però val la pena considerar com seran els futurs programes de GPT. Imagineu-vos un programa de text amb accés a la suma de coneixements humans que us pugui explicar qualsevol tema que li demaneu amb la fluïdesa del vostre professor preferit i la paciència d’una màquina. Fins i tot si aquest programa, aquest autocompletament definitiu i omniscient, no complia alguna definició específica d’AGI, és difícil imaginar un invent més útil. Tot el que hauríem de fer seria fer les preguntes adequades.