LLMs versus el coneixement humà. Ja ens han superat?

El nou test Humanity’s Last Exam té com a objectiu quantificar quant els falta als LLMs per superar el coneixement de qualsevol ésser humà i fer-ho totalment fiable.

Aquest 23 de gener es van publicar els primers resultats obtinguts pels principals LLM, després de realitzar l’examen més difícil que s’ha creat mai: 3.000 preguntes extraordinàriament complexes plantejades per més d’un miler de científics i experts d’arreu del món.

L’Humanity’s Last Exam, coordinat per Dan Hendrycks (Center for AI Safety, San Francisco) i Alexandr Wang (Scale AI, San Francisco), marca la nova frontera de coneixement per als LLM, atès que totes les proves existents fins ara havien estat pràcticament superades.

Què té d’especial aquest examen?

  • Amplitud de temes: Abarca un espectre amplíssim d’àrees de coneixement.
  • Nivells de dificultat: Inclou preguntes d’educació bàsica fins a preguntes avançades a nivell universitari.
  • Format variat: Combina preguntes de resposta múltiple, raonament matemàtic i exercicis que requereixen interpretar text complex.
  • Repte per als models de llenguatge: Fins i tot els models més avançats (GPT-4, PaLM, etc.) poden trobar parts de l’examen especialment desafiadores, tot i que cada nova versió dels LLM ha anat millorant els resultats.

Per què és rellevant?

  • Serveix com a “benchmark” (referència): Permet comparar diferents versions o arquitectures de models d’IA.
  • Identificació de llacunes de coneixement: Ajuda a detectar les mancances de la IA i a orientar la recerca cap a on cal reforçar les capacitats de raonament i comprensió.
  • Reflexió sobre el rendiment humà vs IA: Ens convida a plantejar-nos fins a quin punt la IA s’acosta —o supera— el rendiment humà en coneixements concrets.

Puntuacions:

Font: Humanity’s Last Exam, Summer Yue (Scale AI), Alexandr Wang (Scale AI), Dan Hendrycks (Center for AI Safety) (link)

Projeccions

D’acord amb la velocitat de millora dels LLMs avaluats, és plausible que assoleixin un 50% de precisió a Humanity’s Last Exam (HLE) durant l’any 2025. Tanmateix, el salt cap a puntuacions significativament superiors, com el 90%, implicaria superar obstacles tècnics i conceptuals més complexos.

Impacte en la governança i polítiques d’IA: el paper de Humanity’s Last Exam (HLE)

Humanity’s Last Exam (HLE) té implicacions més enllà de l’àmbit tècnic, ja que no només busca mesurar les capacitats dels models de llenguatge, sinó també establir una base fiable i objectiva perquè científics, legisladors i responsables polítics puguin avaluar i regular el desenvolupament de la intel·ligència artificial.

  • Per als investigadors: Permet avaluar de manera estandarditzada fins a quin punt un model s’apropa al nivell humà en tasques acadèmiques específiques.
  • Per als responsables de polítiques: Ofereix una eina per avaluar si les tecnologies emergents estan preparades per ser implementades en sectors sensibles com la salut, la justícia o l’educació.

Exemple pràctic: Si un model supera HLE amb alta precisió i calibratge, podria considerar-se apte per a tasques crítiques (com emetre diagnòstics mèdics preliminars). En canvi, un baix rendiment en HLE indicaria que el model no està preparat per a aplicacions d’alt impacte.

Millora en la transparència

D’altra banda, el desenvolupament d’HLE per part d’experts globals amb revisions estrictes fomenta:

  • Transparència: Tots els models són avaluats sota les mateixes condicions i utilitzant preguntes públiques (excepte el conjunt privat reservat per detectar sobreajustaments).
  • Responsabilitat: Els desenvolupadors poden ser avaluats segons estàndards compartits, evitant mètriques propietàries que podrien exagerar les capacitats.

Exemple pràctic: Un govern podria exigir que els models utilitzats en serveis públics superin HLE amb un nivell mínim de precisió i un índex baix d’errors de calibratge. Això redueix riscos i promou un desenvolupament responsable.

Detecció de riscos associats a capacitats avançades

En centrar-se en problemes desafiants que requereixen raonament i precisió extrema, HLE ajuda a identificar àrees en què els models encara fallen, com ara:

  • Confabulació o al·lucinacions: Quan els models generen respostes incorrectes amb alta confiança.
  • Manca de generalització: Problemes per aplicar coneixements en contextos complexos.

Exemple pràctic: Si un model falla sistemàticament en preguntes que avaluen raonament ètic o científic, els reguladors podrien restringir-ne l’ús en àrees com l’assessorament legal o el desenvolupament de polítiques públiques.

Ètica i seguretat

HLE no només avalua si els models són tècnicament competents, sinó també si són fiables en termes ètics i de seguretat:

  • Calibratge de confiança: Ajuda a identificar si un model reconeix quan no sap una cosa, en lloc de respondre incorrectament amb alta certesa.
  • Implicacions ètiques: Avalua si els models són capaços de resoldre problemes complexos sense caure en biaixos sistèmics.

Exemple pràctic: En el sector de la salut, un model que reconeix la seva incertesa en diagnòstics crítics pot ser més segur que un que “improvisa” respostes. Els resultats d’HLE poden informar les guies per decidir si aquests sistemes han de ser utilitzats en contextos de vida o mort.

Conclusió

HLE representa més que una eina tècnica. És un vehicle per promoure la transparència, la confiança i la regulació efectiva de la IA. El seu impacte potencial abasta des de l’avaluació tècnica fins a la formulació de polítiques ètiques, ajudant a establir un marc per al desenvolupament responsable de la IA en un moment en què les capacitats avancen ràpidament i els riscos es multipliquen.

 

Entrada anterior
En quin punt d’adopció de la IA es troba la nostra administració?

Categories

Categories

Entrades recents