Kan artificiële intelligentie een creatieve jury vervangen?

Awards / News

De Epica Awards hebben het geprobeerd met hun Artificial Intelligence Jury Experiment. Spoiler: journalisten zijn strenger...

In een actueel initiatief creëerde The Epica Awards - al meer dan 30 jaar bekend als de creatieve prijs beoordeeld door journalisten - "AIJE", het Artificial Intelligence Jury Experiment. Het project had als doel het potentieel van AI te onderzoeken bij het beoordelen en begrijpen van creatieve ideeën. De resultaten zijn hier beschikbaar.

Methodologie

Het experiment werd parallel met de2023-competitie uitgevoerd, maar e uitkomst werd niet natuurlijk niet meegenomen in de hoofdprijzen, die worden beoordeeld door een panel van meer dan 150 echte journalisten.

“Onze persjury, die graag actuele gebeurtenissen documenteert, herkende AI als een urgente kwestie. Dit bracht ons ertoe om deel te nemen aan het gesprek met een luchtig maar tot nadenken stemmend experiment,” vertelt Mark Tungate, editorial director van de Epica Awards over het opzet van deze test.

Toch was het AI-evaluatieproces streng. Voor deze eerste versie baseerde het zich uitsluitend op de tekstbeschrijvingen van de campagnes die door de deelnemers waren verstrekt. Het was ook beperkt tot de inzendingen op de shortlist in categorieën die zich leenden voor tekstuele uitleg. Inzenders kregen een standaardisatietool aangereikt om hen te helpen creatieve concepten om te zetten naar beknopte beschrijvingen die gemakkelijk door de AI konden worden verwerkt.

Nicolas Huvé, Epica Awards operation director en bedenker van AIJE, licht toe: “Uitsluitend vertrouwen op tekstbeschrijving heeft zijn voordelen, omdat het iets democratischer is. Een goed idee moet immers kunnen worden samengevat als een ‘elevator pitch’.”

De beschrijvingen van alle inzendingen werden gebundeld per categorie en ingevoerd in de nieuwste GPT4-Turbo API, samen met een prompt die de categoriebeschrijving bevatte en evenals de puntenschaal van de Epica Awards, variërend van 1 (schadelijk) tot 10 (wereldverbeterend). Dit zorgde ervoor dat de beoordelingen van de AI overeenkwamen met de criteria die echte juryleden gebruikten.

De AI genereerde vervolgens scores en een tekstuele rechtvaardiging voor de keuze van elke inzending. Dit proces werd niet slechts één keer uitgevoerd, maar 80 keer, waarbij alle cijfers werden gemiddeld met behulp van het interkwartielbereik (IQR), een methode die uitschieters elimineert en de centrale tendens van de scores vastlegt. De 80 tekstuele rechtvaardigingen werden ook samengevoegd tot overkoepelende commentaren van de AI op elke campagne.

Resultaten

Het AIJE-experiment toonde een bescheiden correlatie met menselijke stempatronen, zoals aangegeven door een correlatiecoëfficiënt van ongeveer 0,25.

 “Onze eerste tests toonden een veelbelovende correlatie met menselijke scores, vooral in het lagere niveau,” legt Nicolas Huvé uit. “In het live-experiment richtten we ons echter alleen op de shortlist, wat leidde tot een opmerkelijk verschil, hoewel dat niet verrassend is, aangezien al deze inzendingen al door een menselijke jury als van hoge kwaliteit werden beoordeeld.”

“Journalisten, die bekend staan om hun kritische analyses, zijn over het algemeen strenger in hun scores. AIJE daarentegen was sneller onder de indruk. Tijdens het jureren konden journalisten ideeën herkennen die al ze al eens eerder zagen, terwijl AIJE ze als nieuw opmerkte,” merkt Huvé op. Dit verschil onderstreept het diepere begrip dat journalisten hebben in het identificeren van originaliteit.

Maar AIJE was... onpartijdiger. “AIJE leek efficiënter in het evalueren van een campagne strikt binnen de reikwijdte van zijn categorie. In tegenstelling tot menselijke juryleden, die hogere of lagere scores kunnen geven aan werk waar ze persoonlijk een voorkeur voor of afkeer van hebben, werd AIJE niet beïnvloed door dergelijke menselijke vooroordelen.”

En nu?

Het experiment biedt waardevolle inzichten in de potentiële rol van AI bij de beoordeling van creativiteit. Volgende versies van AIJE zullen zelfs meer categorieën en visuals bevatten. “We kunnen het nu niet alleen naar afbeeldingen laten kijken, maar ook naar volledige casestudievideo’s en deze interpreteren, wat veelbelovende perspectieven biedt voor de toekomst,” besluit Nicolas Huvé. “Hoewel we niet uitsluiten dat we een model uitsluitend op awardresultaten zullen trainen, zouden we AIJE liever laten vertrouwen op een algemene AI, wat volgens mij de richting is waar het veld naar toe beweegt en wat ook meer in lijn is met de buitenstaandersgeest van de Epica Awards, weg van de ‘feedbackloop’ van de creatieve industrie.”