Les Epica Awards ont tenté l'expérience avec leur Artificial Intelligence Jury Experiment. Spoiler : les journalistes sont plus coriaces...
Dans le cadre d'une initiative actuelle, les Epica Awards - connus depuis plus de 30 ans comme le prix créatif jugé par des journalistes - ont créé "AIJE", l'Artificial Intelligence Jury Experiment. Le projet visait à explorer le potentiel de l'IA dans l'évaluation et la compréhension des idées créatives. Les résultats sont disponibles ici.
Méthodologie
L'expérience a été menée parallèlement au concours 2023, mais les résultats n'ont bien sûr pas été pris en compte dans les principaux prix, qui sont décernés par un jury composé de plus de 150 journalistes.
"Notre jury de presse, qui aime documenter l'actualité, a reconnu que l'IA était une question urgente. Cela nous a incités à nous joindre à la conversation en réalisant une expérience légère mais qui donne à réfléchir," explique Mark Tungate, directeur éditorial des Epica Awards, à propos de la conception de ce test.
Néanmoins, le processus d'évaluation de l'IA a été rigoureux. Pour cette première version, elle s'est appuyée uniquement sur les descriptions textuelles des campagnes fournies par les participants. Elle s'est également limitée aux candidatures présélectionnées dans les catégories qui se prêtaient à une explication textuelle. Un outil de standardisation a été mis à la disposition des participants pour les aider à convertir les concepts créatifs en descriptions concises pouvant être facilement traitées par l'IA.
Nicolas Huvé, directeur des opérations des Epica Awards et créateur de l'AIJE, explique : "S'appuyer uniquement sur une description textuelle a ses avantages, car c'est un peu plus démocratique. Après tout, une bonne idée doit pouvoir se résumer à un "elevator pitch"."
Les descriptions de toutes les entrées ont été regroupées par catégorie et introduites dans la dernière API GPT4-Turbo, avec une invite contenant la description de la catégorie ainsi que l'échelle de points des Epica Awards, allant de 1 (nuisible) à 10 (amélioration mondiale). Cela a permis de s'assurer que les évaluations de l'IA correspondaient aux critères utilisés par les vrais juges.
L'IA a ensuite généré des notes et une justification textuelle du choix de chaque projet. Ce processus a été effectué non pas une seule fois, mais 80 fois, et la moyenne de toutes les notes a été calculée à l'aide de l'intervalle interquartile (IQR), une méthode qui permet d'éliminer les valeurs aberrantes et de saisir la tendance centrale des notes. Les 80 justifications textuelles ont également été compilées dans des commentaires généraux de l'IA sur chaque campagne.
Résultats
L'expérience de l'AIJE a montré une corrélation modeste avec les modèles vocaux humains, comme l'indique un coefficient de corrélation d'environ 0,25.
"Nos premiers tests ont montré une corrélation prometteuse avec les notes humaines, en particulier au niveau inférieur," explique Nicolas Huvé. "Dans l'expérience live, cependant, nous nous sommes concentrés uniquement sur la shortlist, ce qui a conduit à une différence remarquable, bien que cela ne soit pas surprenant, puisque toutes ces soumissions avaient déjà été jugées de haute qualité par un jury humain."
"Les journalistes, qui sont connus pour leur analyse critique, sont généralement plus rigoureux dans leur notation. L'AIJE, en revanche, a été plus rapidement impressionnée. En jugeant, les journalistes pouvaient reconnaître des idées qu'ils avaient déjà vues auparavant, alors que l'AIJE les a perçues comme nouvelles," note Nicolas Huvé. Cette différence met en évidence la compréhension plus profonde qu'ont les journalistes de l'originalité.
Mais l'AIJE était... plus impartiale. "L'AIJE a semblé plus efficace pour évaluer une campagne strictement dans le cadre de sa catégorie. Contrairement aux juges humains, qui peuvent attribuer des notes plus ou moins élevées à des travaux qu'ils aiment ou n'aiment pas personnellement, l'AIJE n'a pas été influencée par de tels préjugés humains."
Et maintenant ?
L'expérience donne des indications précieuses sur le rôle potentiel de l'IA dans l'évaluation de la créativité. Les prochaines versions de l'AIJE incluront encore plus de catégories et de visuels. "Nous pouvons maintenant lui faire regarder non seulement des images, mais aussi des vidéos d'études de cas complètes et les interpréter, ce qui offre des perspectives prometteuses pour l'avenir," conclut Nicolas Huvé. "Si nous n'excluons pas de former un modèle uniquement sur les résultats des prix, nous préférerions que l'AIJE s'appuie sur une IA générale, ce qui me semble être la direction vers laquelle le domaine s'oriente et qui est également plus conforme à l'esprit outsider des Epica Awards, loin de la "feedbackloop" de l'industrie créative."