journalism-ai-report
Ce texte est une synthèse d'un excellent document disponible en ligne, relativement récent (2019) extrait du "The JournalismAI Report", nommé "New powers, new responsibilities. A global survey of journalism and artificial intelligence", de Charlie Beckett, Professeur à la London School of Economics and Political Science.
Il est surtout une mine d'informations sur les sujets qui nous agitent et donnent de nombreux conseils, exemples, réalisations, concepts émanant des principaux médias dans le monde face au "TsunamIA".
#JournalismAI
-
Article extrait de l'étude : New powers, new responsibilities. A global survey of journalism and artificial intelligence
-
L'organisation "JournalismAI", qui est à l'origine du rappport. "JournalismAI" est une initiative mondiale qui permet aux organes de presse d'utiliser l'intelligence artificielle de manière responsable. : JournalismAI
-
Une vidéo avec quelques intervenants ayant participé à l'étude : AI & Journalism: New powers, new responsibilities | Charlie Beckett
Je vous invite bien évidemment à lire ce rapport pour vous faire votre propre opinion. Je livre ma lecture du rapport en ajoutant au besoin des précisions sur ma compréhension.
J'ai surtout cherché à isoler des éléments pratiques ou concrets issus de cette enquête. J'ai nécessairement une lecture partielle et biaisée de ce rapport lui-même puisque ma grille de lecture répondait aux 4 objectifs pratiques au vu de ce qui était sorti de la première réunion.
- Reprendre une catégorisation de l'IA par les usages afin de créer une base de compréhension commune.
Mots-clés : vocabulaire commun, culture, culturation
- Dresser une liste partielle des exemples concrets tant sur les besoins, les réalisations que les moyens mis en œuvre pour y parvenir dans les médias. C'est qui donne un aperçu partiel, dans l'adoption de l'IA, des objectifs et des moyens mis en œuvre.
Mots-clés : réalisations, besoins
- Regrouper des conseils pratiques dans la conception d'une stratégie. Stratégie qui pourrait elle-même constituait un socle pour alimenter la conception de la stratégie pour FMM et permettrait d'initier la charte IA pour FMM.
Mots-clés : stratégie, rédaction charte
- Donner des définitions simples compréhensibles des principaux termes de l'IA, socle d'un vocabulaire et donc d'une compréhension commune.
Mots-clés : lexique, vocabulaire commun, culture, culturation
Dans un deuxième temps, fort d'une sélection d'exemples concrets identifiés dans le rapport et qui correspondraient à certains besoins identifiés de FMM, il serait intéressant de les mettre en œuvre concrètement dans les "espaces de test" mentionnés lors de la première réunion sur l'IA à FMM.
En plus des expériences déjà entreprises au sein de FMM, ces projet sélectionnés et existants dans des "espaces de test" (que je nommerai MVP) pourraient nourrir un premier retour d'expérience véritable pour FMM tant du point de vue technique (librairies, algorithme, data) que organisationnel (Scrum team). C'est un pas indispensable pour tous les collaborateurs de FMM dans la "culturation", la compréhension et l'adoption de l'IA en toute transparence, avec une validation humaine et transverse et qui aboutirait à une cartographie pratique des utilisations possibles et effectives au sein de FMM.
Mots-clés : espace de test, MVP, Scrum team
Le secteur des médias a déjà connu ce type de révolution: internet, le mobile, les médias sociaux et aujourd'hui l'IA. Les algorithmes alimenteront les systèmes, c'est un fait. Mais la touche humaine - la perspicacité et le jugement du journaliste - reste et sera primordiale. L'industrie de l'information peut-elle saisir cette opportunité ? En effet, les technologies d'intelligence artificielle promettent désormais un autre bond en avant. Mais qu'en est-il des menaces économiques, éthiques et éditoriales que ces avancées apportent également ?
Avec l'IA, une autre phase de transition majeure est en cours qui verra sans doute apparaitre un journaliste "augmenté" algorithmiquement et le groupe média "en réseau" artificiellement intelligent.
Outre ces défis annoncés, il faut aussi "dégonfler" le phénomène IA en le replaçant dans un contexte historique pour mieux l'appréhender aujourd'hui. En simplifiant au maximum, l'IA s'inscrit dans l'évolution logique du capitalisme contemporain et de la technique : l'IA a été rendu possible concrètement par la rencontre entre une récolte permanente de donnés (Data) avec de puissantes capacités de calcul offertes par la révolution matériel du Cloud. C'est en gros le fuit de l'union entre des données (Data), une infrastructure (Cloud), des algorithmes qui permet de s'affranchir des limites de puissance de calcul (Compute).
Même si les IA n’ont pas atteint l’étape dite de "singularité", où elles deviendraient globalement plus intelligentes que leurs créateurs, elles ont très largement dépassé, dans de nombreux domaines, les capacités cognitives humaines de traitement de l’information. Le buzz autour de Chat GPT en est la preuve.
Cette définition un peu littérale permet surtout de pointer déjà quelques points-clés ou questions dans l'implémentation de l'IA et notamment de rappeler à notre vigilance ces mêmes points-clés :
-
1. La qualité des données (Data) :
La qualité et la quantité du dataset est un prérequis au bon fonctionnement de l'IA. La première question qui surgit est :
- De quelles sources de donnée dispose-t-on ?
- Sous quelle forme ces données existent : semi-structuré, qualité des metas-data ?
- Comment peut-on améliorer et exploiter au mieux ces "gisements" de données qui dorment dans les contenus (textes, vidéos, audios, photos, tracking...etc.) ?
Mot-clés : data, dataset metadata, Data Wrangling
-
2. Sur les Algorithmes et la Puissance de calcul :
- De quel type d'algorithme dispose-t-on ?
- Est-ce un algorithme maison (développement en interne) ou est-ce un algorithme existant (qu'il soit open source ou propriétaire) ?
- La puissance de calcul est-elle opéré par un tiers ?
- De quelles capacités de calcul dispose-t-on gratuitement ou de manière payante ?
-
3. - Indépendance et Transparence :
Ces deux points/questions en amènent un troisième, primordiale dans la réflexion stratégique notamment : Quid de l'indépendance tant sur les données et donc de transparence que sur la capacité de calcul (algorithmes) ? De la même façon que l'on parle d'indépendance énergétique, on peut aussi parler d'indépendance sur l'IA... C'est une question essentielle pour un groupe médias comme FMM.
En effet, comment assurer l'indépendance et la transparence quand les données et les calculs sont "outsourcés" dans des entreprises technologiques externes.
Ces 3 points nous invitent à la vigilance sur la viabilité de la stratégie IA.
Certes, l'IA fait peser des menaces économiques, éthiques et éditoriales mais l'étude dresse aussi un état des lieux objectif sur la compréhension, la stratégie et les expériences menés autour de l'IA par de nombreux médias à travers le monde pour l'année 2019. C'est une vision macro, déjà un peu datée. En effet, l'année a son importance par exemple, a cette époque chat GPT n'était pas encore apparu mais il est toujours aussi salutaire de se tenir un peu l'écart du battage médiatique et de la paranoïa entourant l'émergence de l'IA.
Certaines préoccupations comme certains concepts sont encore parfaitement d'actualité. Seul le rythme de l'émergence de l'IA s'est accéléré depuis 2019. Ce rapport est une première étape pour comprendre ce que les médias pensent de l'IA et ce qu'elle pourrait faire ensuite.
Pour mémoire, l'étude est en partie financé par Google News Initiative, affirme que "Non, les robots ne vont pas s'emparer du journalisme." Google News Initiative
Oui, les machines pourraient bientôt être capables de faire beaucoup du travail de routine du journaliste. Mais la réalité et le potentiel de l'intelligence artificielle (IA), de l'apprentissage automatique et du traitement des données sont de donner aux journalistes de nouveaux pouvoirs de découverte, de création et de connexion.
L'étude délivre globalement une vision positive de l'IA. Non l'IA ne va pas remplacer les journalistes en tant que mais on doit convenir néanmoins que les machines pourraient effectuer de nombreuses tâches du travail journaliser et s'immisce dans la routine des journalistes.
Ce qui rejoint les mots mêmes de Victor Torchan, lors de la conférence FMM sur l'IA, il faisait le distinguo entre la notion de tâche et de travail. En effet, de nombreuses tâches routinières, répétitives, voir ingrates ou hors de portée des capacités cognitives des humains seront à l'évidence déléguées ou confiées, sous la supervision et la validation humaine, à l'IA tout en libérant du même coup du temps de travail pour les journalistes (Tasks vs Jobs). Exemple: le résumé, le tagging et l'indexation de centaines de milliers de documents photos, vidéos ou textuels.
NOTE_1 : Sur la data ou dataset
Pour les données, on parle souvent de "gold standard dataset" ou "gold dataset".
Dans un contexte d'apprentissage automatique (machine learning), les données en "or" font généralement référence à des données étiquetées à la main (et donc) de très bonne qualité.
En clair, bien que cela sonne comme une évidence mais il existe donc une corrélation très forte entre la qualité des données et la pertinence des résultats générées via l'IA. Cela explique l'importance des metadata qui souvent constitue un "gisement" important de données structurées donc un dataset de qualité "gold". Toute déperdition de metadata par exemple dégrade mécaniquement la qualité du dataset.
Cf. Scikit Learn - The Iris Dataset https://arcca.github.io/An-Introduction-to-Machine-Learning-Applications/03-scikit-learn-iris-dataset/index.html
En anglais, de manière un peu vulgaire, il existe un adage qui résume ce paradoxe : "Shit In, Shit Out". En effet, si les données sont médiocres, le résultat sera inepte. Cela corrobore un des points de l'étude remise par Orange qui insistait sur la nécessité pour FMM de veiller à la qualité de metadata qui est le substrat dont l'IA se nourrie.
Sur le Data Wrangling, voir par exemple le Stanford Wrangler. http://vis.stanford.edu/wrangler/
NOTE_2 : Evolution possible du rôle du journaliste et de l'organisation d'un groupe médias
Deux concepts intéressants sur le rôle du journaliste et sur l'organisation des groupes médias.
- 1. Le journaliste "augmenté" : L'introduction de l'IA pourrait permettre l'éclosion de ce que l'on pourrait nommer le journalisme "augmenté" (turbo-charged).
- 2. Le groupe médias en réseau : L'IA pourrait également transformer les salles de rédaction des lignes de production linéaires (linear production lines) en centres d'information et d'engagement (networked information and engagement hubs) en adéquation avec le fonctionnement di secteur des médias c.à.d. de l'information à l'ère de la donnée.
NOTE_3 : 3 enseignements pour le futur
-
L'IA est une évolution logique de la numérisation ou de l'âge digitale après internet, les médias sociaux et la communication mobile. C'est l'effet combiné de la rencontre de la data et des capacités de traitement de cette même data.
-
La cible serait l'émergence d'un journaliste "augmenté" dont la capacité décisionnelle reste intacte mais qui délègue des tâches réplétives et routinières à des machines/algorithmes.
-
L'importance de la donnée et donc de parvenir à une gestion fluide de l'enrichissement via des data et des meta-data des "input/médias" afin d'éviter la déperdition. Ce constat corrobore un des résultat de l'étude mené par Orange et c'est un levier essentiel pour FMM dans sa stratégie d'adoption de l'IA.
-
Je n'ai pas traité la totalité des points évoqués dans l'étude, je n'ai que des points saillants qui faisait sens selon moi avec les objectifs de lecture détaillée exposés plus haut. Je me suis concentré sur la partie qui semblait la plus significative pour FMM et de ma compréhension des enjeux actuelles de FMM en prenant soin d'identifier les réponses concrètes apportées dans ces points.
-
Je n'ai donc conservé que les points 7, 9, 11, 15, 16, 18, 19, 20, 21, 22 de l’étude sous une forme de Q/A qui permettent de répertorier, de cartographier et d'illustrer en vue de constituer une "culture" et "compréhension commune" au même titre que le lexique en fin de note. Pourquoi ? De ma compréhension, ces points semblent correspondre aux interrogations actuelles de FMM et donne des réponses concrètes à la fois sur la perception et les réponses des autres médias vis à vis de l'IA.
-
Les réponses exposées dans ce rapport sont aussi sans doute déjà à relativiser. Le rapport étant de 2019, depuis les réponses ont probablement changées au vu de la vitesse de changement de l'environnement de l'IA bouge vite. Toutefois les points que j'ai sélectionnés, offre une certaine pérennité car ils concernent des points stratégiques et des questions globales qui agitent les médias.
J'ignore, bien évidemment, les questions qui ont été posées mais j'ai pris le parti de les formuler afin que chacun puisse les avoir en tête au vu des réponses formulées par l'étude.
Tout d'abord, de manière générale, il existe 3 domaines de l'IA impactent plus spécifiquement le journalisme que tout autre secteur. Cette gamme de technologies issues de l'IA inclut pour ne citer que les principales : l'apprentissage automatique (machine learning), l'automatisation (automation) et le traitement des données (data processing).
- Un peu moins de la moitié des personnes interrogées ont déclaré utiliser l'IA pour la (1) collecte d'informations, les deux tiers ont déclaré l'utiliser pour la (2) production et un peu plus de la moitié ont déclaré l'utiliser pour la (3) distribution.
Sur les principales motivations ?
Les points (1) collecte d'informations et (2) production concernent directement FMM, la (3) distribution est moins évident dans le cadre de FMM. En effet, il n'y a pas d'abonnement, de vente d'infos de la part de FMM. Les objectifs de croissance d'audience sont certes chiffrés mais plus en termes d'exposition et sont surtout faiblement indexés à des objectifs de rémunération.
Les trois principaux motifs d'utilisation de l'IA étaient :
- Rendre le travail des journalistes plus efficace (68 % des réponses)
- Pour fournir un contenu plus pertinent aux utilisateurs (45 %)
- Améliorer l'efficacité de l'entreprise (18 %).
Il y avait quatre approches principales pour créer une stratégie d'IA :
- Gestion traditionnelle dans les services existants
- Équipes distinctes travaillant sur des projets d'IA
- Structures techniques et éditoriales intégrées
- Equipes expérimentales - séparées ou intégrées.
Les plus grands défis à l'adoption de l'IA cités par les répondants aux questions de l'étude étaient :
- Les ressources financières (27%)
- Les connaissances ou compétences (24%).
- La résistance culturelle (24%).
Cette résistance est particulièrement sensible et complexe en regard des deux premiers plus objectifs. En effet, cette "résistance" recouvre des notions plus subjectives comme : la peur de perdre son emploi, la peur de changer ses habitudes de travail et un sentiment diffus d'hostilité générale envers les nouvelles technologies.
Le manque de connaissances sur l'IA (19%) dans l'ensemble de l'organisation médias ainsi qu'un manque de perspicacité managériale en matière stratégique (17%) sont également des problèmes clés. Les médias ont également décrit l'IA comme souvent coûteuse à construire et à gérer.
En conclusion, outre l'argument financier et celui lié à la compétence et à la formation, c'est souvent la résistance culturelle au changement qui est le principale obstacle (Cf. Growth mindset vs Fixed Mindset).
Même si cette "résistance" peut s'expliquer par le fait que chaque individu professionnellement parlant semble "condamner" à se montrer toujours plus efficient à l'instar de l'IA pour répondre aux injonctions du "capitalisme" contemporain : être à la fois introspectif et extraverti, être flexible et concentré, être capable de s'adapter et d'affirmer sa singularité.
D'après l'enquête, il ressort clairement qu'il y a un manque de planification stratégique. Les stratégies d'IA varieront toujours en fonction de la nature de l'organisation et du stade d'adoption atteint, mais voici les éléments clés à prendre en compte qui ressortent de cette recherche et qui sont autant de points à ne pas négliger dans la pensée stratégique :
-
Évaluez votre stade et votre état de préparation à l'IA
-
Comprendre et catégoriser le type de technologies d'IA que vous envisagez
-
Décidez comment l'IA pourrait être liée à votre marque et à votre stratégie générale, les problèmes qu'elle pourrait résoudre ou les besoins auxquels elle pourrait répondre
-
Évaluez quels domaines de votre organisation pourraient utiliser l'IA et pourquoi
-
Identifier les principaux obstacles : ressources, compétences, culture, gestion, etc. et planifier la manière de les résoudre de manière systématique
-
Attribuer des rôles et des responsabilités et créer une structure de communication dans toute l'organisation pour inclure toutes les parties prenantes
-
Établir des systèmes de suivi et d'examen des performances et des priorités
-
Créer un rôle pour les relations externes avec les partenaires, les clients et les ressources d'IA plus larges avec pour mission d'étudier et d'intégrer l'innovation en IA.
Avec en ligne de mire, la rédaction d'une charte FMM, ces points peuvent se révéler d'une grande aide car ils synthétisent les défis auxquels l'IA expose FMM en tant qu'organisation
Question_6 : Dans quels domaines-clés, l'IA pourrait-elle faire la différence au sein des rédactions ?
Les rédactions ont identifié six domaines clés dans lesquels l'IA est ou pourrait faire une différence en termes d'éthique, de politique et de pratiques éditoriales au sein de leur organisation :
- Économie : Faire des coupes dans les économies générées par l'IA pourrait abaisser les normes éditoriales. Les réinvestissements pourraient plutôt être utilisés pour améliorer la qualité et l'efficacité du journalisme
- Biais algorithmique : une mauvaise utilisation des données pourrait entraîner des erreurs éditoriales telles que des inexactitudes ou des distorsions, voire une discrimination à l'encontre de certains groupes sociaux ou opinions.
- Désinformation/bulles de filtrage (Misinformation/Filter Bubbles) : l'IA peut contribuer à la diffusion de "fausses nouvelles". L'utilisation grossière de la personnalisation peut aggraver le biais de confirmation ou le conflit. Mais une IA bien gérée peut aider à lutter contre la désinformation et à améliorer la qualité de l'information publique.
- Amélioration des décisions éditoriales et de la transparence : l'IA peut aider à corriger les anciens préjugés des rédactions et à accroître la diversité des articles et des publics. Cela peut aider à promouvoir la transparence autour de l'utilisation de l'IA et du journalisme en général.
- Équilibrer l'intelligence humaine et artificielle : il est essentiel que le journalisme augmenté conserve les valeurs humaines et même valorise le jugement humain et la créativité.
- Le rôle des entreprises technologiques : le pouvoir des "Big Tech" en tant que concurrents et leur contrôle de la recherche et du développement de produits suscitent des inquiétudes bien qu' ils soient également considérés comme une source d'innovation, d'outils et de systèmes. Il faut plus de transparence, de dialogue et de soutien au journalisme de la part des entreprises technologiques.
Tout naturellement, il y a trois niveaux de réflexion sur l'avenir : à court-terme, à moyen et long-terme.
-
Premièrement : Améliorer et itérer ce qui se passe actuellement avec les équipes produit et éditoriales existantes
-
Deuxièmement : innovation à moyen terme au cours des 2 à 5 prochaines années avec de nouvelles applications
-
Troisièmement : Innovation et expérimentation à long terme pouvant inclure des approches ou des structures complètement nouvelles.
A mon sens compte tenu de l'incertitude que représente l'impact de l'IA, il semble prématuré de partir sur une stratégie trop établie à long-terme. Il est cependant utile de détailler précisément les possibilités offertes à court et à moyen terme par l'IA. C'est la raison, pour laquelle, plus loin dans le texte, j'ai sélectionné des projets précis qui matérialisent à la fois un embryon de stratégie à court et à moyen et de possibles réalisations concrètes qui sont autant d'occasions de grandir et d'apprendre et enfin de consolider la stratégie vis à vis de l'IA.
Lorsque l'étude a demandé ce qui aiderait les rédactions à relever les défis d'un avenir avec l'IA, les deux réponses les plus fréquentes n'avaient pas directement à voir avec la technologie :
-
44% ont mentionné la formation, l'éducation et l'alphabétisation (literacy) dans la salle de presse. Ce que globalement on pourrait qualifier de "culturation".
-
43% des rédactions ont mentionné la nécessité de recruter des personnes possédant de nouvelles compétences.
Les trois domaines les plus courants de la liste de souhaits des futurs outils d'IA de nos répondants étaient les suivants :
- 1 - Un système de taggage automatique/extraction d'entités (NLP) (automatic tagging/entity extraction) (newsgathering)
- 2 - Meilleur contenu généré par la machine (news production)
- 3 - De meilleurs moteurs de personnalisation/recommandation (news distribution).
Le plus grand souhait futur des personnes interrogées était la formation et l'éducation dans six domaines différents :
- 1 - Alphabétisation ou Culturation en IA: Pour diffuser la compréhension dans l'ensemble de l'organisation de presse
- 2 - Compétences en IA : Compétences de base telles que le codage et la formation à la compréhension des données
- 3 - Compétences plus avancées en IA : Pour favoriser l'innovation et dans le cadre du développement de carrière de l'ensemble du personnel
- 4 - Pour la direction : Pour améliorer la sensibilisation générale et également la compréhension des systèmes d'IA et d'autres modèles d'adoption de l'IA
- 5 - Éthique : Comprendre comment réduire les biais algorithmiques ou de données et améliorer la précision et la fiabilité
- 6 - Informations générales sur l'IA : Meilleure compréhension scientifique et sociale de l'IA et de son impact sur les utilisateurs et la société.
La question est simple, au jour d'aujourd'hui, que font les rédactions avec l'IA et pourquoi ?
Cette section de l'étude offre une "cartographie des utilisations ou des usages" qui permettra facilement d'identifier les IA que FMM explore déjà ou pourrait explorer. C'est une première catégorisation de l'IA à usage des journalistes.
Cette classification de l'IA par les grandes thématiques d'usage est la suivante :
- (1) Collecte d'informations : recherche d'informations, génération d'idées d'articles, identification de tendances, enquêtes, surveillance d'événements ou de problèmes, extraction d'informations ou de contenu.
- (2) Production d'actualités : création de contenus, édition, packaging pour différents formats et plateformes, création de textes, d'images et de vidéos, réorientation de contenus pour différents publics.
- (3) Diffusion de l'actualité : personnalisation, marketing, recherche d'audience, compréhension du comportement des utilisateurs, monétisation/abonnements.
Quelque exemples d'application de l'IA illustrant cette cartographie
Certaines de ces propositions peuvent sans doute être à cheval sur les 3 catégories en fonction du lieu d'implémentation (CMS, site web...etc.) et la manière dont elles sont implémentées.
-
Recommandation d'articles connexes (Production)
-
Journalisme de robot (Robot journalism) (par exemple, pour les matchs de football). (Production)
-
Personnalisation du fil d'actualité. (Diffusion)
-
Audiences similaires basées sur les données des utilisateurs pour augmenter les CPM. (Diffusion)
-
Analyse prédictive pour optimiser la curation des nouvelles. (Diffusion)
-
Services de synthèse vocale pour augmenter la productivité de nos rédacteurs. (Production)
-
Prédiction du taux de désabonnement et prédiction de la propension à s'abonner. (Diffusion)
-
Marquage/reconnaissance d'entités. (Tagging/entity recognition, NLP). (Production)
-
Vérification orthographique. (Production)
Le CPM ou coût pour mille est le mode dominant de valorisation et de facturation des espaces publicitaires Internet par lequel un annonceur est facturé selon un prix de l'espace publicitaire exprimé pour mille affichages de la création graphique utilisée (bannière, vidéo, etc.).
Voilà plus spécifiquement par type d'usage les expériences menées.
- (1) Collecte d'informations (Newsgathering) : Voilà un certain nombre d'applications dont des expériences sont déjà en cours au sein de FMM et dans de nombreux groupes médias, cela donne une cartographie des utilisations au sein de FMM et au-delà.
Exemples d'application de l'IA dans la collecte d'informations (Newsgathering)
-
Reconnaissance d'image avec tagging :
- Utilisation d'API de reconnaissance d'images [Application Program Interfaces] pour l'analyse et le journalisme - genres et âges dans les images, genres dans le texte.
- Utilisation de réseaux de neurones pour le marquage des photos et le sentiment de langage naturel (API Google Cloud).
-
Tagging automatisé :
- Création d'un "tagueur" automatisé pour les articles de notre journal (qui marque les articles avec des sujets/mots clés - auparavant fait par les éditeurs), intégré à notre CMS [Système de gestion de contenu].
-
Analyse de données et génération de texte :
- Création d'un outil interne qui combine l'analyse des données et les systèmes de génération de langage pour écrire tout ou partie des articles et pour alerter les journalistes sur les tendances potentiellement intéressantes dans les données.
-
Exploration de Google News Trends :
- Utilisation de la collection d'actualités locales et nationales de Google Actualités sur un pays donné (exemple donné pour le Mexique).
-
Correction orthographique :
- Utilisation par les éditeurs et les journalistes de Grammarly, qui utilise des techniques d'intelligence artificielle, pour aider à vérifier la grammaire et l'orthographe de nos articles en anglais.
-
Outil de traduction :
-
Utilisation de AI Writer avec Deepl.com pour les tâches de traduction pour les articles généraux.Voir https://www.deepl.com/write
-
D'ailleurs l'offre pour l'assistance à l'écriture couplé à la traduction est pléthorique. Une simple recherche de "AI writer" donne le vertige... (https://deepai.org/chat, https://simplified.com/fr-ai-writer, https://smodin.io/writer, https://ai-writer.com/... etc)
-
- (2) Production d'actualités (News Production) :
Pour de nombreux groupe médias, surtout dans le déploiement le plus élémentaire de l'IA, celui-ci fait toujours partie du processus de cycle de données (workflow) qui enrichit la production journalistique de boucles de rétroaction vertueuses (virtuous feedback loops) notamment dans le travail routinier.
- Utilisation d' outils d'extraction d'entités (entity extraction tools) ou de tagging qui séparent les différents types d'entités et les présentent aux journalistes lors du processus de création d'articles. La conséquence est une amélioration de la qualité du taggage utilisée.
Ce système de taggage semble également utilisée dans d'autres contextes ce qui tend à prouver qu'une même technologie IA peut être utilisé avec des objectifs différents:
- Dans les outils internes de suivi des actualités.
- Dans la qualification et l'indexation de sources externes (articles) afin de "d'extraire les métadonnées et/ou d'enrichir avec ces propres métadonnées chaque article afin les regrouper pour les indexer"
La conséquence est que "L'extraction d'entités nous donne des pépites d'informations critiques qui peuvent être utilisées dans un traitement ultérieur pour afficher les tendances mondiales."
-
Vérification automatique des faits (automated fact-checking) via le robochecking
-
Détection des "deep fakes"
-
Conversion du texte en audio (Speech-to-text)
-
Traduction automatique
-
Reconnaissance d'images
-
Réalisation et montage de vidéos
-
Génération de texte narratif
-
Utilisation de l'IA pour indexer des archives
"Nos archives utilisent l'IA pour le taggage automatique du contenu en extrayant automatiquement des mots-clés, des sujets, des entités comme des personnes et des lieux. Sur la base de ce "gisement" de meta-data extraites, l'IA construit ainsi son propre ensemble de données structurées à l'aide d'un algorithme de reconnaissance faciale pour taguer les visages dans les vidéos d'actualités dans le but de créer un ensemble de données taguées avec des politiciens régionaux qui ne sont généralement pas reconnus par un logiciel de reconnaissance faciale formé."
- Utilisation de l'IA pour le sous-titrage sur différentes langues autre que les langues habituelles notammment l'anglais.
"Les archives utilisent également des algorithmes de synthèse vocale pour créer des sous-titres. La reconnaissance des dialectes étant un problème, les archives ont lancé un projet de reconnaissance des dialectes en formant un algorithme avec des données de dialecte."
- Utilisation de l'IA pour des posts quotidiens et un suivi sur les Réseaux Sociaux.
"Nous utilisons un algorithme pour nos publications sur les réseaux sociaux. À partir de flux RSS ou d'e-mails, il peut écrire des publications sur Facebook et des tweets. Il manipule le texte, publie des mises à jour à des heures programmées, envoie des e-mails et des rappels pour nos messages croisés."
- (3) Diffusion de l'actualité (News Distribution) : J'ai volontairement omis cette partie, les parties 1 et 2 offrants déjà matière à réflexion. Se reporter à l'étude pour détailler quelques exemples.
- (4) Qu'est-ce qui semble fonctionner et ce qui d'évidence ne fonctionne pas ?
La plupart des succès liés à l'IA dans le monde des médias possèdent une caractéristique qui sonne comme une évidence : l'IA doit être dévolu à une tâche spécifique avec un objectif ou des tâches spécifiques avec des objectifs clairs.
Voici une liste assez typique qui recoupe évidemment des exemples cités plus haut.
-
(1) L'extraction d'objets/taggage automatisé. Ce qui du même coup met en lumière tous les contenus non tagués ou incorrectement tagués.
-
(2) Le fact-checking automatisé avec la détection de réclamations (claim detection) à l'aide des principes de robochecking. Tentative qui semble très prometteuse.
-
(3) La (pré)modération du contenu.
-
(4) La synthèse vocale (en anglais principalement, cependant les autres langues connaissent souvent un échec relatif)
-
(5) Utilisation d'outils de ciblage publicitaires.
-
(6) Utilisation des modèles de propension.
La modélisation de la propension est une approche statistique qui tente de prédire la probabilité que les visiteurs, les prospects et les clients effectuent certaines actions.
- (7) Le contenu généré par la machine.
Outre les exemples cités sur lesquels il faudrait investiguer quant à savoir si ce sont effectivement des succès ou des échecs.
Le point le plus notable, dans ce chapitre, est cependant la mention sur la façon de faire pour mener à bien un projet IA cité par l'un des intervenants.
Nous adoptons un état d'esprit de start-up MVP [Minimum Viable Product] en matière d'IA. Cela signifie essentiellement lancer une première version des outils, obtenir les commentaires de ses utilisateurs, puis déployer de nouvelles fonctionnalités et fonctionnalités, puis itérer en continu sur ces commentaires. Bien que l'IA ne résolve pas tous les problèmes ou défis, nous croyons fermement à l'innovation créative et pensons que les outils basés sur l'IA peuvent aider à compléter nos efforts de création de contenu, de publicité et de marketing de manière significative.
- L'étude incite à se tenir à l'écart des tentatives risqués en adoptant la technique des petits pas.
- Les stratégies doivent être flexibles, mais il doit y avoir une structure pour encadrer l'investissement d'énergie, de temps et d'argent.
- Des mesures des progrès telles que les indicateurs de performance clés sont nécessaires pour suivre l'impact.
- Toute stratégie d'IA doit refléter ces impératifs d'adoption de l'IA.
L'idéal serait d'adopter l'approche itérative sur plusieurs pistes de besoins véritablement exprimés. Besoins qui auraient éventuellement été cartographier entre les 3 grandes catégories spécifiés ci-dessus.
Selon l'étude, la solution d'implémentation pour mener à bien un projet IA serait de "monter" des équipes Scrum inter fonctionnelles qui comprennent des propriétaires de produits (product owners), des scientifiques des données (data scientists), des ingénieurs de données (data engineers), des ingénieurs logiciels (software engineers) et des scrum masters.
Ce qui en état correspond déjà en partie au fonctionnement de la DEN modulo absence peut-être de spécialistes de la donnée (data scientists, data engineers)
A titre de projet candidat, il serait possible de choisir l'exemple aussi le plus abondamment cité dans l'étude à savoir le tagging extracting.
La question sous-jacente est "Qu'adviendra-t-il des emplois ?". D'évidence, l'IA va créer du travail tout en le réduisant !
D'un point de vue prospectif, voilà quelques exemples possibles des évolutions liés à l'IA :
-
La production, la distribution et la consommation d'actualités seront toutes impactées par les technologies basées sur l'IA, probablement dans cet ordre.
-
Les expériences de contenu entièrement nouvelles basées sur les technologies de l'IA sont encore les opportunités les plus lointaines.
-
Dans la production de nouvelles, la routine quotidienne d'assemblage de programmes audio et vidéo sera probablement un premier domaine d'impact.
-
Dans la distribution et la consommation de nouvelles, la personnalisation de l'offre de contenu et, en particulier, la personnalisation de l'élément de contenu individuel ou de l'expérience, sera probablement un impact précoce. Ces deux événements se produisent maintenant sous une forme limitée.
Selon l'étude, les principaux obstacles à l'adoption de l'IA rencontrés par les autres groupes médias sont :
-
- Le manque de ressources financières et/ou volonté d'investir celles qui sont disponibles.
-
- Le manque de compétences liées à l'IA et difficulté à attirer et à embaucher des talents.
-
- Le scepticisme à l'égard des nouvelles technologies, combiné à la peur des pertes d'emplois.
-
- Les problèmes structurels, y compris les lacunes techniques entre les départements.
-
- Le manque de connaissances et de compréhension du potentiel de l'IA.
-
- L'absence de stratégie, notamment au niveau de la direction.
-
- Le manque de temps et difficulté à prioriser les projets d'IA.
Quelques extraits des réponses des participants à l'étude.
"Le principal défi est un défi culturel, car l'IA réduit les processus et donne ainsi plus de temps aux personnes dans la salle de rédaction. Mais cela signifie également une demande de productivité plus élevée, ce que beaucoup de gens voudront peut-être éviter. Cela a été un problème clé."
"Le fossé culturel entre informaticiens et journalistes."
"Parmi les nombreux défis que nous avons rencontrés : la priorisation. Comment savoir quoi automatiser ? Quel projet d'IA vient en premier ? Comme pour toute couverture, vous devez peser les besoins du public, l'impact du reportage, les gains pour la rédaction, etc."
Je livre ici les principaux points remontés par l'étude et vous invite à les lire. Il y a en effet matière à réflexion pour le rédaction d'une charte.
A titre d'indication, le mot "éthique" doit être entendu dans son acceptation la plus large c'est à dire la réflexion et la pratique liées à des questions telles que la confiance (trust), l'exactitude (accuracy), la responsabilité (accountability) et les préjugés (bias). Par "politique éditoriale", il s'agit d'un large éventail de questions autour de l'idée de la "qualité" des informations.
Voici, a minima, les intitulés des 6 domaines clés interdépendants qui sont traitées dans l'étude :
- Economie : arbitrage financier ?
- Biais algorithmique
- Désinformation et "bulles de filtrage"
- Amélioration des décisions éditoriales et de la transparence
- Équilibre entre intelligence artificielle et humaine
- Le rôle des entreprises technologiques
Selon l'étude, il est avéré que l'IA leur donne plus de pouvoir, mais avec cela viennent des responsabilités éditoriales et éthiques. A ce titre, cela justifie pleinement la rédaction d'une charte.
Les répondants à l'étude croient fermement que l'IA est là pour rendre les journalistes plus efficaces et pour accroître leur capacité à faire deux choses essentielles :
-
- Libérer les journalistes pour qu'ils puissent travailler, avec ou sans IA, à la création d'un meilleur journalisme à un moment où l'industrie de l'information se bat pour sa viabilité économique et la préservation de la confiance et de la pertinence auprès du public.
-
- Pour aider le public à faire face à un monde de surcharge de nouvelles et de désinformation et pour les connecter de manière pratique à un contenu crédible qui est pertinent, utile et stimulant. Comme Clay Shirky l'a dit il y a plus de dix ans, "il n'y a pas de surcharge d'informations, il n'y a qu'une défaillance du filtre".
- Algorithme : Une procédure pour résoudre un problème mathématique en un nombre fini d'étapes qui implique fréquemment la répétition d'une opération". Plus largement, "une procédure étape par étape pour résoudre un problème ou accomplir une fin."
- Intelligence artificielle (IA): Ensemble d'idées, de technologies et de techniques liées à la capacité d'un système informatique à effectuer des tâches nécessitant normalement l'intelligence humaine. Comme l'indique la section "Définitions" de ce rapport, il s'agit d'un terme nébuleux utilisé par différentes personnes pour signifier différentes choses.
- Automatisation : "La technique, la méthode ou le système d'exploitation ou de contrôle d'un processus par des moyens hautement automatiques, comme par des dispositifs électroniques, réduisant au minimum l'intervention humaine." "La création de la technologie et son application afin de contrôler et de surveiller la production et la livraison de divers biens et services. Elle exécute des tâches qui étaient auparavant effectuées par des humains. L'automatisation est utilisée dans un certain nombre de domaines tels que la fabrication, le transport, les services publics, la défense, les installations, les opérations et, dernièrement, les technologies de l'information."
Voir : https://www.techopedia.com/definition/32099/automation
- Biais : Préjugé systématique ou erreur affectant la rationalité et l'équité d'une décision. Ancrée dans la théorie de la décision, la psychologie cognitive et les statistiques, la notion de biais est extrêmement importante car tant le journalisme que les techniques d'intelligence artificielle reposent finalement sur des décisions humaines, et sont à ce titre sujets à des biais « cognitifs » (biais de confirmation, effet de train en marche, etc.) . Lorsqu'ils sont reflétés dans des ensembles de données incorrects, incomplets ou défectueux pour former des algorithmes d'IA, cela peut entraîner des décisions tout aussi erronées basées sur l'IA : "Les algorithmes peuvent avoir des biais intégrés car ils sont créés par des individus qui ont des préférences conscientes ou inconscientes qui peuvent ne pas être découvertes jusqu'à ce que les algorithmes soient utilisés, et potentiellement amplifiés, publiquement."
Voir : https://searchenterpriseai.techtarget.com/definition/machine-learning-bias-algorithm-bias-or-AI-bias
- Robot : "Bot" est l'abréviation de "Robot" et fait généralement référence à un logiciel "de type agent", c'est-à-dire un logiciel qui présente une autonomie ou des caractéristiques autonomes. Un bot est "un logiciel qui peut exécuter des commandes, répondre à des messages ou effectuer des tâches de routine, comme des recherches en ligne, soit automatiquement, soit avec une intervention humaine minimale". Les bots effectuent soit des activités parfaitement légitimes (par exemple, des assistants intelligents, des moteurs de recherche) soit des activités malveillantes (par exemple, diffuser secrètement de fausses informations et de la propagande politique en coordination avec d'autres bots, au sein d'un soi-disant "botnet").
Voir : https://www.techopedia.com/definition/24063/internet-bot
- CMS : Acronyme de "Content Management System", c'est "une application logicielle ou un ensemble de programmes connexes utilisé pour créer et gérer du contenu numérique". A ce titre, la backoffice de FMM "Bach" est un CMS.
Voir : https://searchcontentmanagement.techtarget.com/definition/content-management-system-CMS
- CPM : Le CPM ou Coût Pour Mille est le mode dominant de valorisation et de facturation des espaces publicitaires Internet par lequel un annonceur est facturé selon un prix de l'espace publicitaire exprimé pour mille affichages de la création graphique utilisée (bannière, vidéo, etc.).
- Analyse de données : L'analyse consiste essentiellement à compter les actions et les événements numériques et à tirer des conclusions à partir de ces décomptes. "L'analyse des données consiste à extraire le sens des données brutes à l'aide de systèmes informatiques spécialisés. Ces systèmes transforment, organisent et modélisent les données pour tirer des conclusions et identifier des modèles."
De nombreuses techniques et processus d'analyse de données ont été automatisés en processus mécaniques et en algorithmes qui fonctionnent sur des données brutes destinées à la consommation humaine. Les techniques d'analyse de données peuvent révéler des tendances et des mesures qui seraient autrement perdues dans la masse d'informations."
La puissance de calcul toujours croissante et les capacités d'analyse automatisées augmentent de manière exponentielle le volume d'ensembles de données pouvant être traités pour le sens et les tendances, conduisant les experts dans le domaine à inventer un nouveau terme, "Big Data".
Voir : https://www.investopedia.com/terms/d/data-analytics.asp
- Deepfake : Il s'agit de la forme négative d'un concept plus large de "média synthétique". Audio et vidéo modifiés grâce à l'apprentissage automatique et aux techniques d'apprentissage en profondeur pour un réalisme maximal en temps réel dans la contrefaçon. Le terme vient à l'origine d'un utilisateur de Reddit qui, en 2017, a utilisé de telles techniques pour ajouter de manière réaliste et dynamique des visages de célébrités à du contenu pornographique, et est maintenant largement utilisé pour tout type de contenu, y compris politiquement chargé.
Voir : https://www.theverge.com/2018/5/22/17380306/deepfake-definition-ai-manipulation-fake-news
- Deep learning (Apprentissage en profondeur) : "L'apprentissage en profondeur (Deep learning) est un sous-ensemble de l'apprentissage automatique dans l'intelligence artificielle (IA) qui dispose de réseaux capables d'apprendre sans supervision à partir de données non structurées ou non étiquetées. Également connu sous le nom d'apprentissage neuronal profond (deep neural learning) ou réseau neuronal profond (deep neural network)".
C'est l'une des applications contemporaines les plus avancées de "l'IA", alimentant une large gamme d'outils de reconnaissance d'images, de voix et de texte.
Voir : https://www.investopedia.com/terms/d/deep-learning.asp Voir : https://blogs.scientificamerican.com/observations/a-deep-dive-into-deep-learning/
When the price of a product or service changes according to market demands: the most familiar examples are airline seats and hotel rates. One example is "surge pricing" policies for ride-sharing applications such as Uber or Lyft, in which the price of a ride increases with its demand. The better the market knows its users, possibly through advanced data analytics techniques, the better it can design the dynamics of its pricing according to their habits and needs.
- Tarification dynamique : (Dynamic pricing) Lorsque le prix d'un produit ou d'un service évolue en fonction des demandes du marché : les exemples les plus connus sont les sièges d'avion et les tarifs d'hôtel. Un exemple est les politiques de "tarification de pointe" (surge pricing) pour les applications de covoiturage telles qu'Uber ou Lyft, dans lesquelles le prix d'un trajet augmente avec sa demande. Mieux le marché connaît ses utilisateurs, éventuellement grâce à des techniques avancées d'analyse de données, mieux il peut concevoir la dynamique de sa tarification en fonction de leurs habitudes et de leurs besoins. Ce phénome est intimement liés à la plateformisation où la transaction est rendu possible grâce à l’existence de cette plate de marché donc à l'élaboration d'un prix dynamique. Ces entités deviennent alors de véritables marchés secondaires pour une marchandise particulière (commodity).
Le surge pricing est un mode particulier de tarification dynamique par lequel on profite d'une hausse de la demande dans une situation où l'offre ne serait pas suffisante à prix inchangé pour augmenter ponctuellement un prix. Le terme de surge pricing a été popularisé par les pratiques de tarification dynamique d'Uber qui augmente les prix affichés sur son application lorsqu'il y a un pic de demande sur une zone géographique donnée (concert, salon professionnel, etc.).
Je mentionne cette notion car elle sera probablement le mode de tarification des plateformes IA, à l'acte et variabilisé en fonction de l'offre te de la demande et par conséquent volatile.
Voir : https://www.thestreet.com/technology/lyft-vs-uber-14791376
- Fake news : Un terme académiquement discrédité et pourtant largement utilisé qui englobe tout le spectre des significations liées aux contrevérités, de la mésinformation (misinformation) (c'est-à-dire la manipulation non délibérée) à la désinformation (disinformation) (c'est-à-dire le mensonge délibéré), des demi-vérités aux mensonges. Son utilisation est principalement liée à de fausses informations diffusées sur les réseaux sociaux, éventuellement par des services secrets ou des légions d'anonymes dans campagnes de propagande plus ou moins importantes et toujours de manière coordonnée. L'expression a également été largement adoptée par les autocrates comme les démagogues afin de discréditer le journalisme de confrontation ou le journalisme d'investigation et les oppositions politiques.
Voir : https://www.poynter.org/fact-checking/2018/reporters-stop-calling-everything-fake-news/; Voir : https://www.nytimes.com/2017/12/12/world/europe/trump-fake-news-dictators.html
- Bulle de filtre : (Filter bubble) Inventée par l'activiste Eli Pariser dans un best-seller du même nom en 2011, l'hypothèse de la "bulle de filtre" stipule que les médias sociaux nous endoctrinent de plus en plus avec notre propre propagande, nous exposant de manière algorithmique uniquement à un contenu conforme à nos préférences idéologiques actuelles et dans le même temps à "cacher" toute source qui pourrait nous amener à remettre en question nos propres croyances, préférences et habitudes. Cela répondrait à l'impératif le plus important de leur modèle commercial : accrocher l'utilisateur avec plus encore de tout ce qui l'a accroché précédemment. Depuis sa conception, la notion a été de plus en plus contestée académiquement.
- L'apprentissage automatique (Machine learning ou ML) : "L'apprentissage automatique est une application de l'intelligence artificielle (IA) qui fournit aux systèmes la capacité d'apprendre et de s'améliorer automatiquement à partir de l'expérience sans être explicitement programmés". Les définitions, cependant, abondent. Voici comment le lauréat du prix Turing et père de l'apprentissage en profondeur, Yoshua Bengio, explique que : « La recherche sur l'apprentissage automatique fait partie de la recherche sur l'intelligence artificielle, cherchant à fournir des connaissances aux ordinateurs par le biais de données, d'observations et d'interactions avec le monde. Une fois acquis, ces connaissances permettent aux ordinateurs de généraliser correctement à de nouveaux paramètres".
Voir : https://www.expertsystem.com/machine-learning-definition/ Voir : https://emerj.com/ai-glossary-terms/what-is-machine-learning/
- Metadata : Un ensemble de données qui décrit et donne des informations sur d'autres données. "Par exemple, une image peut inclure des métadonnées décrivant la taille de l'image, la profondeur de couleur, la résolution de l'image, la date de création de l'image et d'autres données. Les métadonnées d'un document texte peuvent contenir des informations sur la longueur du document, qui l'auteur, la date de rédaction du document et un bref résumé du document. Les pages Web incluent souvent des métadonnées sous la forme de balises META. Les balises META de description et de mots clés sont couramment utilisées pour décrire le contenu de la page Web. La plupart des moteurs de recherche utilisent ces données lors de l'ajout de pages à leur index de recherche."
L'automatisation de cette fonction de "meta-tagging" fait partie des expérimentations les plus courantes en IA journalistique décrites dans notre rapport.
See: https://techterms.com/definition/metadata.
- Minimum viable product : "Un produit minimum viable (MVP) est une technique de développement dans laquelle un nouveau produit ou site Web est développé avec suffisamment de fonctionnalités pour satisfaire les premiers utilisateurs. L'ensemble final et complet de fonctionnalités n'est conçu et développé qu'après avoir pris en compte les commentaires des utilisateurs initiaux du produit. . Ce concept a été popularisé par Eric Ries, consultant et écrivain sur les start-ups."
Voir : https://www.techopedia.com/definition/27809/minimum-viable-product-mvp
- Natural language processing (NLP) : "Le traitement du langage naturel, généralement abrégé en PNL, est une branche de l'intelligence artificielle qui traite de l'interaction entre les ordinateurs et les humains à l'aide du langage naturel. L'objectif ultime du PNL est de lire, déchiffrer, comprendre et donner un sens aux langues humaines. D’une manière qui est précieuse. La plupart des techniques de PNL s'appuient sur l'apprentissage automatique pour dériver le sens des langages humains.
C'est le socle technologique de nombreuses expérimentations en cours sur l'intelligence artificielle dans le journalisme, comme le souligne notre rapport.
Voir : https://becominghuman.ai/a-simple-introduction-to-natural-language-processing-ea66a1747b32
- Réseau de neurones (Neural network) : "Programme ou système calqué sur le cerveau humain et conçu pour imiter le mode de fonctionnement du cerveau, en particulier le processus d'apprentissage".
"une architecture informatique dans laquelle un certain nombre de processeurs sont interconnectés d'une manière évocatrice des connexions entre les neurones d'un cerveau humain et qui est capable d'apprendre par un processus d'essais et d'erreurs."
- Profiling : Dans le cadre du journalisme et de l'IA, le profilage est la collecte d'informations sur les utilisateurs afin de pouvoir les décrire individuellement et collectivement, les catégoriser et leur proposer des contenus et publicités personnalisés.
- Tagging : Voir "Metadata"
- UGC content (User Generated Content) : Contenu généré par les utilisateurs.