Technologie
Comment l'IA analyse et résume automatiquement des milliers d'articles économiques
Comprendre comment les technologies NLP et IA traitent automatiquement les flux d'information économique : résumés, entités, sentiment, classification. Expliqué simplement.
· Panorama Labs
Quand Panorama surveille 247 sources et traite 1 200 articles par semaine pour une CCI, il ne les lit pas un par un. Un pipeline d’analyse automatique traite chaque contenu en quelques secondes, en extrait les informations clés, et calcule sa pertinence. Comment ça fonctionne ? C’est ce que cet article explique, sans jargon technique inutile.
Le problème que l’IA résout : le volume
Une veille économique sérieuse sur un territoire régional implique de surveiller des dizaines de sources qui publient collectivement plusieurs centaines d’articles par semaine. Même en ne lisant que les titres, traiter ce volume manuellement prendrait plusieurs heures par jour.
L’enjeu n’est pas de remplacer le jugement humain — c’est de filtrer automatiquement le bruit pour que les équipes ne lisent que ce qui mérite vraiment leur attention.
Étape 1 : la collecte et le pré-traitement
Avant toute analyse, le contenu doit être collecté et nettoyé. Pour un article de presse, cela signifie extraire le texte de la page web en supprimant les éléments non pertinents : menus de navigation, publicités, pieds de page, commentaires.
Pour un appel d’offres BOAMP, cela signifie parser le document structuré et identifier les champs clés : objet du marché, acheteur, montant estimé, codes CPV, date limite de candidature.
Cette étape de pré-traitement est techniquement simple mais critique : une analyse faite sur un texte mal extrait donne des résultats dégradés.
Étape 2 : la classification thématique
Une fois le texte propre, la première analyse consiste à identifier de quoi parle l’article. Cette classification peut utiliser deux approches complémentaires :
La classification par mots-clés est la plus simple : si l’article contient les mots “appel d’offres”, “marché public”, “BOAMP”, il est classifié dans la catégorie “marchés publics”. Rapide et transparent, mais limité : un article sur “les marchés financiers” ne parle pas de marchés publics, même si le mot “marché” est présent.
La classification par modèle de langage est plus sophistiquée : un modèle entraîné sur des milliers d’exemples apprend à reconnaître le sujet d’un texte même sans mots-clés explicites. Un article qui parle de “procédure de mise en concurrence”, “cahier des charges” et “dossier de candidature” sera classifié marchés publics même si le mot “appel d’offres” n’apparaît pas.
Panorama utilise la deuxième approche, avec des modèles spécialisés sur le français économique et institutionnel.
Étape 3 : l’extraction d’entités nommées
L’extraction d’entités nommées (NER — Named Entity Recognition) identifie automatiquement dans le texte les noms propres et leur type :
- Organisations : entreprises, administrations, associations (“BPI France”, “Région Normandie”, “Airbus”)
- Lieux : villes, départements, régions (“Nice”, “PACA”, “France”)
- Personnes : dirigeants, élus, personnalités économiques
- Montants : chiffres accompagnés d’unités monétaires (“12 millions d’euros”, “450 000 €”)
- Dates : références temporelles (“avant le 15 juillet”, “en 2026”)
Ces entités permettent d’enrichir automatiquement les métadonnées de chaque article et d’améliorer la pertinence des recherches. Quand un conseiller cherche “tous les articles mentionnant la Région SUD et de la formation professionnelle”, les entités extraites permettent de retrouver ces contenus précisément.
Étape 4 : l’analyse de sentiment
L’analyse de sentiment détermine si un article est globalement positif, négatif ou neutre sur le sujet qu’il traite. Pour la veille économique, cela permet de distinguer rapidement :
- Un article annonçant l’ouverture d’un nouveau site industriel (positif pour l’emploi local)
- Un article annonçant un plan de licenciements (négatif)
- Un article décrivant une évolution réglementaire (neutre)
Le sentiment n’est pas utilisé pour filtrer les contenus — une mauvaise nouvelle peut être très pertinente — mais pour enrichir la présentation dans la newsletter et permettre des analyses agrégées sur la tonalité de l’information économique d’un territoire.
Étape 5 : la génération de résumés
C’est l’étape la plus visible pour les utilisateurs : chaque article est résumé automatiquement en 3 à 5 phrases qui capturent l’essentiel du contenu. Ce résumé est ce qui apparaît dans la newsletter, permettant aux destinataires de comprendre l’information sans cliquer sur l’article.
Deux approches techniques coexistent :
Le résumé extractif sélectionne les phrases les plus représentatives du texte original. Simple et fiable, mais peut produire des résumés qui manquent de cohérence si les phrases sélectionnées ne s’enchaînent pas naturellement.
Le résumé génératif utilise un grand modèle de langage (comme GPT-4o) pour produire un résumé original, reformulé, qui intègre les points clés de l’article. Plus fluide et lisible, mais plus coûteux en calcul et nécessite une validation de la fiabilité (le modèle ne doit pas halluciner des informations qui n’étaient pas dans l’article).
Panorama s’appuie sur GPT-4o pour la génération de résumés, avec des prompts calibrés pour le contenu économique institutionnel francophone et des garde-fous contre les hallucinations.
Étape 6 : le scoring de pertinence
C’est l’étape finale et la plus critique : calculer un score de 0 à 100 qui représente la pertinence de l’article par rapport aux thématiques définies par l’organisation.
Ce score combine plusieurs signaux :
- La similarité sémantique entre l’article et les thématiques de l’organisation (calculée via des embeddings vectoriels)
- La présence de mots-clés et d’entités prioritaires
- La fraîcheur du contenu (un article très récent est légèrement favorisé)
- La qualité de la source (certaines sources sont pondérées plus fort selon leur fiabilité)
Seuls les articles au-dessus d’un seuil configurable (typiquement 60-70/100) remontent dans le flux visible par les équipes.
Ce que ça change en pratique
Pour une CCI qui reçoit 1 200 articles par semaine dans son périmètre de veille, l’analyse automatique permet de :
- Réduire le flux à 50-80 articles vraiment pertinents (filtrage par score)
- Fournir un résumé de chaque article sans lecture complète
- Identifier instantanément les articles mentionnant des entreprises ou acteurs locaux spécifiques
- Détecter les signaux négatifs (plan social, difficultés) qui nécessitent une réaction rapide
Le tout sans qu’un seul membre de l’équipe ait eu à lire les 1 200 articles originaux.
Pour aller plus loin : comment fonctionne le scoring de pertinence qui filtre ce flux, et le comparatif newsletter automatique vs manuelle.