← Retour au blog

Technologie

Scoring de pertinence : comment trier automatiquement l'information utile du bruit

Comment fonctionne un système de scoring de pertinence pour la veille économique ? Embeddings, similarité sémantique, pondération : les mécanismes expliqués simplement.

· Panorama Labs

La promesse de la veille automatisée est simple : ne voir que ce qui compte. Sa réalisation l’est moins. Comment un système décide-t-il qu’un article sur “les aides régionales à l’investissement industriel” est pertinent pour une CCI et qu’un article sur “les marchés financiers asiatiques” ne l’est pas — même si les deux contiennent le mot “marché” ?

La réponse est le scoring de pertinence. Voici comment ça fonctionne.

Le problème des mots-clés simples

La première approche intuitive pour filtrer les informations est de définir des mots-clés : si l’article contient “CCI”, “appel d’offres”, “subvention”, ou “PME”, il est pertinent. Sinon, il ne l’est pas.

Cette approche a deux problèmes fondamentaux.

Le bruit : un article sur “les marchés financiers” contient le mot “marché” mais n’est pas pertinent pour une cellule de veille marchés publics. Un article sur “les aides aux créateurs d’entreprise” contient le mot “aide” mais n’est peut-être pas pertinent si votre organisation se concentre sur les ETI.

Les angles morts : un article pertinent peut ne pas contenir exactement les mots-clés définis. Un article sur “les procédures de mise en concurrence dans le secteur de la santé” est très pertinent pour une veille marchés publics, même si “appel d’offres” n’y apparaît pas explicitement.

Le scoring de pertinence résout ces deux problèmes en passant d’une comparaison lexicale (les mots exacts) à une comparaison sémantique (le sens).

Les embeddings : représenter le sens en chiffres

La technologie centrale du scoring sémantique est l’embedding (ou vecteur sémantique). Un modèle d’embedding transforme un texte — qu’il s’agisse d’un mot, d’une phrase ou d’un document entier — en un vecteur de nombres de haute dimension (typiquement 768 ou 1536 dimensions).

La propriété clé : deux textes qui ont un sens similaire produisent des vecteurs proches dans cet espace mathématique. “Appel d’offres public” et “procédure de mise en concurrence” auront des vecteurs très proches, même si aucun mot n’est partagé. “Marchés financiers” et “marchés publics” auront des vecteurs plus éloignés, malgré le mot “marchés” en commun.

Cette proximité se mesure par la similarité cosinus — une valeur entre 0 et 1 qui indique à quel point deux vecteurs pointent dans la même direction. Une similarité de 0.9 indique des textes très proches sémantiquement ; une similarité de 0.2 indique des textes peu liés.

Comment Panorama calcule le score

Pour chaque organisation cliente, Panorama maintient un profil sémantique : un ensemble de thématiques décrites en langage naturel, encodées en vecteurs d’embeddings.

Par exemple, pour une CCI avec trois thématiques prioritaires :

  • “Développement économique territorial et accompagnement des PME”
  • “Marchés publics et appels d’offres régionaux”
  • “Transition énergétique et industrie verte”

Quand un nouvel article est collecté, son contenu est encodé en vecteur. La similarité entre ce vecteur et chacun des vecteurs de thématiques est calculée. Le score de pertinence est une combinaison pondérée de ces similarités.

Un article sur “le nouveau dispositif BPI pour la décarbonation de l’industrie” obtiendra une similarité forte avec les thématiques “développement économique” et “transition énergétique” — son score sera élevé.

Un article sur “les résultats du CAC 40 au troisième trimestre” obtiendra une faible similarité avec toutes les thématiques — son score sera bas.

Les facteurs de pondération complémentaires

La similarité sémantique est le signal principal, mais le score final intègre d’autres facteurs :

La présence d’entités prioritaires : si l’organisation a défini une liste d’entreprises ou d’acteurs à surveiller en priorité (grandes entreprises du territoire, concurrents, partenaires), un article les mentionnant reçoit un bonus de score.

La qualité et la fiabilité de la source : un article des Échos sur la politique industrielle régionale aura un poids légèrement supérieur à un article d’un blog de faible autorité sur le même sujet.

La fraîcheur : un article publié aujourd’hui est légèrement favorisé sur un article d’il y a trois jours, à pertinence sémantique égale. La veille économique perd de sa valeur avec le temps.

Le type de contenu : un appel d’offres directement pertinent (code CPV correspondant, zone géographique dans le périmètre) reçoit un bonus par rapport à un article de presse sur le même sujet.

Le seuil et la calibration

Le score seul ne suffit pas — il faut définir un seuil au-dessus duquel un contenu est considéré pertinent et remonte dans le flux. Ce seuil est configurable par organisation et se calibre dans le temps.

Un seuil trop bas : trop de contenus remontent, la newsletter est longue et peu lisible, les équipes perdent confiance dans le filtre.

Un seuil trop haut : certains contenus importants ne remontent pas, la veille a des angles morts.

La calibration optimale se fait empiriquement, en analysant les retours des utilisateurs sur les premières semaines : “cet article n’aurait pas dû remonter” ou “j’ai manqué cette information importante” sont deux signaux opposés qui permettent d’ajuster le seuil.

Ce que le scoring change pour les équipes

Sans scoring, une veille automatisée qui collecte 1 200 articles par semaine produit 1 200 articles à lire — ce qui n’est pas mieux que la veille manuelle.

Avec un scoring bien calibré, ces 1 200 articles sont réduits à 50-80 contenus vraiment pertinents. Les équipes lisent les résumés de ces 50-80 contenus (5 à 10 minutes), cliquent sur les 10-15 qui méritent une lecture complète, et ont en fin de semaine une vision exhaustive de ce qui s’est passé sur leur périmètre.

C’est la différence entre une veille qui génère du travail supplémentaire et une veille qui en économise.

À lire aussi : comment l’IA analyse et résume les articles en amont du scoring, et le comparatif newsletter automatique vs manuelle.

Voir comment le scoring fonctionne sur vos thématiques →