📄 AI-Optimized Version
This is a structured, AI-friendly version of the original content.
Original article: https://www.uplix.fr/google-smith/
Site: Uplix ↗ | License: CC BY-ND 4.0 | Attribution required

⚠️ When referencing this content, always cite the original URL above.

Google Smith : quand le NLP progresse, le SEO s’affine

Author: Emmanuel de Vauxmoret — · Updated:

Short summary: Google Smith : qu’est-ce que c’est ? En novembre 2020, Google annonçait le développement de l’algorithme SMITH (Siamese Multi-depth Transformer-based Hierarchical encoder) ; un événement à souligner dans la course des NLP (Natural Language Processing) ou Traitement Automatique du Langage Naturel (TALN). En effet, les nouveautés affluent dans le domaine des IA dédiées à la […]

Quick overview

Site
Uplix ↗
Canonical URL
https://www.uplix.fr/google-smith/
LLM HTML version
https://www.uplix.fr/wp-json/llm-endpoints/v1/post/google-smith
LLM JSON version
https://www.uplix.fr/wp-json/llm-endpoints/v1/post/google-smith/json
Manifest
https://www.uplix.fr/wp-json/llm-endpoints/v1/manifest
Estimated reading time
13 minutes (728 seconds)
Word count
2425

Key points

Primary visual

Google Smith : quand le NLP progresse, le SEO s’affine
Main illustration associated with the content.

Structured content

core/heading

Google Smith : qu'est-ce que c'est ?

core/paragraph

En novembre 2020, Google annonçait le développement de l’algorithme SMITH (Siamese Multi-depth Transformer-based Hierarchical encoder) ; un événement à souligner dans la course des NLP (Natural Language Processing) ou Traitement Automatique du Langage Naturel (TALN).

core/paragraph

En effet, les nouveautés affluent dans le domaine des IA dédiées à la communication en langage humain. Récemment, les logiciels intégraient encore des fonctionnalités linguistiques relativement rigides pour l’utilisateur.

core/paragraph

Aujourd’hui, des modèles fleurissent qui imitent davantage le cerveau humain en matière de compréhension et de génération textuelle, à l’image du T-NLG de Microsoft ou GPT-3 de la société californienne OpenAI.

core/paragraph

Ces algorithmes sont conçus pour résumer des contenus ou répondre à des questions avec la fluidité d’une conversation.

core/paragraph

Ces modèles fonctionnent avec respectivement 17 milliards et 175 milliards de paramètres.

core/paragraph

Une telle capacité d’analyse permet même d’aboutir à la rédaction automatique d’articles cohérents. Dans cette perspective, voyons ce qu’il en est du côté de Google...

core/paragraph

 

core/heading

Une nouvelle avancée dans les NLP avec Google Smith

core/image

core/paragraph

Concrètement, les outils qu’emploie Google traitent à une vitesse vertigineuse des dizaines de milliards de données. Pour l’indexation des pages web, les réponses aux requêtes et leur classement dans les SERP, la puissance de calcul est un allié précieux, mais insuffisant.

core/paragraph

L’analyse du langage naturel humain nécessite des algorithmes plus subtils, issus des recherches en Machine Learning et Deep Learning.

core/paragraph

L’idéal de l’intelligence artificielle est d’ailleurs de trouver un moyen de traiter des situations inédites ; ainsi, les comprendre en profondeur est la première étape pour satisfaire les utilisateurs.

core/paragraph

L’objectif est alors de proposer un résultat qui s’appuie sur des expériences passées pour puiser dans de nouvelles ressources. Nota Bene : on utilise de plus en plus le machine learning pour diverses tâches subtiles, comme le Predictive Ranking en SEO. Le potentiel de cette technologie en est encore à ses balbutiements...

core/heading

L'algorithme Google SMITH : en quoi ça consiste ?

core/paragraph

Après que l’équipe de recherche de Google s’est penchée activement sur les NLP, elle a d’abord développé et déployé en 2019 un algorithme sophistiqué qu’elle a baptisé BERT (Bidirectional Encoder Representations from Transformers).

core/paragraph

BERT est un modèle préentraîné qui accomplit diverses tâches comme cité préalablement : réponses aux questions, association sémantique, structuration, etc.

core/paragraph

Toutefois, son défaut majeur réside dans une analyse sémantique qui se restreint à quelques phrases...

core/paragraph

Environ un an plus tard, c’est au tour du Siamese Multi-depth Transformer-based Hierarchical encoder (SMITH) de faire l’objet d’un article de présentation.

core/paragraph

Ce modèle serait capable de manipuler le sens de contenus plus longs, en s’aidant du contexte dans lequel les mots sont employés, à l’image de BERT.

core/paragraph

En effet, si celui-ci est en mesure de prédire des mots cachés dans une phrase, SMITH parvient à prédire des blocs de phrases entiers !  

core/heading

Traiter des requêtes toujours plus complexes

core/paragraph

Avec des avancées comme SMITH, Google espère renforcer sa pertinence pour des requêtes de plus en plus délicates. En effet, pas moins de 15% de ses demandes  sont inédites.

core/paragraph

La problématique est donc : comment trouver la meilleure réponse sans dépendre de statistiques sur la réputation, le taux de rebond ou de conversion d’une page pour tel mot-clé ? Google va donc chercher la pertinence directement dans la question…

core/paragraph

En outre, les réponses proposées par le moteur de recherche doivent correspondre à une exigence de rapidité et de précision. Mieux que de présenter la bonne page, l’algorithme doit en extraire l’information requise et la formuler intelligiblement (pour les assistants vocaux par exemple).

core/paragraph

Enfin, les requêtes évoluent pour être de plus en plus longues ; le NLP incite les utilisateurs à communiquer avec la machine comme avec un interlocuteur humain. Ainsi, 8% des requêtes sont des questions complètes.

core/paragraph

 

core/paragraph

Des mots-clés aux phrases, des phrases aux paragraphes, etc.

core/image

core/paragraph

Avec BERT, les performances pour mettre en correspondance un texte d’entrée court (un mot-clé de longue traîne ou une question) avec un document court ou long (pour une étude ad hoc, par exemple) se sont grandement améliorées.

core/paragraph

Or, SMITH s’inscrit directement dans ce besoin d’associer, notamment grâce au contexte, le sens général d’un bloc de mots ou de phrases à une information manquante que l’on va prédire ou chercher.

core/paragraph

Ce modèle trouve son intérêt dans la mise en correspondance sémantique entre deux contenus relativement longs. Cette nouvelle aptitude servirait aux recommandations d’actualités ou d’articles connexes, et à un classement plus précis des documents. Ainsi, selon les chercheurs la difficulté de cette tâche réside dans :

core/list

une compréhension plus profonde des relations sémantiques entre les termes ;

core/list

la prise en compte de la structuration du contenu, duquel un sens général est déjà censé se dégager ;

core/list

des problèmes techniques inhérents à l’algorithme.

core/paragraph

 

core/heading

Transformers et mécanisme d’attention

core/paragraph

À l’instar de BERT, SMITH innove dans les modèles d'attention. Ce type de mécanisme permet de hiérarchiser les termes d’une phrase par analyse sémantique et syntaxique, en fonction du contexte.

core/paragraph

En effet, la machine déduit automatiquement le poids contextuel de chaque mot, sans en éliminer.

core/paragraph

Nous pourrions l’illustrer ainsi : “Le renard roux agile saute par-dessus le chien marron”. Ensuite, un transformer crée des embeddings : il trouve la probabilité du prochain mot après chaque terme analysé.

core/paragraph

En effet, il est plus probable de lire l’adjectif “roux” derrière le nom “renard” que d’y trouver le mot “cafetière”. Bien sûr, vu la quantité de mots existants, la tâche est extrêmement ardue !

core/paragraph

D’autre part, comme la lecture bidirectionnelle de BERT (de gauche à droite et vice versa), l’intérêt des tranformers pour SMITH est de traiter les mots du texte dans un ordre indépendant de sa linéarité initiale (un peu comme on décoderait du latin....)

core/paragraph

 

core/heading

L’importance de la Préformation

core/paragraph

Grâce aux mécanismes d’attention et aux transformers, les modèles BERT et SMITH accèdent à une méthode dite de “pré-formation”. En résumé, il s’agit de former un algorithme à partir d’un ensemble de données. L’exercice typique de ce paramétrage consiste à masquer des mots aléatoirement dans une phrase.

core/paragraph

Ainsi, pour faire simple, dans “Le … roux agile saute par-dessus le chien marron”, la machine saura prédire le mot manquant “renard”.

core/paragraph

Mais l’apprentissage de SMITH va plus loin,qui doit lui faire saisir des relations sémantiques entre les termes d’un texte bien plus long, afin de prédire des blocs de phrases entiers !

core/paragraph

Ainsi, grâce à un tel “entraînement” ce modèle serait en mesure de traiter des documents de plus en plus volumineux.

core/paragraph

 

core/heading

Google Smith : pour travailler de conserve avec BERT

core/image

core/paragraph

En principe, l’efficacité de SMITH ne devrait pas se substituer au succès encore récent de BERT en matière de Deep Learning.

core/paragraph

Comme évoqué un peu plus tôt, le Bidirectional Encoder Representations from Transformers avait déjà marqué un progrès notable dans la compréhension du langage naturel par la machine.

core/paragraph

Capable de parcourir un texte dans les deux sens, ce modèle embarquait déjà un transformer capable de lui indiquer les relations contextuelles entre tous les mots qui composent chaque phrase.

core/paragraph

Un encodeur se chargeait de saisir le sens d’un texte d’entrée, pour ensuite générer un décodeur spécifique à l’accomplissement de la tâche requise.   

core/heading

Les impacts sur le moteur de recherche de Google

core/paragraph

Écrites ou orales, les requêtes, avec BERT, ont rapidement donné lieu à des réponses de plus en plus pertinentes. En effet, l’algorithme est conçu pour n’éliminer aucun mot, afin d’améliorer la précision de ses interprétations.

core/paragraph

En conséquence, les utilisateurs peuvent compter sur des natures de mots telles que les prépositions, afin d’expliciter les rapports de sens qu’il souhaite établir entre les autres mots plus importants.

core/paragraph

À certains égards, cela évite à BERT de commettre des contresens. À ce titre, prenons l’exemple le plus connu de Google : “2019 Brazil traveler to usa needs a visa”.

core/paragraph

En tenant compte de la préposition “to”, la SERP affiche des résultats destinés à un voyageur brésilien qui se rend aux États-Unis.

core/paragraph

Sans BERT, le moteur de recherche aurait ignoré le “to” pour donner en priorité des réponses adressées à un voyageur américain qui se déplace au Brésil.

core/heading

SMITH complète BERT pour les documents longs

core/paragraph

Ainsi, depuis novembre 2020, l’on sait que SMITH risque bientôt de prêter main-forte à BERT, grâce à son aisance d’analyse sur des volumes de contenus plus conséquents.

core/paragraph

Capable de comprendre le sens général d’un document en décomposant les axes sémantiques de ses parties, il devrait permettre de répondre à des requêtes plus longues, inédites et spontanées.

core/paragraph

À ce titre, la longueur maximale du texte d’entrée aurait quadruplé, passant de 512 à 2048 mots, comparativement à BERT.  

core/heading

Déploiement de Google Smith : ce que ça change(rait) en SEO

core/paragraph

Actuellement, l’heure est aux spéculations pour savoir si SMITH est déjà implémenté parmi les algorithmes de Google. À titre de comparaison, un délai de près d’un an avait séparé le développement de BERT de son déploiement officiel.

core/paragraph

Malgré une annonce selon laquelle Google avait procédé à des mises à jour fin 2020, Danny Sullivan a déclaré sur Twitter le 13 janvier 2021 que cela ne concernait absolument pas SMITH. 

core/image

core/paragraph

En outre, il semblerait que nous ne parlions encore que d’une version bêta du modèle à venir. Cela étant, la trame évolutive de Google semble claire.

core/paragraph

Nul besoin, donc, d’attendre la prochaine Core Algorithm Update pour adopter (ou renforcer) les bonnes pratiques.

core/paragraph

 

core/heading

Exemple de BERT

core/paragraph

Pour revenir un peu sur le prédécesseur de SMITH, rappelons-nous que Google l’avait présenté comme la plus importante mise à jour depuis cinq ans, c’est-à-dire depuis Hummingbird.

core/paragraph

Dans son blog, Google estime à 10% le taux de résultats de recherches affectés par BERT. Déjà, l’on trouvait confirmation sur deux éléments à garder impérativement à l’esprit :

core/list

anticiper les intentions des utilisateurs lorsque l’on rédige sur un sujet, et répondre aux éventuelles questions ;

core/list

améliorer le réseau sémantique, en fournissant du contenu complet, maîtrisé et intelligible,

core/list

structurer l’information et augmenter la lisibilité

core/paragraph

 

core/heading

Toujours réfléchir aux intentions des internautes

core/paragraph

Comme beaucoup de vérités, il s’agit d’une évidence que l’on oublie facilement. De nos jours, il ne suffit plus de parler convenablement d’un sujet pour trouver grâce aux yeux de Google.

core/paragraph

En effet, l’expertise n’est pas la pertinence : en règle générale, connaître un domaine ne suffit pas à résoudre un problème. De son côté, le moteur de recherche adopte de plus en plus le point de vue des internautes, à vous d’en faire de même !

core/paragraph

Catégoriser les requêtes est toujours un bon moyen d’y voir clair.

core/paragraph

L’utilisateur cherche-t-il une information ?

core/paragraph

Une transaction ?

core/paragraph

Un lieu où se rendre ?

core/paragraph

Selon le thème, la réponse doit-elle être développée ou présentée synthétiquement ?   

core/heading

Sémantique et pertinence

core/image

core/paragraph

 

core/paragraph

Ensuite, il existe des outils capables de vous aiguiller sur le lexique qu’on attendrait à voir apparaître en fonction des mots-clés qui représentent votre sujet. En vous appuyant sur cette liste de mots, vous pouvez mettre côte à côte des notions étroitement liées.

core/paragraph

Toutefois, la pertinence requiert que vous les mettiez explicitement en relation. Si un algorithme comme BERT sait désormais interpréter les prépositions, se contenter de jouer sur des nuages sémantiques tend à devenir proprement inefficace.

core/paragraph

De l’autre côté, mieux vaut éviter de tourner autour du pot, et employer relativement souvent les mots-clés qui cadrent votre sujet !

core/paragraph

Puisque le mécanisme d’attention soupèse l’importance des termes, vous aurez pour tâche de quadriller vos articles avec des mots stratégiques. Entre sémantique et pertinence, l’on voit bien qu’un équilibre est toujours à trouver.

core/paragraph

 

core/heading

Lisibilité et structure

core/paragraph

Nous l’avons évoqué indirectement, mais ce critère mérite d’être pris en compte : les algorithmes utilisant le NLP ne sont pas parfaits.

core/paragraph

C’est d’ailleurs pour cette raison qu’ils font l’objet de mises à jour majeures et récurrentes. En conséquence, ils sont moins efficaces s’ils se heurtent à des textes peu lisibles.

core/paragraph

Il ne tient donc qu’à vous de structurer votre contenu avec des titres HTML (H1, H2, etc.) bien hiérarchisés et évocateurs du paragraphe auquel ils se rattachent.

core/paragraph

Appliquez le canevas : 1 paragraphe = 1 idée. C’est un peu plus de travail en amont, que d’établir un plan logique aux titres bien répartis, mais les avantages sont bien réels !

core/paragraph

 

core/heading

Vos questions, nos réponses !

core/paragraph

Est-ce que Google utilise déjà l'algorithme SMITH ?

core/paragraph

Bien que les chercheurs semblent expliquer que ce nouvel algorithme surpasse les performances de BERT, les déclarations officielles infirment ce genre de rumeurs.

core/paragraph

Google SMITH en serait plutôt à la phase de prototype test, et nécessiterait des recherches supplémentaires, malgré la confiance qu’il inspire dans les articles qui lui sont dédiés.  

core/heading

SMITH va-t-il remplacer BERT ?

core/paragraph

Ce n’est pas au programme. Il s’agirait plutôt de prendre le relai de BERT pour les tâches concernant spécifiquement les correspondances sémantiques entre des documents de longueur importante.  

core/heading

En quoi consiste la préformation ?

core/paragraph

C’est une méthode destinée à former un algorithme à partir d’une base de données. On exerce la machine à prédire des termes ou des blocs de phrases manquants dans un extrait de texte. À terme, l’objectif est de limiter les erreurs à un niveau raisonnable.

Topics and keywords

Themes: Comprendre Google, Google

License & attribution

License: CC BY-ND 4.0.

Attribution required: yes.

Manifest: https://www.uplix.fr/wp-json/llm-endpoints/v1/manifest

LLM Endpoints plugin version 1.2.0.