Structured content
core/heading
Google Smith : qu'est-ce que c'est ?
core/paragraph
En novembre 2020, Google annonçait le développement de l’algorithme SMITH (Siamese Multi-depth Transformer-based Hierarchical encoder) ; un événement à souligner dans la course des NLP (Natural Language Processing) ou Traitement Automatique du Langage Naturel (TALN).
core/paragraph
En effet, les nouveautés affluent dans le domaine des IA dédiées à la communication en langage humain. Récemment, les logiciels intégraient encore des fonctionnalités linguistiques relativement rigides pour l’utilisateur.
core/paragraph
Aujourd’hui, des modèles fleurissent qui imitent davantage le cerveau humain en matière de compréhension et de génération textuelle, à l’image du T-NLG de Microsoft ou GPT-3 de la société californienne OpenAI.
core/paragraph
Ces algorithmes sont conçus pour résumer des contenus ou répondre à des questions avec la fluidité d’une conversation.
core/paragraph
Ces modèles fonctionnent avec respectivement 17 milliards et 175 milliards de paramètres.
core/paragraph
Une telle capacité d’analyse permet même d’aboutir à la rédaction automatique d’articles cohérents. Dans cette perspective, voyons ce qu’il en est du côté de Google...
core/heading
Une nouvelle avancée dans les NLP avec Google Smith
core/paragraph
Concrètement, les outils qu’emploie Google traitent à une vitesse vertigineuse des dizaines de milliards de données. Pour l’indexation des pages web, les réponses aux requêtes et leur classement dans les SERP, la puissance de calcul est un allié précieux, mais insuffisant.
core/paragraph
L’analyse du langage naturel humain nécessite des algorithmes plus subtils, issus des recherches en Machine Learning et Deep Learning.
core/paragraph
L’idéal de l’intelligence artificielle est d’ailleurs de trouver un moyen de traiter des situations inédites ; ainsi, les comprendre en profondeur est la première étape pour satisfaire les utilisateurs.
core/paragraph
L’objectif est alors de proposer un résultat qui s’appuie sur des expériences passées pour puiser dans de nouvelles ressources.
Nota Bene : on utilise de plus en plus le machine learning pour diverses tâches subtiles, comme le Predictive Ranking en SEO. Le potentiel de cette technologie en est encore à ses balbutiements...
core/heading
L'algorithme Google SMITH : en quoi ça consiste ?
core/paragraph
Après que l’équipe de recherche de Google s’est penchée activement sur les NLP, elle a d’abord développé et déployé en 2019 un algorithme sophistiqué qu’elle a baptisé BERT (Bidirectional Encoder Representations from Transformers).
core/paragraph
BERT est un modèle préentraîné qui accomplit diverses tâches comme cité préalablement : réponses aux questions, association sémantique, structuration, etc.
core/paragraph
Toutefois, son défaut majeur réside dans une analyse sémantique qui se restreint à quelques phrases...
core/paragraph
Environ un an plus tard, c’est au tour du Siamese Multi-depth Transformer-based Hierarchical encoder (SMITH) de faire l’objet d’un article de présentation.
core/paragraph
Ce modèle serait capable de manipuler le sens de contenus plus longs, en s’aidant du contexte dans lequel les mots sont employés, à l’image de BERT.
core/paragraph
En effet, si celui-ci est en mesure de prédire des mots cachés dans une phrase, SMITH parvient à prédire des blocs de phrases entiers !
core/heading
Traiter des requêtes toujours plus complexes
core/paragraph
Avec des avancées comme SMITH, Google espère renforcer sa pertinence pour des requêtes de plus en plus délicates. En effet, pas moins de 15% de ses demandes sont inédites.
core/paragraph
La problématique est donc : comment trouver la meilleure réponse sans dépendre de statistiques sur la réputation, le taux de rebond ou de conversion d’une page pour tel mot-clé ? Google va donc chercher la pertinence directement dans la question…
core/paragraph
En outre, les réponses proposées par le moteur de recherche doivent correspondre à une exigence de rapidité et de précision. Mieux que de présenter la bonne page, l’algorithme doit en extraire l’information requise et la formuler intelligiblement (pour les assistants vocaux par exemple).
core/paragraph
Enfin, les requêtes évoluent pour être de plus en plus longues ; le NLP incite les utilisateurs à communiquer avec la machine comme avec un interlocuteur humain. Ainsi, 8% des requêtes sont des questions complètes.
core/paragraph
Des mots-clés aux phrases, des phrases aux paragraphes, etc.
core/paragraph
Avec BERT, les performances pour mettre en correspondance un texte d’entrée court (un mot-clé de longue traîne ou une question) avec un document court ou long (pour une étude ad hoc, par exemple) se sont grandement améliorées.
core/paragraph
Or, SMITH s’inscrit directement dans ce besoin d’associer, notamment grâce au contexte, le sens général d’un bloc de mots ou de phrases à une information manquante que l’on va prédire ou chercher.
core/paragraph
Ce modèle trouve son intérêt dans la mise en correspondance sémantique entre deux contenus relativement longs. Cette nouvelle aptitude servirait aux recommandations d’actualités ou d’articles connexes, et à un classement plus précis des documents. Ainsi, selon les chercheurs la difficulté de cette tâche réside dans :
core/list
une compréhension plus profonde des relations sémantiques entre les termes ;
core/list
la prise en compte de la structuration du contenu, duquel un sens général est déjà censé se dégager ;
core/list
des problèmes techniques inhérents à l’algorithme.
core/heading
Transformers et mécanisme d’attention
core/paragraph
À l’instar de BERT, SMITH innove dans les modèles d'attention. Ce type de mécanisme permet de hiérarchiser les termes d’une phrase par analyse sémantique et syntaxique, en fonction du contexte.
core/paragraph
En effet, la machine déduit automatiquement le poids contextuel de chaque mot, sans en éliminer.
core/paragraph
Nous pourrions l’illustrer ainsi : “Le renard roux agile saute par-dessus le chien marron”. Ensuite, un transformer crée des embeddings : il trouve la probabilité du prochain mot après chaque terme analysé.
core/paragraph
En effet, il est plus probable de lire l’adjectif “roux” derrière le nom “renard” que d’y trouver le mot “cafetière”. Bien sûr, vu la quantité de mots existants, la tâche est extrêmement ardue !
core/paragraph
D’autre part, comme la lecture bidirectionnelle de BERT (de gauche à droite et vice versa), l’intérêt des tranformers pour SMITH est de traiter les mots du texte dans un ordre indépendant de sa linéarité initiale (un peu comme on décoderait du latin....)
core/heading
L’importance de la Préformation
core/paragraph
Grâce aux mécanismes d’attention et aux transformers, les modèles BERT et SMITH accèdent à une méthode dite de “pré-formation”. En résumé, il s’agit de former un algorithme à partir d’un ensemble de données. L’exercice typique de ce paramétrage consiste à masquer des mots aléatoirement dans une phrase.
core/paragraph
Ainsi, pour faire simple, dans “Le … roux agile saute par-dessus le chien marron”, la machine saura prédire le mot manquant “renard”.
core/paragraph
Mais l’apprentissage de SMITH va plus loin,qui doit lui faire saisir des relations sémantiques entre les termes d’un texte bien plus long, afin de prédire des blocs de phrases entiers !
core/paragraph
Ainsi, grâce à un tel “entraînement” ce modèle serait en mesure de traiter des documents de plus en plus volumineux.
core/heading
Google Smith : pour travailler de conserve avec BERT
core/paragraph
En principe, l’efficacité de SMITH ne devrait pas se substituer au succès encore récent de BERT en matière de Deep Learning.
core/paragraph
Comme évoqué un peu plus tôt, le Bidirectional Encoder Representations from Transformers avait déjà marqué un progrès notable dans la compréhension du langage naturel par la machine.
core/paragraph
Capable de parcourir un texte dans les deux sens, ce modèle embarquait déjà un transformer capable de lui indiquer les relations contextuelles entre tous les mots qui composent chaque phrase.
core/paragraph
Un encodeur se chargeait de saisir le sens d’un texte d’entrée, pour ensuite générer un décodeur spécifique à l’accomplissement de la tâche requise.
core/heading
Les impacts sur le moteur de recherche de Google
core/paragraph
Écrites ou orales, les requêtes, avec BERT, ont rapidement donné lieu à des réponses de plus en plus pertinentes. En effet, l’algorithme est conçu pour n’éliminer aucun mot, afin d’améliorer la précision de ses interprétations.
core/paragraph
En conséquence, les utilisateurs peuvent compter sur des natures de mots telles que les prépositions, afin d’expliciter les rapports de sens qu’il souhaite établir entre les autres mots plus importants.
core/paragraph
À certains égards, cela évite à BERT de commettre des contresens. À ce titre, prenons l’exemple le plus connu de Google : “2019 Brazil traveler to usa needs a visa”.
core/paragraph
En tenant compte de la préposition “to”, la SERP affiche des résultats destinés à un voyageur brésilien qui se rend aux États-Unis.
core/paragraph
Sans BERT, le moteur de recherche aurait ignoré le “to” pour donner en priorité des réponses adressées à un voyageur américain qui se déplace au Brésil.
core/heading
SMITH complète BERT pour les documents longs
core/paragraph
Ainsi, depuis novembre 2020, l’on sait que SMITH risque bientôt de prêter main-forte à BERT, grâce à son aisance d’analyse sur des volumes de contenus plus conséquents.
core/paragraph
Capable de comprendre le sens général d’un document en décomposant les axes sémantiques de ses parties, il devrait permettre de répondre à des requêtes plus longues, inédites et spontanées.
core/paragraph
À ce titre, la longueur maximale du texte d’entrée aurait quadruplé, passant de 512 à 2048 mots, comparativement à BERT.
core/heading
Déploiement de Google Smith : ce que ça change(rait) en SEO
core/paragraph
Actuellement, l’heure est aux spéculations pour savoir si SMITH est déjà implémenté parmi les algorithmes de Google. À titre de comparaison, un délai de près d’un an avait séparé le développement de BERT de son déploiement officiel.
core/paragraph
Malgré une annonce selon laquelle Google avait procédé à des mises à jour fin 2020, Danny Sullivan a déclaré sur Twitter le 13 janvier 2021 que cela ne concernait absolument pas SMITH.
core/paragraph
En outre, il semblerait que nous ne parlions encore que d’une version bêta du modèle à venir. Cela étant, la trame évolutive de Google semble claire.
core/paragraph
Nul besoin, donc, d’attendre la prochaine Core Algorithm Update pour adopter (ou renforcer) les bonnes pratiques.
core/heading
Exemple de BERT
core/paragraph
Pour revenir un peu sur le prédécesseur de SMITH, rappelons-nous que Google l’avait présenté comme la plus importante mise à jour depuis cinq ans, c’est-à-dire depuis Hummingbird.
core/paragraph
Dans son blog, Google estime à 10% le taux de résultats de recherches affectés par BERT. Déjà, l’on trouvait confirmation sur deux éléments à garder impérativement à l’esprit :
core/list
anticiper les intentions des utilisateurs lorsque l’on rédige sur un sujet, et répondre aux éventuelles questions ;
core/list
améliorer le réseau sémantique, en fournissant du contenu complet, maîtrisé et intelligible,
core/list
structurer l’information et augmenter la lisibilité
core/heading
Toujours réfléchir aux intentions des internautes
core/paragraph
Comme beaucoup de vérités, il s’agit d’une évidence que l’on oublie facilement. De nos jours, il ne suffit plus de parler convenablement d’un sujet pour trouver grâce aux yeux de Google.
core/paragraph
En effet, l’expertise n’est pas la pertinence : en règle générale, connaître un domaine ne suffit pas à résoudre un problème. De son côté, le moteur de recherche adopte de plus en plus le point de vue des internautes, à vous d’en faire de même !
core/paragraph
Catégoriser les requêtes est toujours un bon moyen d’y voir clair.
core/paragraph
L’utilisateur cherche-t-il une information ?
core/paragraph
Une transaction ?
core/paragraph
Un lieu où se rendre ?
core/paragraph
Selon le thème, la réponse doit-elle être développée ou présentée synthétiquement ?
core/heading
Sémantique et pertinence
core/paragraph
Ensuite, il existe des outils capables de vous aiguiller sur le lexique qu’on attendrait à voir apparaître en fonction des mots-clés qui représentent votre sujet. En vous appuyant sur cette liste de mots, vous pouvez mettre côte à côte des notions étroitement liées.
core/paragraph
Toutefois, la pertinence requiert que vous les mettiez explicitement en relation. Si un algorithme comme BERT sait désormais interpréter les prépositions, se contenter de jouer sur des nuages sémantiques tend à devenir proprement inefficace.
core/paragraph
De l’autre côté, mieux vaut éviter de tourner autour du pot, et employer relativement souvent les mots-clés qui cadrent votre sujet !
core/paragraph
Puisque le mécanisme d’attention soupèse l’importance des termes, vous aurez pour tâche de quadriller vos articles avec des mots stratégiques. Entre sémantique et pertinence, l’on voit bien qu’un équilibre est toujours à trouver.
core/heading
Lisibilité et structure
core/paragraph
Nous l’avons évoqué indirectement, mais ce critère mérite d’être pris en compte : les algorithmes utilisant le NLP ne sont pas parfaits.
core/paragraph
C’est d’ailleurs pour cette raison qu’ils font l’objet de mises à jour majeures et récurrentes. En conséquence, ils sont moins efficaces s’ils se heurtent à des textes peu lisibles.
core/paragraph
Il ne tient donc qu’à vous de structurer votre contenu avec des titres HTML (H1, H2, etc.) bien hiérarchisés et évocateurs du paragraphe auquel ils se rattachent.
core/paragraph
Appliquez le canevas : 1 paragraphe = 1 idée. C’est un peu plus de travail en amont, que d’établir un plan logique aux titres bien répartis, mais les avantages sont bien réels !
core/heading
Vos questions, nos réponses !
core/paragraph
Est-ce que Google utilise déjà l'algorithme SMITH ?
core/paragraph
Bien que les chercheurs semblent expliquer que ce nouvel algorithme surpasse les performances de BERT, les déclarations officielles infirment ce genre de rumeurs.
core/paragraph
Google SMITH en serait plutôt à la phase de prototype test, et nécessiterait des recherches supplémentaires, malgré la confiance qu’il inspire dans les articles qui lui sont dédiés.
core/heading
SMITH va-t-il remplacer BERT ?
core/paragraph
Ce n’est pas au programme. Il s’agirait plutôt de prendre le relai de BERT pour les tâches concernant spécifiquement les correspondances sémantiques entre des documents de longueur importante.
core/heading
En quoi consiste la préformation ?
core/paragraph
C’est une méthode destinée à former un algorithme à partir d’une base de données. On exerce la machine à prédire des termes ou des blocs de phrases manquants dans un extrait de texte. À terme, l’objectif est de limiter les erreurs à un niveau raisonnable.