Les secrets de l’algorithme Google: ce que nous apprennent les « Google Leaks »

Facebook
Twitter
LinkedIn

Il y a eu une fuite majeure de documentation sur l’algorithme de Google, les « Google Leaks« . Cela aura-t-il un gros impact pour les SEOs ?

    1. Contexte et révélation des fuites
    2. Quelques leçons et ce qu’en dit Google
    3. Les plus grosses découvertes des « Google Leaks » à notre sens ?
    4. Impact des données de trafic sur le classement sur Google
    5. Content is king ? Hell yeah !
    6. Les liens (internes ou externes) sont toujours le moteur dont votre site a besoin
    7. Quelles sont les informations réellement surprenantes ?
    8. Que changer à ses pratiques SEO à la vue de ces révélations ?
    9. Quel impact ont ces « Google Leaks » ? Que changer sur son site ?
    10. Conclusion : garder le cap et tester, tester, tester

 

Le 27 mai, Rand Fishkin (créateur de Spark Toro et l’un des fondateurs de Moz) a révélé avoir reçu 2569 documents qui ont fuité de chez Google. Il s’agit de documentation interne sur les algorithmes de classement du moteur de recherche le plus utilisé au monde, contredisant certaines des déclarations publiques de Google. Ces documents offrent une vue intéressante sur les mécanismes internes de Google, confirmant certaines des théories de longue date, déjà éprouvées à force de tests empiriques par de nombreux experts SEO mais ils en démystifient d’autres. Notre article vise à décrire les principales leçons à tirer de cette fuite et à fournir des conseils pratiques pour ajuster vos stratégies SEO en conséquence. Attention cependant, il s’agit d’analyser ce que l’on sait à ce stade tout en ayant conscience que nous manquons d’informations cruciales au sujet de ces documents, tels que la pondération de chacun des facteurs expliqués ici ou simplement l’utilisation par Google de ces facteurs pour ses rankings.

Contexte et révélation des fuites

En mai 2024, une erreur dans la gestion des API de Google a conduit à la publication accidentelle de documentation interne. Cette fuite a rapidement été corrigée par Google, mais pas avant que des experts SEO ne s’emparent des informations révélées (Rand Fishkin et Mike King). Cette fuite comprend des détails sur les microservices internes de Google, utilisés pour traiter et classer le contenu sur les pages de résultats de recherche (SERP).

Les documents divulgués comprennent des descriptions de plus de 14 000 attributs (ou fonctionnalités) utilisés par Google pour évaluer et classer le contenu. Ces attributs couvrent une variété de signaux, allant de la qualité du contenu et des liens aux interactions des utilisateurs. Bien que nous n’ayons pas accès aux fonctions de scoring exactes, ces informations offrent une compréhension approfondie des éléments pris en compte par Google pour déterminer les classements. Malgré tout, c’est à prendre avec des pincettes, car nous ne savons pas (encore) la pondération de chacun de ces critères, mais le fait de savoir qu’ils existent, offre déjà un axe très intéressant d’analyse.

Quelques leçons et ce qu’en dit Google

Les documents révèlent que Google utilise plus de 8000 attributs pour évaluer les pages. On parle de plus de 14 000 attributs révélés dans ces documents mais en soi, selon un décompte de Mike King, un peu moins de 8000 concernent la fonction « Search de Google ». Les autres étant dévolus à Maps, YouTube, Google Cloud, etc. Nombre de ces attributs sont bien connus, comme les signaux de qualité du contenu, les backlinks et l’interaction des utilisateurs, mais certains sont plus surprenants, comme la taille des polices des termes et des liens.

Qu’a dit Google de la fuite ? Les porte-paroles du moteur de recherche expliquent qu’il « ne faudrait pas faire d’hypothèses erronées sur base de documents sortis de leur contexte, d’informations incomplètes ou plus à jour. » Sauf que pas de chance, les informations sorties par ce leak semblent recouper celles diffusées lors d’un procès qui a eu lieu contre Google et lors duquel le Département de la Justice américain a eu accès à des informations qui ont ensuite été publiées dans la presse, dans le très respectable Wall Street Journal, notamment. On peut donc en déduire qu’elles sont en effet pertinentes, à jour et fort intéressantes à analyser pour tous les SEO de la planète.

Les plus grosses découvertes des « Google Leaks » à notre sens ?

Oui, Google ne dit par la vérité et semble contredit par ces leaks. Plusieurs déclarations publiques de Google ont été contredites par ces documents Sur quels points ?

  • Autorité de domaine (Domain Authority) : Malgré les démentis de Google, les documents confirment l’existence d’un attribut « siteAuthority » utilisé dans le système de classement. Non, ce n’est pas le « DA » de Moz ou SEMRush que Google utilise pour autant, mais il détermine une autorité au niveau du domaine. Les nouvelles pages des sites avec une forte autorité ont donc moins de mal à rapidement générer des clics.
  • Utilisation des clics pour les classements : Les systèmes NavBoost et Glue montrent que Google utilise bien les clics et les données de comportement post-clic pour ajuster les classements. Feu le « bounce rate », les conversions et le temps passé sur une page sont donc utilisés pour déterminer la pertinence d’une page en fonction de la requête ayant mené à un clic sur celle-ci. Une confirmation de plus que ce n’est pas que le CTR (Click-Through-Rate) qui compte ici.
  • « Sandboxing » des nouveaux sites : Un attribut « hostAge » semble confirmer que Google applique un « sandboxing » pour les nouveaux sites suspects de spam. Il existe donc potentiellement une prime à l’ancienneté d’un site, plus facilement reconnu comme « fiable », là où un nouveau site doit encore faire ses preuves et mettre donc naturellement plus longtemps à être positionné favorablement sur Google.
  • Utilisation des données Chrome : Contrairement aux affirmations de Google, des données de navigation au sein de Chrome semblent être utilisées pour évaluer la qualité des pages et des sites.

Impact des données de trafic sur le classement sur Google

Depuis ce fameux procès impliquant Google et le département de la justice américain (évoqué précédemment), nous savions que les données de trafic, représentaient probablement le plus gros facteur affectant le ranking en termes de référencement. C’est-à-dire que les données de navigation d’une page ou d’un site, sont considérés comme préponderants dans le ranking que Google attribuera à un site. Meilleur son trafic (en quantité et en qualité), meilleur sera son classement dans les résultats Google. Un point que Google a longtemps nié, contre toute évidence.

Le nom de ce facteur de positionnement ? NavBoost. Probablement le facteur le plus important de tous. On y reviendra.

Comme expliqué par Rand Fishkin, le point intéressant est qu’il semblerait que le navigateur Chrome ait principalement été créé à ces fins, pour avoir une meilleure vue et compréhension de la navigation des internautes dans l’écosystème Google (via le Search, mais pas uniquement, nous y reviendrons). On peut assez logiquement penser que cette source de data pour Google peut aussi s’étendre aux appareils Android. Utiles d’un point de vue business en tant que tel mais véritable mine d’informations en ce qui concerne les habitudes de navigation des internautes.

Ce point soulève une autre question, intrinsèquement liée. Si le trafic sur Google Chrome est considéré pour les rankings, est-ce que cela signifie que les « clics payants » peuvent booster votre visibilité et votre trafic ? C’est un débat qui parcourt la communauté SEO depuis de nombreuses années, dans quelle mesure une page vers laquelle vous faites de la publicité payante (de l’online Ads ou SEA), bénéficiera d’un boost pour son référencement naturel également ? Beaucoup estiment que c’est le cas et qu’ils ont vu leurs performances organiques progresser après avoir lancé des campagnes en Ads sur certaines pages.

Dans son article, Rand Fishkin soulève l’hypothèse qu’un contenu qui est visible via de l’Ads et qui ensuite est partagé via les réseaux sociaux, envoyé par email (Gmail) ou simplement ajouté aux favoris (le tout dans l’écosystème Google), pourrait impacter (positivement) le référencement d’un article ou d’une page. Sans certitude aucune encore une fois mais c’est une hypothèse intéressante et nouvelle. C’est tout à fait dans les cordes (techniquement) pour Google.

Content is king ? Hell yeah !

Concernant maintenant le contenu et la qualité de celui-ci, on apprend que Google a un paramètre appelé « siteFocusScore », qui évalue à quel point votre site se concentre sur un sujet spécifique. Vous avez un site de voyage proposant des trips ou des excursions, ne succombez pas à la tentation d’écrire des contenus pouvant générer des clics sur les dernières tendances crypto ou les meilleurs modèles de barbecue pour l’été. Google se servirait en effet d’un « siteRadius » pour mesurer à quel point votre contenu « dévie » de la thématique centrale de votre site. Et chaque nouveau contenu sera jugé à cette aune. Le SiteFocusScore et le SiteRadius mesurent respectivement la concentration thématique d’un site et la déviation des pages par rapport à cette concentration. Optimiser les pages pour maximiser les scores de focalisation thématique est crucial.

Importance de la qualité et de la mise à jour du contenu

Ainsi, gare à la tentation de créer du contenu nombreux mais peu qualitatif. Les documents nous montrent que Google a un paramètre d’évaluation appelé « lowQuality », qu’il attribue selon ses critères. On peut donc penser que si une page de faible qualité renvoie à d’autres pages, celle-ci peut entacher les autres pages par association.

Dans le même ordre d’idée Google utilise le PageQuality pour estimer l’ « effort » qu’a nécessité la création de pages / d’articles. Il détermine ainsi si une page peut être facilement reproduite ou non. Les outils, images, vidéos, informations uniques, et la profondeur de l’information contribuent à un score élevé d’effort.

Il est aussi fait mention d’un « keywordStuffingScore », qui, comme son nom l’indique, cherche à débusquer et limiter le « keyword stuffing » (bourrage de mots-clés, en français), qui est l’usage abusif d’un mot-clé dans son contenu. Rien de nouveau en soi mais une confirmation que cette pratique doit être proscrite.

On apprend aussi que Google considère la mise à jour régulière du contenu comme importante pour son évaluation de la qualité de celui-ci. Si vous avez du contenu pertinent à un moment T mais que vous le laissez dépérir, cela peut naturellement être négatif car votre contenu peut perdre en pertinence au fil du temps, mais ici Google nous montre qu’il tendra à favoriser le contenu mis à jour régulièrement. Plutôt que de toujours favoriser la création de nouveau contenu, penchez vous donc sur votre contenu moins récent mais nécessitant une mise à jour. Votre trafic vous remerciera.

Évaluation du nouveau contenu par rapport à l’ancien

Il semble également que Google va baser son évaluation de votre nouveau contenu, sur base de l’ancien. Il détermine une note à l’échelle de votre site pour le contenu au global considèrera le nouveau en fonction. Il sera donc plus facilement visible si le contenu global est considéré comme « qualitatif ». Mais cela signifie aussi qu’il faut faire attention à maintenir une qualité dans son contenu de façon constante et régulière.

On se répète un peu sur ce point, mais le contenu ayant été uploade sur votre site depuis un moment, ayant des liens internes pointant vers celui-ci et ne générant pas de clics ou trop peu, doit être considéré comme un canard boiteux. Soit il faut l’améliorer et le revoir de fond en comble, soit il faut simplement l’éliminer, les liens internes depuis ces pages semblant n’apporter aucune valeur ajoutée au reste du site et aux pages vers lesquelles il pointe.

Il existe dans les articles de Michael King, mais aussi d’autres experts ayant parcouru les documents, des mentions nombreuses aux liens internes et à l’éclairage que ces leaks apportent sur la façon dont Google les interprète. Premièrement, il est fait mention d’un « phraseAnchorSpamPenalty », qui signifie que Google donne un score spécifique à l’ancre texte utilisée pour ajouter un hyperlien, et que si celui-ci est considéré comme « spammy », son importance sera minimisée. Par exemple, les liens dont le texte d’ancre ne correspond pas au contenu de la page cible sont pénalisés. Les « cliquez ici », « découvrez en plus » sont donc à proscrire (rien de nouveau sous le soleil, encore une fois).

On apprend aussi que pour les liens internes ou externes, Google classe les liens d’un site à trois niveaux : de faible qualité, de qualité moyenne et de qualité élevée. Il se base sur le trafic de ces pages pour déterminer le PageRank (l’autorité) qu’ils vont diffuser via leurs liens internes. S’ils sont de mauvaise qualité, ils seront ignorés et ne passeront pas d’autorité.

Les informations concernant le contenu et la qualité de celui-ci selon Google est aussi important pour les liens. Ainsi, la valeur des liens est influencée par la qualité de la page source et la fréquence de mise à jour de son contenu. Les liens provenant de pages de haute qualité ou fraîchement indexées ont plus de valeur que des pages plus anciennes ou peu qualitatives. Il semblerait que les liens provenant de nouveaux articles soient plus valorisés que les liens provenant de pages plus anciennes. Les pages plus récentes auraient ainsi un multiplicateur de valeur, alors que les pages plus anciennes dépendent davantage du trafic ou des liens internes pour leur valeur.

Quelles sont les informations réellement surprenantes ?

Beaucoup de ces informations ne sont en soi pas une surprise mais plutôt une confirmation. Une confirmation bienvenue clairement. Il existe cependant quelques nouveautés, des points pas forcément attendus.

Limitation par types de site dans la SERP

Google limite le type de site apparaissant dans les pages de résultats. Par requête, il peut ainsi décider de limiter le nombre de résultats provenant de contenus de blogs ou de petits sites personnels afin d’en favoriser un autre type, et ce selon les requêtes. La même logique s’applique aussi aux sites de type « commercial », Google peut en limiter la proportion selon la requête. Google classe ainsi les sites par type et cela impactera la visibilité sur certaines requêtes. On a récemment perçu une diminution des petits sites (de type affiliation par exemple) au profit de gros sites e-commerce (comme Amazon), on peut penser que c’est voulu par Google et mis en musique via son algorithme. D’autant plus que l’on sait maintenant que Google a une classification pour les pages de type commerciales « commercialScore » et qu’il évaluera son contenu en fonction.

Impact des mentions d’entités sur le classement

Une grosse nouveauté, relevée par Rand Fishkin et Michael King, est l’apparition dans les leaks de la mention d’entités. Une entité signifie le fait d’apparaître sur le web par la mention de son nom. Par exemple, imaginons que lors de la sortie de cet article, cela soit repris par d’autres sites avec de la visibilité (imaginons, on a le droit de se prendre à rêver), le fait d’être mentionné est pris en considération par Google pour potentiellement améliorer la visibilité d’Universem (et de son site) sur le web. Sans même avoir de backlink pointant vers le site en question. Cet impact a (souvent) été sous-estimé dans les stratégies de référencement et constitue une nouveauté (si confirmée).

On ne connaît bien sûr pas dans quelle mesure cet impact est négligeable ou pas, mais c’est sans aucun doute un point très intéressant de ces révélations. Comment utiliser cette information au niveau de votre site ? Si votre contenu est rédigé par un auteur, ayant une reconnaissance certaine, étant cité par d’autres sources ou sur d’autres plateformes (journaux, blogs, etc), le contenu qu’il écrit pour votre site peut vous permettre d’avoir une encore plus grande visibilité. (on reviendra sur les « auteurs » et sur leur importance pour la visibilité).

Importance des titles des pages pour l’ensemble du site

Les titles des pages, qui jusque-là semblaient (fort logiquement), n’avoir un impact que pour les pages auxquelles ils étaient reliés, semblent avoir un impact qui concerne le site dans son entièreté. Piste à creuser encore une fois, lorsque l’on disposera de plus de détails.

Que changer à ses pratiques SEO à la vue de ces révélations ?

On ne va pas se mentir, la plupart de ces leaks ont avant tout confirmé ce que beaucoup d’entre nous pensaient déjà. L’importance du trafic (et de la qualité de celui-ci) pour déterminer l’autorité d’un lien ou d’un site, l’importance des backlinks, le boost venant potentiellement des campagnes Google Ads, l’impact des « auteurs » pour le contenu. Rien de nouveau sous le soleil, mais des confirmations. Attention cependant au fait que bien que passionnantes pour les SEO, ces fuites ne nous donnent pas d’informations sur : la pondération de chacun de ces paramètres ou leur application concrète par Google. Nous savons donc que ce sont des paramètres utilisés pour qualifier du contenu, des liens, etc, pas nécessairement si c’est utilisé pour le ranking à proprement parler. Attention donc à ne pas tirer de conclusions hâtives.

Cependant, il est quand même possible de se sentir conforté dans certaines stratégies ou recommandations à même d’améliorer le référencement.

Quel impact ont ces « Google Leaks » ? Que changer sur son site ?

Pas besoin de tout changer sur son site ou à son approche du SEO, bien sûr, pas de panique. Mais au vu des premières informations, on voit qu’il y a des « best practices » à mettre en place sur son site ou dans sa pratique du SEO :

Améliorez les synergies entre le SEO et l’UX de votre site. Vu l’importance du NavBoost pour le classement de ranking de Google, il est important que le trafic qui arrive sur votre site soit qualifié. Si les personnes arrivant sur votre site ne sont pas du trafic de qualité, votre page apparaître tout simplement de moins en moins dans les résultats de recherche. La qualification de trafic qualifié va dépendre de l’objectif de votre contenu. Ça peut être de générer des transactions si vous avez un e-commerce ou que l’utilisateur quitte votre site après 5 minutes et avoir trouvé l’information qu’il cherchait.

Partagez votre contenu. Que ce soit un article de blog ou une page spécifique de votre site, la partager via une Newsletter, pourrait potentiellement aussi impacter votre visibilité, à prendre en compte et toujours penser que le référencement ne se fait pas uniquement sur Google mais aussi via d’autres écosystèmes (newsletters, réseaux sociaux, etc).

Favorisez les liens internes depuis des pages à fort trafic. Il semble que Google ignore ou ne considère pas les liens depuis des pages ne générant pas de clics, ou très peu. Dans ce cas, la nécessité de trier son contenu régulièrement pour améliorer son maillage interne, « sculpter » son PageRank, semble une nécessité encore plus forte. Faire un tri dans les pages « mortes » ou n’apportant aucune valeur ajoutée pour soit les améliorer, soit les supprimer (en les redirigeant), semble une stratégie d’autant plus pertinente.

Mettez l’accent sur des backlinks de qualité. Créez des backlinks moins nombreux mais provenant de sites de qualité (venant de sites qui génèrent du trafic et disposant d’une autorité forte) et dans votre domaine. Ils auront plus d’impact que de nombreux backlinks peu qualitatifs.

Prenez en compte l’impact des données de Chrome et optimisez les clics au sein de ce navigateur. Il semble que les données de navigation de Chrome aient une influence significative sur les classements de recherche. Favorisez donc les clics au sein de l’écosystème Google : créez des newsletters et des contenus qui encouragent les clics, et les partages, aussi sur les réseaux sociaux.

Pensez « Auteurs » pour votre contenu. Favorisez l’appel à des auteurs expérimentés et avec des références solides. Concentrez-vous sur la production d’un contenu de haute qualité et attrayant. Pensez aussi à créer des pages « auteurs » pour ceux-ci, le plus ils sont reconnus dans leur domaine, plus votre contenu aura d’impact

Optimisez les titres de vos pages à l’échelle de votre site. Veillez à ce que les titres des pages soient optimisés, car ils ont une incidence sur le classement de l’ensemble du site, et pas que de la page en question.

Tentez d’améliorer le nombre de mentions de votre marque ou de votre site. Exploitez les mentions en tant que signaux de classement potentiels. Profitez de campagnes de PR, si vous avez l’occasion d’être cité dans la presse ou sur des sites informatifs, cela aura potentiellement un gros impact, même sans lien vers votre site. Google associera le nom de votre marque (ou de l’auteur sur votre site) et cela peut avoir un impact positif pour vous.

Conclusion : garder le cap et tester, tester, tester

Les révélations de ces documents confirment de nombreux critères à penser pour le SEO que nous soupçonnions depuis longtemps, tout en fournissant de nouvelles perspectives sur la manière dont Google classe réellement les pages. Pour tirer parti de ces informations, il est essentiel de continuer à créer du contenu de haute qualité, pertinent et bien promu, tout en restant à l’affût des nouvelles pratiques et mises à jour de l’algorithme de Google.

Nous, professionnels du SEO devons continuer à tester, apprendre et adapter nos stratégies pour maintenir et améliorer les classements dans les résultats de recherche de Google de nos clients. Ces fuites montrent que, malgré les complexités et les mystères entourant l’algorithme de Google, les principes fondamentaux du SEO restent pertinents : comprendre votre audience, produire le meilleur contenu possible, le rendre techniquement accessible et le promouvoir activement.

En fin de compte, les efforts soutenus et bien dirigés en SEO porteront toujours leurs fruits. Continuez à tester, à innover et à optimiser pour rester en tête dans cet environnement en constante évolution.