Comment utiliser l'apprentissage automatique (si vous ne pouvez pas coder) pour aider votre …

J'ai déjà expliqué pourquoi la recherche par mots clés n'est pas morte. Un thème clé que je fais continuellement est que la catégorisation des mots clés est extrêmement importante afin d'être utile afin que vous puissiez optimiser vers des sujets et des clusters plutôt que des mots clés individuels.

Mes documents de recherche de mots clés dépassent souvent 20 à 50 000 mots clés qui sont normalement divisés en deux, trois ou parfois plus de catégories reflétant la taxonomie du site en question.

Comme vous pouvez le voir, j'ai classé les mots clés en 4 colonnes filtrables vous permettant de sélectionner un certain «sujet» et d'afficher le volume de recherche collectif pour une cohorte de mots clés. Ce que vous ne voyez pas, c'est qu'il y a plus de 8 000 mots clés.

Il y a quelques années, j'avais l'habitude de classer cela assez manuellement, en utilisant des formules simples où je pouvais. A pris des âges. J'ai donc créé un outil de catégorisation des mots clés pour m'aider. Il est construit à l'aide de php et reste assez rudimentaire, mais a accéléré le temps que je suis capable de faire de la recherche de mots clés et de le classer de quelques jours à 12-15 heures en fonction du nombre de mots clés.

Je suis un aspirant à une tendance. Donc, dès que tous les SEO ont commencé à crier à quel point Python est génial, bien sûr, je suis dans le train. Mon objectif est de rationaliser encore plus le processus de recherche de mots clés et j'aime apprendre un tel langage adaptable. Mais je suis tombé sur cette vidéo de David Sottimano où il a introduit BigML dans ma vie. Imaginez un service d'apprentissage automatique en ligne par «glisser-déposer»; un système littéralement n'importe qui peut utiliser. C'est BigML.

Je poursuis toujours mon objectif ultime de maîtriser Python, mais en attendant, BigML m'a fourni des informations très intéressantes qui ont déjà accéléré ma catégorisation des mots clés. Le but de cet article est de vous donner quelques idées sur l'utilisation des technologies (gratuites) déjà disponibles pour travailler plus intelligemment.

Une petite note avant de nous plonger, BigML est un outil freemium. Il y a des frais mensuels si vous souhaitez analyser beaucoup de données ou si vous souhaitez ajouter des fonctionnalités (comme plus d'une personne sur le compte à la fois). Cependant, pour obtenir les résultats de cet article, le niveau gratuit sera plus que suffisant. En fait, à moins que vous ne soyez un scientifique des données sérieux et que vous ayez besoin d'analyser BEAUCOUP de variables, le niveau gratuit vous suffira toujours.

Étape 1 – Obtention des données d'entraînement

Pour cet exemple, nous prétendons que nous effectuons une recherche par mots clés pour River Island – un grand détaillant de vêtements au Royaume-Uni pour tous mes amis de l'autre côté de l'étang. (Si vous lisez ceci et travaillez pour River Island, je ne ferai pas de recherche complète par mot clé.)

Si nous regardons la taxonomie du site de River Island, nous voyons ce qui suit:

Pour les besoins de ce guide, nous allons simplement effectuer une recherche par mot clé pour les hommes et nous concentrer sur ces quelques produits:

Imaginons que je souhaite regrouper mes mots clés dans les catégories et sous-catégories suivantes:

Hauts > Manteaux et vestes

> T-shirts et gilets

Bas > Jeans

> Pantalons et chino

Nous ferons d'abord le «bas».

Prenez l'URL «jeans» pour River Island et branchez-la dans SEMRush:

Filtrer par les 20 premiers mots clés et exporter:

J'ai choisi le top 20 parce que souvent, au-delà de cela, vous commencez à vous classer pour certains mots clés non pertinents et, parfois, assez étranges. Oui, River Island se classe au 58e rang pour ce mandat:

à lire :  Contacter mon travail à domicile | Créer son entreprise

Nous ne voulons pas que ces termes affectent notre modèle de formation.

Pour les «jeans», lorsque nous filtrons les mots clés dans les positions 1 à 20 et exportons, nous obtenons 900 mots clés impairs. Déposez-les dans une feuille de calcul et ajoutez les titres «catégorie 1» et «catégorie 2». Vous déposerez ensuite «bas» dans la catégorie 1 et «jeans» dans la catégorie 2 et remplissez:

C'est le début de vos «données d'entraînement» d'apprentissage automatique. Il y a probablement déjà suffisamment de données ici, mais j'aime être minutieux, donc je vais également saisir tous les mots clés d'une entreprise que je connais bien pour chaque mot clé basé sur les vêtements – ASOS.

Je vais répéter le processus pour leur page jeans:

Une fois que j'ai exporté les mots-clés de classement obtenus à partir de SEMRush, les ai ajoutés à ma feuille de calcul, j'ai supprimé les catégories et supprimé la liste. J'ai 1 300 mots-clés pour Bottoms> Jeans.

Je vais répéter le processus pour:

Bas> Pantalons et Chinos

Hauts> Manteaux et vestes

Hauts> T-shirts et gilets

Pour ces 3, je n'ai pas pris la peine de mettre le domaine River Island dans SEMRush car ASOS était classé pour tant de mots clés qu'il y aurait suffisamment de données pour mon modèle de formation.

Après une recherche et un remplacement rapides pour vous débarrasser des mots clés de marque:

Et une déduplication, il me reste près de 8 000 mots clés classés en «bas» et «hauts» au premier niveau, et «jeans» et «pantalons / chinos» au niveau secondaire.

Astuce – vous devrez peut-être utiliser la fonction de coupe pour vous débarrasser de tout espace après la recherche et le remplacement, sinon cette feuille se téléchargera avec des erreurs lorsque nous l'utilisons comme données d'entraînement:

Temps passé jusqu'à présent: 5 minutes

Vous continuerez bien sûr à le faire pour tous les produits River Islands et dans autant de catégories que nécessaire. Si vous faisiez des hommes et des femmes, ils seraient probablement la première catégorie. Vous auriez alors possiblement une quatrième catégorie qui décompose des choses comme les «vestes» en éléments comme les «vestes matelassées» et les «vestes en cuir».

Si vous avez du mal à visualiser les catégories dont vous pourriez avoir besoin, je rédigerai prochainement un article à ce sujet. Parfois, c'est juste du bon sens, mais il existe également un programme d'apprentissage automatique pour vous aider si vous en avez besoin:

Étape 2 – Formation de votre modèle d'apprentissage automatique

Cool – nous avons notre liste de 8 000 mots clés sans marque qui ont été classés en 5 minutes.

Enregistrez le fichier au format CSV, puis dirigez-vous vers BigML et enregistrez-vous. C'est gratuit.

Nous allons maintenant passer par les étapes incroyablement simples suivantes pour former le programme d'apprentissage automatique à la catégorisation des mots clés.

  • Dirigez-vous vers l'onglet sources et téléchargez vos données de formation:
  • Une fois qu'il est chargé, cliquez sur le fichier pour ouvrir les paramètres:
  • Cliquez sur «configurer la source de données» et assurez-vous que les catégories sont définies sur «catégoriques»:
  • Dans la plupart des cas, le reste des paramètres devrait être correct. Si vous souhaitez en savoir plus sur ce que font tous les paramètres, je vous recommande de regarder la chaîne YouTube éducative de BigML ici.

  • Fermez les paramètres «configurer la source» et cliquez sur le bouton «configurer l'ensemble de données». Désélectionnez ensuite «catégorie 2»:
  • Cliquez sur le bouton «créer un ensemble de données»:

    Bien que, avant de le faire, renommez le «nom de l'ensemble de données» en quelque chose comme ML Blog Data (Catégorie 1).

  • Sélectionnez votre nouvel ensemble de données dans l'onglet «ensembles de données»:
  • Il est désormais «tokenisé» tous vos mots clés. À partir d'ici, il y a tellement de modèles passionnants que vous pouvez former, mais pour les besoins de cet article, nous ferons le plus simple. Accédez au «modèle supervisé en un clic»:
  • à lire :  Le démarrage est toujours effrayant. Avalez fort et commencez quand même. Il'...

    Une fois l'informatique terminée, vous verrez un arbre de décision comme celui-ci:

    Encore une fois, je ne vais pas entrer dans tout ce que vous pouvez faire avec cela, mais ce qui est essentiellement fait, c'est de créer une série d'instructions if sur la base des données que vous lui avez fournies, qu'il utilisera pour déterminer la probabilité d'une catégorie .

    Par exemple, le cercle que j'ai survolé dans l'image est un chemin de décision avec les attributs suivants – si le mot-clé ne contient pas "jeans" ou "pantalon", il est susceptible d'être un "top" avec un score de confiance de 85,71. %.

    Vous pouvez réellement créer quelque chose appelé un «modèle d'ensemble» qui sera encore plus précis. Vous pouvez également diviser les données et exécuter un test contrôlé sur celles-ci afin de voir à quel point elles seront précises avant de les utiliser. Si vous souhaitez en savoir plus, contactez-moi ou lisez la documentation sur le site.

    Nous avons donc créé un modèle pour classer les mots clés dans la première catégorie. Nous devons maintenant faire de même pour la deuxième catégorie.

    Revenez à vos sources et sélectionnez à nouveau votre jeu de données de formation:

    Répétez les étapes ci-dessus, mais cette fois désélectionnez «catégorie 1» lorsque vous configurez votre jeu de données:

    Comme précédemment, créez un modèle supervisé en un clic:

    Voila – votre deuxième arbre de décision:

    Nous avons donc maintenant 2 modèles formés qui classeront vos mots clés en utilisant l'apprentissage automatique avec un degré de précision assez élevé.

    Temps passé jusqu'à présent: 10 minutes (peut-être une heure si vous avez fait toutes les catégories de produits sur le site Web de River Islands)

    Obtenir le reste de vos mots clés

    Nous avons uniquement formé un modèle pour couvrir 2 catégories et 4 sous-catégories. En supposant que vous l'ayez formé pour chaque produit sur le site Web de River Island (ce qui vous prendra probablement une heure ou deux maximum. Peut-être même demandez à un assistant virtuel de le faire pour vous et de vous lever), le reste de votre recherche de mots clés va être si facile.

    Tout ce que je vais faire maintenant est de brancher les domaines concurrents suivants dans SEMRush au niveau du domaine et d'exporter les mots-clés de classement de leur site entier (pour clarifier, je ne vais pas aller dans chaque dossier de produit comme je l'ai fait avec les données de formation) :

    https://www.superdry.com/https://www.topman.com/https://www.ralphlauren.co.uk/https://www.burton.co.uk/

    Et je pourrais continuer.

    Après avoir supprimé tous les mots clés de ces sites et supprimé les mots clés de marque, il me reste environ 100 000 mots clés non classés.

    Je peux également utiliser certaines techniques de recherche de mots clés standard telles que l'utilisation de mots de fusion et de planification de mots clés ou de l'explorateur de mots clés Ahrefs pour obtenir encore plus de suggestions de mots clés. La beauté est que nous n'avons pas à passer beaucoup de temps à nous assurer que les mots clés que nous exportons sont classés correctement. Nous pouvons littéralement simplement brancher des domaines et des mots clés de départ et exporter.

    Vous allez ensuite vider cette énorme liste, laide et non catégorisée dans des feuilles Google:

    Temps passé jusqu'à présent: 25 minutes (ou une heure et 25 minutes si vous avez obtenu toutes les catégories de produits sur le site Web de River Islands)

    Utilisation de l'API BigML pour classer vos mots clés

    Obtenez l'addon BigML sur les feuilles Google:

    Vous devrez saisir votre nom d'utilisateur et votre clé API, mais vous les trouverez facilement dans votre tableau de bord et vos paramètres BigML.

    Maintenant, le plaisir commence.

  • Mettez en surbrillance le tableau qui doit être classé et sélectionnez le modèle que vous avez formé que vous souhaitez utiliser. Dans ce cas, j'utilise la catégorie 1 (pour le moment, je pense que nous ne pouvons faire qu'une seule catégorie à la fois. Je n'ai pas compris comment les deux, c'est pourquoi nous avons formé deux modèles différents):
  • à lire :  50 meilleures idées de petites entreprises réussies au Royaume-Uni pour 2020

    Ensuite, cliquez sur «prédire» et laissez-le aller:

    Cela peut prendre un certain temps en fonction du nombre de mots-clés que vous possédez, mais au moins vous pouvez effectuer d'autres tâches. Vous remarquerez que cela donne également un score de probabilité. J'ai tendance à filtrer pour moins de 50% et à les supprimer. J'ai 100 000 mots-clés, je ne manquerai pas quelques-uns.

  • Ensuite, nous faisons une copie de la feuille, supprimons les deux colonnes et faisons exactement la même chose pour la catégorie 2:
  • Une fois que nous avons les deux catégorisations et que nous avons supprimé les mots clés qui ont un «score de confiance» faible, il vous suffit d'effacer la mise en forme, puis d'exécuter une recherche pour les regrouper:
  • Exécutez autant de catégories que vous le souhaitez, puis récupérez toutes les autres données importantes pour votre document de recherche de mots clés finalisé:

    Quelques notes finales

    Nous l'avons donc – un moyen facile de classer 100 000 mots clés en moins de quelques heures de temps de travail réel (je veux dire que vous devrez attendre que le ML passe en revue les mots clés un par un, mais vous ne le ferez pas travailler).

  • Je n'ai pas encore trouvé un moyen de faire les deux en même temps, mais j'imagine qu'il y a un moyen de le faire.
  • Le modèle que nous avons utilisé n'est pas aussi précis que certaines des autres options du moteur. Par exemple, l'utilisation d'un modèle d'ensemble donnerait de meilleurs résultats, surtout si le modèle d'apprentissage était plus petit, mais il est légèrement plus compliqué à configurer.
  • Vous pouvez également utiliser le moteur pour découvrir des catégories et des sujets étroitement liés. Mais c'est pour un autre post.
  • C'est assez basique, mais étonnamment puissant et une très belle introduction à l'apprentissage automatique. S'amuser!

    Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement Search Engine Land. Les auteurs sont listés ici.

    A propos de l'auteur

    Andy Chadwick est un consultant en marketing numérique, spécialisé dans le référencement mais couvrant également les services PPC avec sa société digitalquokka. Il est principalement connu pour son approche unique de la recherche de mots clés, ayant développé ses propres outils pour faciliter le processus de catégorisation des mots clés. Andy a commencé à enseigner lui-même le référencement en 2013 lorsqu'il a cofondé une entreprise qui a rapporté plus de 2,5 millions de livres sterling au cours de sa troisième année. Depuis qu'il a quitté l'entreprise en 2018, il a consulté et aidé d'autres start-ups, ainsi que des organisations internationales dans leurs stratégies de marketing numérique.

    Comment utiliser l'apprentissage automatique (si vous ne pouvez pas coder) pour aider votre …
    4.9 (98%) 32 votes
     

    Julien