Récupérer des centaines d’emails de prospects en scrappant des annuaires

5 min
B2B
Acquisition
Canal :
Google
Levier :
Automation
Recherchez des sites d’annuaires sur Google avec les infos de votre cible (Nom, Email, Tél) et installez l’extension de scrapping Webscrapper.io. Par exemple : “liste agence communication” ou encore “annuaire écoles primaire”.
Paramétrez l’outil afin qu’il puisse récupérer toutes les informations dont vous avez besoin de manière automatique.
Lancez le scrapping automatisé et récupérez toutes les informations dans un fichier spreadsheet.
Validez l’authenticité des infos avec l’outil Dropcontact avant de lancer une campagne d’email.
📣 Ce tuto a été écrit avec la collaboration de

Simon Ravelo

Étape 1

Rechercher des sites d’annuaires et installer un outil de scrapping

👉 Lancez-vous dans la recherche de sites d’annuaires sur Google.

Pour trouver des sites référençant des centaines d’emails , on vous conseille de faire ce type de recherches sur Google :

  • annuaire + mot clé
  • liste + mot clé

Exemple : voici un site regroupant plus de 50 000 adresses emails d’écoles primaires, trouvé en tapant “annuaire école” sur Google.

D’autres exemples :

Pour l’outil de scrapping, on vous conseille Webscrapper.io qui est très complet et relativement facile à prendre en main.

👉 Téléchargez l’extension chrome Webscraper en quelques clics :

Dans ce tuto, on vous a fait une démo avec un annuaire qui regroupe des infos sur plus de 300 agences digitales : https://www.lafabriquedunet.fr/agences-web/

L’annuaire liste les agences sur 34 pages. Chaque agence a une page unique avec son nom et son email. Ce sont ces informations que nous allons récupérer.

Cela prendrait des heures à entrer et sortir de chaque page tout en copiant les infos à la main.

Mais est-ce qu’on a le temps ?

Nous vous conseillons de reproduire la démo en même temps, c’est le meilleur moyen pour bien comprendre le fonctionnement de l’outil et de reproduire l’automatisation sur des sites qui vous intéressent.

Vous avez un annuaire et l’extension installée.

Étape 2

Paramétrer Webscraper.io pour automatiser la récupération des données

👉 Commencez par faire un clic droit sur la première page du site référençant les entreprises afin de l’inspecter (cela permet d’ouvrir un panneau de commande pour comprendre comment est structuré le site).

Dans notre cas, nous sommes sur la page 1 de l’annuaire d’agences digitales :

👉 Cliquez sur l’onglet Webscraper à droite dans le menu du module (le panneau pourrait s’ouvrir à droit de votre écran et non en bas, mais ça revient au même), puis cliquez sur “Create a new sitemap” :

Créer un sitemap permet à l’outil de comprendre l’architecture et le fonctionnement du site afin de pouvoir aller s’y balader sereinement.

👉 Donnez un nom et une URL cible à votre Sitemap sur Webscraper afin de valider sa création.

Pour le nom, c’est à votre guise.

Pour l’URL, il faut regarder comment l’URL évolue sur le site de la première page de l’annuaire à la dernière. L’idée est donc de cliquer sur plusieurs pages afin de comprendre comment l’URL est structuré.

Quand on clique sur la page 2 et la page 34 (la dernière) de l’annuaire, on découvre que l’URL fonctionne toujours de la même manière :

Vous pouvez alors finaliser la création de votre Sitemap en ajoutant :

  • Le nom de votre choix
  • L’URL de l’annuaire + “[1-34]” à la fin pour que l’outil comprenne bien qu’il doit aller de la première à la dernière page.

N.B. Si l’URL était structuré autrement, par exemple :  

Il n’y a pas toujours de processus exact avec le scrapping. Le principal est de comprendre comment fonctionne l’outil et de faire des tests en utilisant les différentes fonctionnalités jusqu’à obtenir le résultat souhaité.

👉 Une fois le sitemap créé, ajoutez une première action à automatiser => “Add a new selector”  :

L’objectif dans un premier temps est de demander à l’outil de cliquer sur chaque page agence de l’annuaire.

👉 Suivez ces 4 étapes :

1) ID : choisissez un nom, cela peut être le nom des éléments sur lesquels vous souhaitez cliquer.  Dans notre exemple “agenceweb”.

2) Type : choisissez link, puisque le robot va devoir cliquer sur chaque lien qui redirige vers chaque page agence. (“Link” est une commande qui commande au robot de cliquer)

3) Selector : Cliquez sur select et cochez “Multiple”. Ensuite, cliquez sur chaque nom d’agence sur la page web. Au bout de 2 agences  sélectionnées le robot aura appris à reconnaître où se trouve nom de l’agence dans la page web de l’annuaire et sera capable de trouver les autres tout seul..

4) Le robot a alors compris qu’il devra cliquer  (puisqu’on lui a indiqué la commande Link) et donc rentrer sur chaque fiche de l’annuaire. Vous pouvez sauvegarder ce selector.

Vous avez donc votre première automatisation de programmée. Comme vous avez pu le voir, cela fonctionne un peu comme du machine learning. Vous commencez par montrer au robot comment faire avec quelques actions, puis il reproduit tout seul à l’infini.

Mais ne nous emballons pas, il y a encore un peu de boulot :).

👉 Cliquez sur le selector que vous venez de créer en cliquant sur son ID (agenceweb) afin de rentrer dedans (cf screenshot ci-dessus).

Nous allons ajouter deux nouvelles actions à automatiser sur chaque fiche d’annuaire.

  1. La première sera de récupérer le nom de l’agence.
  2. La deuxième sera de récupérer l’email de l’agence.

Commençons par la première, pour cela il faut cliquer sur “Add new selector” :

Rappel : à ce moment vous êtes à l’intérieur du premier selector créé afin de rentrer dans chaque fiche.

En gros ça donnera ça : Selector ID Agence => Selector ID Nom + Selector ID Email

👉 Cliquez sur la première fiche de l’annuaire du site. Vous devriez voir ça :

Allez, c’est parti pour automatiser la récupération du nom :

1) ID : choisissez un nom, personnellement nous notons les infos que nous souhaitons récupérer, dans ce cas : “Nom”

2) Type : choisissez text, puisque le robot va devoir récupérer du texte.

3) Selector : Cliquez sur “select”, puis cliquez sur le nom de l’agence (Cette fois-ci, on clique une seule fois pour ne récupérer qu’un type d’info, ici le nom de l’agence, et éviter de tout mélanger dans le tableau de données que l’on récupérera à la fin. On créera donc un deuxième selector pour récupérer l’adresse email).

4) Cliquez sur “Done selecting” (le bouton bleu juste au dessus du module).

Un élément devrait alors apparaître à droite de “Data preview” dans la console :

👉 Cliquez sur “Data preview” pour vous assurer du format que vous allez récupérer :

5) Le robot a compris qu’il devrait récupérer cette info sur chaque page, vous pouvez sauvegarder le selector.

Boom, si vous lanciez le Scrapping tout de suite, vous récupéreriez les 330 noms d’agences dans un fichier csv.

Mais on ne va pas s’arrêter là, on va aussi récupérer les emails !

👉 Pour cela, revenez à l’intérieur du selector avec l’ID Agenceweb, comme précédemment, et ajoutez-en un deuxième :

C’est parti :

1) ID : email

2) Type : choisissez text, puisqu’on commande au robot de récupérer du texte.

3) Selector : Cliquez sur “select”, puis cliquez sur l’adresse email sur la page.

4) Cliquez sur done selecting puis sauvegardez le selector.

Vous êtes encore là ?

Wouah vous êtes motivés !

Mais c’est top, parce que vous avez fait le plus compliqué !

Scrapping prêt pour le décollage.

Étape 3

Lancer le scrapping pour récupérer toutes les données

Jusqu’à présent, vous avez automatisé un paquet d’actions :

  1. Le robot va aller sur chacune des 34 pages
  2. Il va cliquer sur les 330 pages d’agences
  3. Il va récupérer le nom de l’agence
  4. Et il va récupérer l’email de l’agence

Vous pourriez récupérez d’autres infos en ajoutant d’autres selectors, mais l’objectif est de vous transmettre le fonctionnement.

Alors il est temps de lancer la machine !

👉 Sélectionnez “Scrape” :

👉 Cliquez sur “Start scraping” :

Nous vous conseillons de garder ces délais entre chaque action, l’outil sait ce qu’il fait :).

✅ À partir de ce moment, une popup va s’ouvrir et le robot va enchaîner les actions.

Il devrait prendre à peu près 20 min pour tout récupérer.

Quand il a terminé, la popup se ferme, vous savez donc que vous pouvez télécharger le fichier csv.

En cliquant sur “Refresh Data”, vous pourrez avoir un aperçu des données récupérées.

👉 Cliquez sur “Export Data as CSV” pour les télécharger  :

👉 Cliquez sur “Download” pour finaliser le téléchargement et admirez le résultat


Et voilà, vous avez une liste de brute de 300 prospects.

Il reste une dernière étape à checker avant de les contacter.

Étape 4

Valider la qualité de sa liste de contacts avec Dropcontact

👉 Déposez votre fichier CSV sur l’outil Dropcontact.

Attendez une vingtaine de minutes, et vous recevrez un nouveau fichier CSV enrichi avec de nouvelles données : emails, numéro de tel, prénom, nom.

Et surtout, l’outil valide chaque email : dans notre cas, cela fait passer notre liste d’emails de 300 à 130.

C’est parfait pour maximiser votre taux d’ouverture, la pertinence de votre approche et d’éviter d’endommager la réputation de votre adresse email.

Votre liste d'emails est prête à être contactée.

BONUS

À vous de jouer ! :)
Pierre & Mégane, fondateurs de Marketing Flow