Collecte des données

A) France Travail (API)

Objectif

Collecter des offres d’emploi de manière reproductible via l’API officielle de France Travail, en s’appuyant sur des requêtes paramétrables et un mécanisme d’authentification sécurisé.

Principe

Authentification via OAuth2 (client_credentials) avec récupération dynamique d’un access token à partir des variables d’environnement.
Appels HTTP vers l’endpoint de recherche d’offres, avec paramètres contrôlés : mots-clés, localisation, type de contrat.
Pagination explicite via le paramètre range afin d’itérer sur l’ensemble des résultats.
Limitation volontaire du nombre d’offres collectées (max_results) pour maîtriser le volume et le temps d’exécution.
Temporisation entre les requêtes (sleep) pour respecter les quotas et limiter les erreurs temporaires.

Implémentation

La collecte est réalisée à l’aide de la bibliothèque requests. Chaque réponse JSON est parsée et les résultats sont concaténés dans une structure tabulaire (Pandas DataFrame).

Les principes suivants sont appliqués : - arrêt de la pagination lorsqu’aucun résultat n’est retourné, - arrêt anticipé si le nombre de résultats est inférieur à la taille de page demandée, - gestion des erreurs HTTP via raise_for_status.

Le résultat final est un DataFrame contenant les champs bruts fournis par l’API, servant de point d’entrée au pipeline de prétraitement.

—

B) Welcome to the Jungle (web scraping)

Objectif

Compléter l’exploration du marché avec une source non-API, en particulier pour les offres publiées par des PME, moins représentées dans certaines bases institutionnelles.

Principe

Navigation automatisée des pages de résultats à l’aide de Selenium (mode headless).
Construction dynamique des URLs de recherche à partir de mots-clés.
Parcours paginé des pages liste, avec récupération des liens vers les offres individuelles.
Déduplication des offres à partir de leur URL avant extraction détaillée.

Extraction des données

Pour chaque offre, la page détail est analysée et les métadonnées sont extraites à partir des blocs JSON-LD embarqués dans le HTML.

Les informations collectées incluent notamment : - intitulé du poste, - entreprise, - localisation, - type de contrat (normalisé), - description, - salaire (si disponible), - expérience requise (convertie en années lorsque possible), - secteur d’activité et informations sur l’entreprise.

Prétraitement léger lors de la collecte

Certaines normalisations sont effectuées dès la phase de collecte : - regroupement des types de contrat dans des catégories standardisées, - extraction et harmonisation des années d’expérience, - structuration des champs textuels.

Ces données issues de Welcome to the Jungle ne sont pas fusionnées directement dans la base France Travail, mais utilisées comme source complémentaire.