Objectif
Un tableau contient des URLs complètes. L’export doit avoir une colonne domain avec seulement le domaine, sans protocole, www., chemin, paramètres ni ancre.
Réponse courte
Vous pouvez le faire sans expressions régulières, avec la recherche et la suppression de sous-chaînes. Pour des URLs de formats variés, l’option regex est plus courte.
Comment le faire dans Eofferix avec recherche et suppression de sous-chaîne
- Créez la colonne finale
domaindepuisurl. - Dans Transformations, ajoutez les règles : Contient la sous-chaîne
https://— Supprimer la sous-chaînehttps://; puis la même règle pourhttp://. - Ajoutez une règle : Commence par
www.— Supprimer la sous-chaînewww.. - Pour enlever le chemin, les paramètres et l’ancre, utilisez des paires de règles pour
/,?et#: d’abord Supprimer après, puis Supprimer la sous-chaîne avec le même caractère.
Sans regex : le protocole et www sont supprimés comme sous-chaînes ; le chemin et les paramètres sont coupés par séparateurs. - Enregistrez les paramètres de la colonne.
Comment le faire dans Eofferix avec des expressions régulières
- Créez la colonne finale
domaindepuisurl. - Ajoutez
^https?://— Supprimer la sous-chaîne.^signifie début de chaîne,https?signifiehttpouhttps, et://est la partie littérale du protocole. - Ajoutez
^www\.— Supprimer la sous-chaîne. Le point est échappé avec\., car un point simple en regex signifie n’importe quel caractère. - Ajoutez
[/?#].*$— Supprimer la sous-chaîne.[/?#]trouve le premier séparateur de chemin, paramètres ou ancre ;.*prend tout ce qui suit ;$signifie fin de chaîne.
La version regex est plus courte : trois règles suppriment le protocole, www et tout ce qui suit le domaine. - Enregistrez les paramètres de la colonne.
Avant / Après
Avant
données source| row_id | url |
|---|---|
| 1 | https://www.shop.example.com/catalog/jackets?utm_source=feed |
Après
résultat| row_id | domain |
|---|---|
| 1 | shop.example.com |