Tarea
Una tabla contiene URLs completas. La exportación necesita una columna domain solo con el dominio, sin protocolo, www., ruta, parámetros ni ancla.
Respuesta corta
Se puede hacer sin expresiones regulares, buscando y eliminando subcadenas. Para URLs de formatos distintos, el método con regex es más corto.
Cómo hacerlo en Eofferix con búsqueda y eliminación de subcadenas
- Crea la columna final
domaindesdeurl. - En Transformaciones, añade reglas: Contiene subcadena
https://— Eliminar subcadenahttps://; después la misma regla parahttp://. - Añade una regla: Empieza por
www.— Eliminar subcadenawww.. - Para quitar ruta, parámetros y ancla, usa pares de reglas para
/,?y#: primero Eliminar después, luego Eliminar subcadena con el mismo carácter.
Sin regex: el protocolo y www se eliminan como subcadenas; la ruta y los parámetros se cortan por separadores. - Guarda los ajustes de la columna.
Cómo hacerlo en Eofferix con expresiones regulares
- Crea la columna final
domaindesdeurl. - Añade
^https?://— Eliminar subcadena.^significa inicio de línea,https?significahttpohttps, y://es la parte literal del protocolo. - Añade
^www\.— Eliminar subcadena. El punto está escapado como\., porque en regex un punto normal significa cualquier carácter. - Añade
[/?#].*$— Eliminar subcadena.[/?#]encuentra el primer separador de ruta, parámetros o ancla;.*toma todo lo que sigue;$significa fin de línea.
La versión con regex es más corta: tres reglas eliminan protocolo, www y todo lo posterior al dominio. - Guarda los ajustes de la columna.
Antes / Después
Antes
datos de origen| row_id | url |
|---|---|
| 1 | https://www.shop.example.com/catalog/jackets?utm_source=feed |
Después
resultado| row_id | domain |
|---|---|
| 1 | shop.example.com |