Datasets estructurados y validados por física que cubren variables electroquímicas, ambientales y de materiales para predicción de corrosión con machine learning.
Tres datasets de referencia curados y validados contra modelos físicos de corrosión para pipelines de entrenamiento PI-GNN.
Tasas de corrosión por CO2 en acero al carbono bajo condiciones variables de flujo, temperatura y presión parcial.
Datos de degradación por corrosión multi-entorno: atmosférico, marino, enterrado e industrial químico en aleaciones ferrosas y no ferrosas.
Datos de sensores de campo en series temporales de 47 instalaciones de sondas de monitorización de corrosión en sistemas operativos.
Datasets disponibles públicamente utilizados comúnmente en investigación de predicción de corrosión.
Esquema canónico de variables utilizado por CorrosionAI para reproducibilidad y benchmarking entre datasets.
| Variable | Unidad | Rango Típico |
|---|---|---|
| Temperatura | °C | -10 a 200 |
| Presión Parcial de CO2 | bar | 0,0 a 30,0 |
| pH | — | 1,0 a 14,0 |
| Oxígeno Disuelto | mg/L | 0,0 a 12,0 |
| Concentración de H2S | ppm | 0 a 5.000 |
| Variable | Unidad | Rango Típico |
|---|---|---|
| Velocidad de Flujo | m/s | 0,0 a 20,0 |
| Esfuerzo Cortante en Pared | Pa | 0,0 a 500,0 |
| Variable | Unidad | Rango Típico |
|---|---|---|
| Grado de Acero | Categórico | API 5L, AISI, UNS |
| Contenido de Cromo | % peso | 0,0 a 30,0 |
| Contenido de Carbono | % peso | 0,01 a 1,5 |
| Variable | Unidad | Rango Típico |
|---|---|---|
| Tipo de Inhibidor | Categórico | Formador de película, Neutralizante |
| Concentración de Inhibidor | ppm | 0 a 500 |
| Variable | Unidad | Rango Típico |
|---|---|---|
| Tasa de Corrosión | mm/año | 0,001 a 50,0 |
| Tasa de Picaduras | mm/año | 0,0 a 20,0 |
| Pérdida de Masa | g/m² | 0,0 a 5.000 |
Pipeline de seis etapas desde la ingestión de datos crudos hasta el despliegue en producción.
ETL automatizado desde laboratorio, sensores de campo y literatura publicada con armonización de unidades y deduplicación.
Detección de atípicos (IQR + reglas de dominio), imputación de valores faltantes (MICE) y verificaciones de consistencia termodinámica.
Grupos adimensionales (Re, Sc, Sh), codificación de diagramas de Pourbaix y construcción de topología de grafos.
Entrenamiento de red neuronal de grafos con términos de pérdida física: restricción de Arrhenius, balance de masa, ecuación de Nernst.
Validación cruzada k-fold, pruebas fuera de distribución y benchmarking contra NORSOK M-506 y de Waard-Milliams.
API REST, inferencia en el borde en hardware de monitorización, reentrenamiento continuo con nuevos datos de campo.
Gobernanza estricta de datos que garantiza reproducibilidad, cumplimiento normativo y confidencialidad del cliente.
Cada registro incluye metadatos completos de linaje: ID de fuente, método de recolección, timestamp de ingestión, versión de procesamiento y flag de calidad con pista de auditoría completa.
K-anonimidad (k≥5) en cuasi-identificadores, privacidad diferencial en estadísticas agregadas y anonimización de datos del cliente.
Versionado semántico (MAJOR.MINOR.PATCH) con almacenamiento inmutable en data lake y capacidad de rollback. Cada entrenamiento registra la versión exacta del dataset.