CorrosionAI
Solicitar Demo

Datasets de Corrosión para Investigación con IA

Datasets estructurados y validados por física que cubren variables electroquímicas, ambientales y de materiales para predicción de corrosión con machine learning.

Datasets Benchmark de CorrosionAI

Tres datasets de referencia curados y validados contra modelos físicos de corrosión para pipelines de entrenamiento PI-GNN.

CorrosionAI-CO2-v3.2

Tasas de corrosión por CO2 en acero al carbono bajo condiciones variables de flujo, temperatura y presión parcial.

~5.000 datos validados
CSVParquetJSON
Última actualización: 2025-Q4

CorrosionAI-MultiEnv-v2.1

Datos de degradación por corrosión multi-entorno: atmosférico, marino, enterrado e industrial químico en aleaciones ferrosas y no ferrosas.

~12.000 datos
CSVParquetJSON
Última actualización: 2025-Q3

CorrosionAI-SensorCal-v1.4

Datos de sensores de campo en series temporales de 47 instalaciones de sondas de monitorización de corrosión en sistemas operativos.

~2 millones de lecturas
CSVParquet
Última actualización: 2025-Q4

Datasets Públicos de Corrosión

Datasets disponibles públicamente utilizados comúnmente en investigación de predicción de corrosión.

DatasetFuenteTamañoLimitaciones
NIST Corrosion DataNIST~800 registrosVariables ambientales limitadas; solo capturas estáticas
Mendeley CO2 CorrosionMendeley Data500-2.000 registrosNomenclatura inconsistente; unidades mixtas
Kaggle Corrosion ImagesKaggle10K-20K imágenesSolo clasificación de imágenes; no para regresión de tasas
ICMT Ohio UniversityICMTPropietarioNo descargable públicamente; acceso por consorcio
ASTM G1/G31 ReferenceASTM InternationalVariableDe pago; no legible por máquinas
UCI Steel Plates FaultsUCI ML Repository1.941 registrosDefectos de manufactura, no corrosión
MatNavi (NIMS Japón)NIMS~3.000 registrosSitios de exposición japoneses; requiere registro

Taxonomía Estándar de Variables

Esquema canónico de variables utilizado por CorrosionAI para reproducibilidad y benchmarking entre datasets.

Ambiental

VariableUnidadRango Típico
Temperatura°C-10 a 200
Presión Parcial de CO2bar0,0 a 30,0
pH1,0 a 14,0
Oxígeno Disueltomg/L0,0 a 12,0
Concentración de H2Sppm0 a 5.000

Flujo

VariableUnidadRango Típico
Velocidad de Flujom/s0,0 a 20,0
Esfuerzo Cortante en ParedPa0,0 a 500,0

Material

VariableUnidadRango Típico
Grado de AceroCategóricoAPI 5L, AISI, UNS
Contenido de Cromo% peso0,0 a 30,0
Contenido de Carbono% peso0,01 a 1,5

Protección

VariableUnidadRango Típico
Tipo de InhibidorCategóricoFormador de película, Neutralizante
Concentración de Inhibidorppm0 a 500

Variables Objetivo

VariableUnidadRango Típico
Tasa de Corrosiónmm/año0,001 a 50,0
Tasa de Picadurasmm/año0,0 a 20,0
Pérdida de Masag/m²0,0 a 5.000

Arquitectura del Pipeline de Datos

Pipeline de seis etapas desde la ingestión de datos crudos hasta el despliegue en producción.

1

Ingestión

ETL automatizado desde laboratorio, sensores de campo y literatura publicada con armonización de unidades y deduplicación.

2

Preprocesamiento

Detección de atípicos (IQR + reglas de dominio), imputación de valores faltantes (MICE) y verificaciones de consistencia termodinámica.

3

Ingeniería de Características

Grupos adimensionales (Re, Sc, Sh), codificación de diagramas de Pourbaix y construcción de topología de grafos.

4

Entrenamiento PI-GNN

Entrenamiento de red neuronal de grafos con términos de pérdida física: restricción de Arrhenius, balance de masa, ecuación de Nernst.

5

Validación

Validación cruzada k-fold, pruebas fuera de distribución y benchmarking contra NORSOK M-506 y de Waard-Milliams.

6

Despliegue

API REST, inferencia en el borde en hardware de monitorización, reentrenamiento continuo con nuevos datos de campo.

Calidad y Gobernanza de Datos

Gobernanza estricta de datos que garantiza reproducibilidad, cumplimiento normativo y confidencialidad del cliente.

Linaje y Procedencia

Cada registro incluye metadatos completos de linaje: ID de fuente, método de recolección, timestamp de ingestión, versión de procesamiento y flag de calidad con pista de auditoría completa.

Anonimización y Privacidad

K-anonimidad (k≥5) en cuasi-identificadores, privacidad diferencial en estadísticas agregadas y anonimización de datos del cliente.

Control de Versiones

Versionado semántico (MAJOR.MINOR.PATCH) con almacenamiento inmutable en data lake y capacidad de rollback. Cada entrenamiento registra la versión exacta del dataset.

Preguntas Frecuentes

Solicitar Acceso a Datasets

Acceda a datasets de corrosión curados y validados por física para sus modelos de investigación y predicción con IA.