What datasets are used for corrosion prediction with AI?

The most commonly used datasets include CorrosionAI-CO2-v3.2 (~5,000 records of CO2 corrosion in pipelines), NIST atmospheric corrosion data, Mendeley Data repositories, and image-based datasets from Kaggle. For regression tasks predicting corrosion rates, tabular datasets with environmental variables are preferred.

How large does a corrosion dataset need to be for machine learning?

Traditional ML models (random forests, gradient boosting) require 500-2,000 records. Deep learning models need 3,000+ records. Physics-informed approaches like PI-GNN reduce data requirements by 30-50% because physical constraints regularize learning and prevent overfitting.

CorrosionAI

Solicitar Demo

Datasets de Corrosión para Investigación con IA

Datasets estructurados y validados por física que cubren variables electroquímicas, ambientales y de materiales para predicción de corrosión con machine learning.

Datasets Benchmark de CorrosionAI

Tres datasets de referencia curados y validados contra modelos físicos de corrosión para pipelines de entrenamiento PI-GNN.

CorrosionAI-CO2-v3.2

Tasas de corrosión por CO2 en acero al carbono bajo condiciones variables de flujo, temperatura y presión parcial.

~5.000 datos validados

CSVParquetJSON

Última actualización: 2025-Q4

CorrosionAI-MultiEnv-v2.1

Datos de degradación por corrosión multi-entorno: atmosférico, marino, enterrado e industrial químico en aleaciones ferrosas y no ferrosas.

~12.000 datos

CSVParquetJSON

Última actualización: 2025-Q3

CorrosionAI-SensorCal-v1.4

Datos de sensores de campo en series temporales de 47 instalaciones de sondas de monitorización de corrosión en sistemas operativos.

~2 millones de lecturas

CSVParquet

Última actualización: 2025-Q4

Datasets Públicos de Corrosión

Datasets disponibles públicamente utilizados comúnmente en investigación de predicción de corrosión.

Dataset	Fuente	Tamaño	Limitaciones
NIST Corrosion Data	NIST	~800 registros	Variables ambientales limitadas; solo capturas estáticas
Mendeley CO2 Corrosion	Mendeley Data	500-2.000 registros	Nomenclatura inconsistente; unidades mixtas
Kaggle Corrosion Images	Kaggle	10K-20K imágenes	Solo clasificación de imágenes; no para regresión de tasas
ICMT Ohio University	ICMT	Propietario	No descargable públicamente; acceso por consorcio
ASTM G1/G31 Reference	ASTM International	Variable	De pago; no legible por máquinas
UCI Steel Plates Faults	UCI ML Repository	1.941 registros	Defectos de manufactura, no corrosión
MatNavi (NIMS Japón)	NIMS	~3.000 registros	Sitios de exposición japoneses; requiere registro

Taxonomía Estándar de Variables

Esquema canónico de variables utilizado por CorrosionAI para reproducibilidad y benchmarking entre datasets.

Ambiental

Variable	Unidad	Rango Típico
Temperatura	°C	-10 a 200
Presión Parcial de CO2	bar	0,0 a 30,0
pH	—	1,0 a 14,0
Oxígeno Disuelto	mg/L	0,0 a 12,0
Concentración de H2S	ppm	0 a 5.000

Flujo

Variable	Unidad	Rango Típico
Velocidad de Flujo	m/s	0,0 a 20,0
Esfuerzo Cortante en Pared	Pa	0,0 a 500,0

Material

Variable	Unidad	Rango Típico
Grado de Acero	Categórico	API 5L, AISI, UNS
Contenido de Cromo	% peso	0,0 a 30,0
Contenido de Carbono	% peso	0,01 a 1,5

Protección

Variable	Unidad	Rango Típico
Tipo de Inhibidor	Categórico	Formador de película, Neutralizante
Concentración de Inhibidor	ppm	0 a 500

Variables Objetivo

Variable	Unidad	Rango Típico
Tasa de Corrosión	mm/año	0,001 a 50,0
Tasa de Picaduras	mm/año	0,0 a 20,0
Pérdida de Masa	g/m²	0,0 a 5.000

Arquitectura del Pipeline de Datos

Pipeline de seis etapas desde la ingestión de datos crudos hasta el despliegue en producción.

Ingestión

ETL automatizado desde laboratorio, sensores de campo y literatura publicada con armonización de unidades y deduplicación.

Preprocesamiento

Detección de atípicos (IQR + reglas de dominio), imputación de valores faltantes (MICE) y verificaciones de consistencia termodinámica.

Ingeniería de Características

Grupos adimensionales (Re, Sc, Sh), codificación de diagramas de Pourbaix y construcción de topología de grafos.

Entrenamiento PI-GNN

Entrenamiento de red neuronal de grafos con términos de pérdida física: restricción de Arrhenius, balance de masa, ecuación de Nernst.

Validación

Validación cruzada k-fold, pruebas fuera de distribución y benchmarking contra NORSOK M-506 y de Waard-Milliams.

Despliegue

API REST, inferencia en el borde en hardware de monitorización, reentrenamiento continuo con nuevos datos de campo.

Calidad y Gobernanza de Datos

Gobernanza estricta de datos que garantiza reproducibilidad, cumplimiento normativo y confidencialidad del cliente.

Linaje y Procedencia

Cada registro incluye metadatos completos de linaje: ID de fuente, método de recolección, timestamp de ingestión, versión de procesamiento y flag de calidad con pista de auditoría completa.

Anonimización y Privacidad

K-anonimidad (k≥5) en cuasi-identificadores, privacidad diferencial en estadísticas agregadas y anonimización de datos del cliente.

Control de Versiones

Versionado semántico (MAJOR.MINOR.PATCH) con almacenamiento inmutable en data lake y capacidad de rollback. Cada entrenamiento registra la versión exacta del dataset.

Preguntas Frecuentes

Solicitar Acceso a Datasets

Acceda a datasets de corrosión curados y validados por física para sus modelos de investigación y predicción con IA.