What datasets are used for corrosion prediction with AI?

The most commonly used datasets include CorrosionAI-CO2-v3.2 (~5,000 records of CO2 corrosion in pipelines), NIST atmospheric corrosion data, Mendeley Data repositories, and image-based datasets from Kaggle. For regression tasks predicting corrosion rates, tabular datasets with environmental variables are preferred.

How large does a corrosion dataset need to be for machine learning?

Traditional ML models (random forests, gradient boosting) require 500-2,000 records. Deep learning models need 3,000+ records. Physics-informed approaches like PI-GNN reduce data requirements by 30-50% because physical constraints regularize learning and prevent overfitting.

CorrosionAI

Request Demo

Corrosion Datasets for AI Research and Prediction

Structured, physics-validated datasets covering electrochemical, environmental, and material variables for machine learning-based corrosion prediction.

CorrosionAI Benchmark Datasets

Three curated benchmark datasets validated against physics-based corrosion models for PI-GNN training pipelines.

CorrosionAI-CO2-v3.2

CO2-driven corrosion rates in carbon steel under varying flow, temperature, and partial pressure conditions from laboratory and field measurements.

~5,000 validated data points

CSVParquetJSON

Last updated: 2025-Q4

CorrosionAI-MultiEnv-v2.1

Cross-environment corrosion degradation data: atmospheric, marine, soil-buried, and industrial chemical environments across ferrous and non-ferrous alloys.

~12,000 data points

CSVParquetJSON

Last updated: 2025-Q3

CorrosionAI-SensorCal-v1.4

Time-series field sensor data from 47 corrosion monitoring probe installations in operational oil, gas, and water injection systems.

~2 million readings

CSVParquet

Last updated: 2025-Q4

Public Corrosion Datasets for Research

Publicly available datasets commonly used in corrosion prediction research, evaluated for completeness and ML suitability.

Dataset	Source	Size	Key Limitations
NIST Corrosion Data	NIST	~800 records	Limited environmental variables; static snapshots only
Mendeley CO2 Corrosion	Mendeley Data	500-2,000 records	Inconsistent variable naming; mixed units
Kaggle Corrosion Images	Kaggle	10K-20K images	Image classification only; not for rate regression
ICMT Ohio University	ICMT	Proprietary	Not publicly downloadable; consortium access
ASTM G1/G31 Reference	ASTM International	Varies	Paywalled; not machine-readable
UCI Steel Plates Faults	UCI ML Repository	1,941 records	Manufacturing defects, not corrosion
MatNavi (NIMS Japan)	NIMS	~3,000 records	Japanese exposure sites; registration required

Standard Variable Taxonomy

Canonical variable schema used by CorrosionAI for cross-dataset reproducibility and benchmarking.

Environmental

Variable	Unit	Typical Range
Temperature	°C	-10 to 200
CO2 Partial Pressure	bar	0.0 to 30.0
pH	—	1.0 to 14.0
Dissolved Oxygen	mg/L	0.0 to 12.0
H2S Concentration	ppm	0 to 5,000

Flow

Variable	Unit	Typical Range
Flow Velocity	m/s	0.0 to 20.0
Wall Shear Stress	Pa	0.0 to 500.0

Material

Variable	Unit	Typical Range
Steel Grade	Categorical	API 5L, AISI, UNS
Chromium Content	wt%	0.0 to 30.0
Carbon Content	wt%	0.01 to 1.5

Protection

Variable	Unit	Typical Range
Inhibitor Type	Categorical	Film-forming, Neutralizing
Inhibitor Concentration	ppm	0 to 500

Target Variables

Variable	Unit	Typical Range
Corrosion Rate	mm/year	0.001 to 50.0
Pitting Rate	mm/year	0.0 to 20.0
Mass Loss	g/m²	0.0 to 5,000

Data Pipeline Architecture

Six-stage pipeline from raw data ingestion through production deployment.

Ingestion

Automated ETL from laboratory, field sensors, and published literature with unit harmonization and deduplication.

Preprocessing

Outlier detection (IQR + domain rules), missing value imputation (MICE), and thermodynamic consistency checks.

Feature Engineering

Dimensionless groups (Re, Sc, Sh), Pourbaix diagram encoding, and graph topology construction from reaction networks.

PI-GNN Training

Graph neural network training with physics loss terms: Arrhenius constraint, mass balance, Nernst equation.

Validation

K-fold cross-validation, out-of-distribution testing, and benchmarking against NORSOK M-506 and de Waard-Milliams.

Deployment

REST API, edge inference on monitoring hardware, continuous retraining with new field data.

Data Quality & Governance

Strict data governance ensuring reproducibility, regulatory compliance, and client confidentiality.

Data Lineage & Provenance

Every record carries full lineage metadata: source ID, collection method, ingestion timestamp, processing version, and quality flag with complete audit trail.

Anonymization & Privacy

K-anonymity (k≥5) on quasi-identifiers, differential privacy in aggregated statistics, and client data anonymization before entering shared training pools.

Version Control

Semantic versioning (MAJOR.MINOR.PATCH) with immutable data lake storage and full rollback capability. Every model training run logs the exact dataset version.

Frequently Asked Questions

Request Dataset Access

Access curated, physics-validated corrosion datasets for your AI research and prediction models.