科研成果 | 数据少、工艺差异大,水质异常波动如何精准预测?同济大学黄翔峰教授团队提出因果引导时序迁移模型

作者: 发布时间:2026-03-11 浏览次数:51


        第一作者:张瀚心

        通讯作者:蔡辰

        通讯单位:同济大学碳中和研究院、环境科学与工程学院、上海自主智能无人系统科学中心

        论文DOIhttps://doi.org/10.1016/j.watres.2026.125372

n 全文速览

污水处理厂出水水质的异常波动会严重影响水环境安全,但由于数据量少、样本不平衡、工艺差异大,传统预测模型往往表现不佳。针对这一难题,同济大学黄翔峰教授团队在环境领域顶刊 Water Research》(IF=12.8上发表了题为Causal-informed domain adaptation with cross-attention for predicting anomalous effluent quality fluctuations in wastewater treatment plants的研究论文。该研究创新性地提出了一种于因果引导的时序域适应模型CA-TDA,通过变分自编码器提取时序因果结构,并结合交叉注意力机制动态对齐源域与目标域的因果关系,实现了在数据稀缺条件下的高精度异常波动预测。实验表明,仅使用8.35%的目标域数据,CA-TDA在多个出水指标上平均R²达0.9669,异常检测F1分数提升2987%,展现了优异的跨厂区适应能力。

n 研究背景

污水处理系统是连接人类活动与生态环境的关键环节,其流出物质量受进水条件、运行管理和环境变化等多因素影响,呈现非线性和时序波动。传统深度学习方法在预测异常波动时,常因数据缺失、样本不均衡和域间差异而表现受限。尤其是在不同处理工艺、运行条件差异显著的污水厂之间,直接迁移模型易导致预测性能下降。因此,开发能够适应异构域、在小样本条件下仍保持高精度的预测模型,具有重要的实际应用价值。

n 本文亮点

(1) 方法创新:因果引导的时序域适应框架

CA-TDA模型首次将时序因果结构学习与域适应相结合,通过VAE编码滞后因果关系为潜变量,实现跨厂区稳定因果结构的提取与对齐,提升模型在异构系统中的泛化能力。

(2) 机制创新:交叉注意力增强异常波动识别

引入交叉注意力机制,动态构建目标水质指标与潜变量之间的非线性映射,增强模型对因果结构波动的响应能力,显著提升异常事件的识别精度。

(3) 性能突破:有限目标数据下仍保持高性能

在目标域数据仅为源域8.35%的情况下,模型仍能实现平均R²=0.9669的预测精度,F1分数较最优基线提升最高达87%,具备强数据适应性与工程实用性。

n 图文解析

(1) CA-TDA模型的核心框架

CA-TDA的核心是一个由变分自编码器(VAE)与交叉注意力机制协同工作的双流框架。VAE从时序数据中提取可迁移的、具有滞后关系的潜在因果结构;交叉注意力机制则动态地将这些因果变量与目标出水指标的历史观测进行对齐与融合。整个流程通过特征提取、因果结构递归重建、基于梯度停止的域对齐以及多指标联合优化四个步骤,系统性地实现了异构污水处理厂间稳定、可解释的知识迁移。

                                        图1. CA-TDA模型框架

(2) 小样本下模型性能

随着用于训练的目标域数据比例增加,CA-TDA的预测误差迅速降低并很快进入平稳期。当目标域可用的样本数量低至源域的8.35%(仅183个样本)时,模型的预测精度已达到高水平(平均R²为0.9669)。这一特性意味着,即使对于一个新建或缺乏历史数据的污水处理厂,该模型也能凭借极少量的本地数据快速构建出高精度的预警系统,解决了工程应用中的一个关键瓶颈。

 图2. 随着目标域数据比例的增加,模型之间的预测误差的收敛性


(3) 模型异常波动捕捉能力

为客观评估异常检测能力,研究采用了创新的双尺度滑动窗口方法进行判定。结果显示,CA-TDA不仅能精准拟合水质指标的正常变化趋势(如对TN的连续预测R²>0.98),更能有效识别突发异常波动,其综合检测性能(AUC-ROC)超过0.91,显著优于各类基线模型,证明了其在复杂运行条件下实现可靠预警的实战能力。

                         图3. TN_eff连续预测与异常检测模型的综合评价

(4) 跨域迁移性能与可解释

模型的决策过程具有较好的可解释性。特征重要性分析表明,CA-TDA能够根据目标厂工艺特性(如从A²O到CASS),自适应地调整其依赖的关键变量(例如更关注运行能耗)。更重要的是,其跨厂区泛化能力得到定量验证:经过域适应后,模型的平均性能损失率(PDR)从直接迁移时的68.81%大幅降至2.30%,有力证明了该方法能够有效克服工艺与规模差异,实现稳健的跨域知识迁移与应用。

                                                             图4. TN_eff预测的特征重要性和SHAP值分布

n 结论展望

        1. 方法有效:提出的CA-TDA模型,融合时序因果结构与交叉注意力机制,能够在水质数据稀缺、处理工艺差异显著的条件下,实现对污水厂出水异常波动的高精度预测。

        2. 性能突出:模型在目标域数据极少(仅占源域约8.35%)时仍表现稳定,预测精度高、泛化能力强,具备良好的工程移植性与跨厂适用性。

        3. 应用前景:该框架可为新建、改造或数据基础薄弱的污水处理厂提供快速部署智能预警系统的技术支持,有助于提升运营管理的精细化和稳定化水平。