-
饮用水是人类生存的基本要求,地下水是重要的饮用水水源(陈鸿汉等,2007),地下水环境的好坏直接影响到人类的健康,特别是城市生活污水、垃圾以及工业排放,农业大量农药化肥,导致地下水污染问题日益突出,威胁人类生命的健康(王焰新,2007)。地下水污染已成为全球关注问题(周仰效等,2008;张新钰等,2011),地下水污染物可能来自人为来源、自然来源或两者的混合(费宇红等,2021)。在复杂的地质、水文地质条件制约下,在气候变化及人类活动等因素的影响下,地下水污染物表现出空间分布的非均质性(Descourvières et al.,2010; Ayvaz,2016; Aullón et al.,2020)。同时在这项工作中,地下水环境背景值作为污染评价的依据(Nakić et al.,2020)是开展地下水污染判别、天然劣质水评估以及人类活动影响程度识别的关键环节(何宝南等,2022)。因此,国内外专家普遍认为,地下水污染物质空间分布的非均质性和地下水环境背景值是地下水污染评价及成因研究的研究难点(Rotiroti et al.,2015; Parrone et al.,2019,2021; Nakić et al.,2020),通常做好污染物空间分布的非均质刻画、查明污染物的自然背景值和人为污染程度,有助于更好地开展地下水污染评估、预测和修复工作,对于地下水资源的可持续管理至关重要。
-
地下水污染评价与修复工作极为复杂且极具挑战性,需要进行多学科交叉和联合攻关(赵勇胜,2007)。目前国内外常见的传统地下水污染评估方法主要有迭置指数法(Shahab et al.,2019)、统计方法(Voss,2003)、过程模拟法(Masetti et al.,2009)和模糊数学法(Agoubi et al.,2018)。① 迭置指数法,是目前应用最为广泛的地下水风险评价方法,该方法综合考虑到土壤,含水层,地下水位埋深三类指标的参数叠加形成一个可反映风险程度的指数(肖超,2021),常见的评价模型有 DRASTIC、GOD、SINTACS 等,其中DRASTIC 评价模型作为一种标准方法被研究者广泛使用;② 统计方法,是根据研究区已获取的地下水污染监测数据和与发生地下水污染相关的影响因子,将已赋值的各项参数导入合适的统计分析模型进行计算,以获取地下水污染发生的概率,常用的统计方法包括地统计法,克里金法,实证权重法,线性回归法,逻辑回归法等;③ 过程模拟法,是根据水流和污染物迁移理论,构建污染物风险评价模型,将评价指标定量化得到综合风险指数,该方法可较好模拟地下水污染物的迁移规律,但模型参数多且获取困难,求解过程复杂(Gogu et al.,2000),目前常用的评价模型有MODFLOW、FeFLOW、HYDRUS和HELP等;④ 模糊数学法,主要是应用最大隶属原则和模糊变换原理,将评价因子进行分级和权重赋值,使一些非定量的因素定量化,最终确定地下水污染的可能性(张敏等,2016)。各评价方法在评价对象、评价尺度以及适用性上都有不同,具体如表1所示。
-
目前,地下水化学组分空间分布的非均质性、小样本量与大尺度区域的高计算代价,都对传统的污染风险评价方法构成了极大的挑战(Karpatne et al.,2019)。在地下水污染调查评价方面,由于受到调查采样和测试分析的限制,样本量普遍较少,大量相互作用的潜在变量以及多时空分辨率的地表空间数据与地下水数据之间都存在着复杂的非线性关系;同时,地下水污染存在着成因复杂,出现概率低,时空边界定义多样,以及对象形式、结构复杂多变等特征。基于以上特征,传统的污染评价方法局限于浅层、低维的信息挖掘,无法满足对高维度,非线性,复杂的地下水数据进行深入挖掘的需求。机器学习方法可以很好地解决这些问题,在数据处理方面:可以有效地减少人为对数据的干扰,针对性地解决地下水污染影响因素高维度、非线性和不确定性的问题,增强数据利用率,减弱对单一评价方法的依赖,极大地提升地下水污染评价小样本数据的性能,提高评价精度;在污染的成因机制解释方面,机器学习可以实现对多维度复杂关系的刻画,发掘新的成因或变化机制。
-
在过去的二十年中,机器学习方法的使用迅速增加,近年来已在地下水环境背景值和污染评价方面有了大量的探索性应用。然而,对于水文地质学数据研究中地下水化学元素分布的非均质性、小样本和不确定性问题的彻底解决,仍需要进一步的探索和发展,梳理和分析目前机器学习在地下水污染研究方面的成果和方法,把握发展的脉络,提升对地下水污染评价工作的支撑程度。因此,本文通过综合分析多年来国内外机器学习在地下水污染风险评估方面的研究进展情况,详细归纳并揭示各种方法的机理,技术优劣及适用方向,并对机器学习在地下水环境背景值和污染风险评估方面存在的问题和发展趋势展开讨论,旨在为进一步运用和推动机器学习方法在地下水污染风险评价方面的应用,拓展和丰富新方法新技术在地下水污染研究方面的应用。
-
1 机器学习算法发展历程
-
机器学习是人工智能的子领域。自20世纪50年代以来,计算机科学家一直致力于机器学习领域的研究。亚瑟·塞缪尔于1956年正式提出了“机器学习”这一概念:“机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域”。“机器学习之父”Tom M. Mitchel(1997)在其著作《Machine Learning》中指出,机器学习就是指“计算机利用经验自动改善系统自身性能的行为”。简单来说,机器学习就是指利用计算机去学习人类行为,获取新的知识或经验,并重新组织已有的知识结构,提高计算机的智能性。与数值模型以数值解为驱动不同,机器学习方法以数据为驱动,分析获取数据之间的关联和规律,用以对未知数据进行预测或分类。
-
随着科技的发展,计算机算法的不断迭代更新,机器学习理论和方法自20世纪80年代开始进入蓬勃发展阶段,产生了大量具有实用价值的模型。Linnainmaa(1970)提出了解决自动分化问题的反向传播(backpropagation,BP)算法。后来,Paul(1982)提出了基于神经网络(NN)的反向传播多层感知器(MLP)算法。1985~1986年,神经网络(NN)研究者先后提出了MLP的概念,并结合实际的反向传播训练,该算法成为神经网络的最基本算法(Rumelhart et al.,1986)。Le Cun et al.(1989)提出了卷积神经网络(CNN)模型,并推导出高效的训练方法,成为至今应用最为广泛的机器学习模型之一。
-
进入20世纪90年代后,多种单一机器学习模型相继被提出,广泛使用的机器学习算法包括:线性分类器、逻辑回归(LR)、Naïve贝叶斯(NB)、贝叶斯网络、支持向量机(SVM)、决策树、k近邻(k-NN),人工神经网络(ANN)等,这些机器学习算法方法理论相对简单,算法易掌握,训练出的模型对未知数据的预测能力较强。但是这些学习模型在面临数据结构复杂,数据量大,数据质量参差不齐的问题时,学习能力明显不足。
-
Hansen et al.(1990)提出的基于神经网络的集成学习(ensemble learning,EL)模型,在处理复杂数据时,具有更低的方差和更好的泛化能力,成为了大数据分析的强有力工具。随后,Freund et al.(1997)使用Boosting 方法将弱分类器组合成一个强分类器,该方法的提出使集成学习成为机器学习的一个重要研究领域。集成学习算法是通过建立几个基学习器模型,基学习器可以是任何类型的机器学习算法(例如,决策树,神经网络,线性回归模型等),并通过某种规则将结果进行整合,以获取优于单一模型的结果(Mahesh,2018)。根据基学习器间是否存在依赖关系,集成算法分为Bagging(没有依赖关系)和Boosting(有依赖关系)两大类算法。集成学习主要用来解决单一预测的缺陷,提高模型的性能,其结果要优于单一模型做出的预测(Sagi et al.,2018)。但是,对于复杂的数据,集成学习模型的运算速度明显下降。随着这些模型方法在不同领域的推广,潜在的问题逐渐暴露。在样本有限的情况下构建复杂函数的能力有限,针对复杂的分类问题时,模型对未知数据的预测能力受到限制、泛化能力受到一定制约(Bengio,2009)。
-
2006年,由机器学习领域的泰斗 Hinton和 Salakhutdinov在Science上发表文章,提出深度学习概念,他们创建了一种包含多个隐层的人工神经网络,该模型优势在于具有良好的特征学习能力,而且可以实现网络整体调优(Hinton et al.,2006)。这个模型的提出,开启了深度神经网络机器学习的新时代。一大批经典模型,如多层感知机、卷积神经网络、深度置信网、自动编码器等应运而生,随着后期研究人员Bengio、Le Cun和Hinton对深度学习的研究,以及在云计算、大数据、计算机硬件的支撑下,深度学习近年来在多个领域取得了令人赞叹的进展(Bengio,2009)。深度学习是机器学习的一个子集,它是一个具有大量层数和参数的神经网络,是目前最接近人脑的分层智能学习方法(Shinde et al.,2018)。深度学习擅长从不同来源收集的大量数据中分析和提取有用的知识,是机器学习智能化的进一步提升,是机器学习的一个里程碑。
-
2 机器学习算法应用
-
2.1 非监督学习
-
2.1.1 聚类
-
聚类分析法(cluster analysis,CA)是将样本或变量按照性质亲疏与相似程度进行分类的方法(Norman,2000; Danielsson et al.,2009)。聚类后每个组中的数据具有相似的性质,适用于地下水水质数据的分类,以便分析数据间相似性及差异性的原因(Liu Honghua et al.,2021),进而识别地下水污染来源,在地质条件复杂且地下水类型丰富的地区应用较为广泛(Stefania et al.,2018)。其中常用的方法主要有层次聚类、K-means聚类和灰色聚类等。
-
层次聚类(hierarchical clustering analysis,HCA)是对一组样本或变量进行层层分类的多元统计分析方法。其原理是计算每组对象之间的相似性度量值,然后将最相似的观测值连接起来,并依次连接下一个最相似的观测值,如此循环,直到所有样本聚成一类。适用于大量复杂水化学数据的分类,可初步查明地下水质量状况,定性地描述地下水污染成因(Lee et al.,2001; Reghunath et al.,2002)。基于该方法的优势,UjeviAc' Bošnjak et al.(2012)通过对地下水主要水文地球化学特征聚类,对地下水砷等有害元素的成因进行了归类分析。Liu Honghua et al.(2021)针对太原岩溶地下水、江汉平原地下水等水化学数据集,采用欧式距离的Ward方法绘制了层次聚类分析的树状图(图1),通过与一系列方法方法进行对比,证明了层次聚类法在水文地球化学分带上具有较好的效果。
-
K-means聚类方法是一种划分式聚类算法,通过将给定的数据集自动划分为预先选定的一定数量的组(假设k个组),然后根据所选的(k个)初始聚类中心进行迭代优化(Macqueen,1967)。该方法适用于类别数量已知、个数较少、无标签的样本分析,是一种比较成熟的聚类方法(Mokdad et al.,2017)。Javadi et al.(2017)将地下水位埋深、含水层导水率、补给量和包气带厚度作为聚类特征对地下水水化学指标进行K-means聚类,用该方法迭代获得最佳聚类数,通过聚类识别出的分区主要特征,有效支撑了浅层含水层脆弱性分区的划分,相比传统DRASTIC方法具有更高的评价精度(图2)。
-
图1 利用欧氏距离的Ward方法得到层次聚类(HCA)树状图(据Liu Honghua et al.,2021)
-
Fig.1 The HCA dendrogram using the Ward method with Euclidian distance (after Liu Honghua et al., 2021)
-
灰色聚类是一种可以通过灰色矩阵或灰度的可能度函数将所考察的观测指标或观测对象划分成若干个可定义类别的方法(冯玉国,1992),该方法侧重于小样本信息的提取(Gao Qi et al.,202 0),能较为全面地反映地下水化学组分对水质或污染评价的影响,为水环境质量评价提供可靠的科学依据(Fu Xingqiu et al.,2018)。灰色聚类分析在识别性质相近的环境问题时具有很大的优势,Delgadoo et al.(2021)通过对两个矿区地下水化学指标和对应河流水质进行聚类分析,识别了污水排放造成的影响,确定了污染源的类型和位置。Temino-Boes et al.(2020)使用熵权法确定每个分类标准的权重,综合对比多个标准,对地下水氮污染程度和影响因素进行灰色聚类分级(图3),进而识别地下水氮污染的主控因素。
-
图2 基于K-means分析的含水层脆弱性评价(据Javadi et al.,2017)
-
Fig.2 Assessment of aquifer vulnerability using K-means cluster analysis (after Javadi et al., 2017)
-
图3 基于灰色灰色聚类的氮污染程度评价方法架构(据Temino-Boes et al.,2020)
-
Fig.3 Schema of the methodology developed to evaluate nitrogen pollution with grey clustering (after Temino-Boes et al., 2020)
-
2.1.2 主成分分析
-
主成分分析(principal component analysis,PCA)是一种针对多变量信息提取的技术,可将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。该方法能够大幅简化数据集,并且保留原始数据的主要信息,且所含信息互不重复,可有效识别地下水质量恶化的主要原因(Mouser et al.,2005),已经成为地下水污染成因分析中的常用手段(Arslan,2013)。Kura et al.(2013)对卡帕斯岛地下水水质指标使用主成分分析进行因子提取,解释了多个水文地球化学过程。通常,主成分分析方法会与层次聚类方法结合使用,有助于更加准确地识别地下水污染源和主要污染因子(Awomeso et al.,2020)。Abdelaziz et al.(2020)先用PCA来提取地下水化学指标中的主成分,后用HCA对提取的主成分进行聚类,将地下水质指标聚类分级为多组相关性强的数据,确定分类中的主要特征,从而简化数据集(图4),突出各主成分之间存在的差异性,更准确地识别和刻画地下水水化学过程。
-
2.2 监督学习
-
2.2.1 单一算法
-
(1)线性模型。多元线性回归(multivariable linear regression,MLR)是最常见的线性回归形式,通常用于寻找模型方程中的相关系数(Ahmed et al.,2019)。李进等(2021)进行了浅层地下水水化学特征与土体盐分相关性研究,建立了溶解性总固体(TDS)与土体参数的多元线性回归预测方程,预测准确率平均值达到了88.93%。Kouadri et al.(2022)使用长短期记忆(LSTM)、多元线性回归(MLR)和人工神经网络(ANN)分别构建了农业灌溉水水质预测模型,对比发现,多元线性回归模型对水质变化趋势的预测精度与人工神经网络模型同样优秀。Banda et al.(2020)基于多元线性回归(MLR)模型,通过输入四个代表性水质指标建立回归方程(图5),形成水质质量的综合评分,可以很好的替代传统水质评价方法。
-
图4 地下水水质指标主成分分析图(据Abdelaziz et al.,2020)
-
Fig.4 PCA analysis of groundwater quality parameters (after Abdelaziz et al., 2020)
-
图5 水质指标多元线性回归架构(据Banda et al.,2020)
-
Fig.5 Multiple linear regression framework of water quality index (after Banda et al., 2020)
-
(2)逻辑回归。逻辑回归(logistic regression,LR)是一种广义线性模型,在线性回归模型的基础上引入了Sigmoid函数,常用来解决分类问题,其计算结构简单,易于理解和实现,但在面对高次问题时容易出现欠拟合的情况,导致预测精度偏低。Mencio et al.(2011)以西班牙东北部的奥索纳为研究区,使用逻辑回归及方差分析方法确定了多种因素与泉水中硝酸盐浓度之间的关系,结果显示电导率的增加或pH值的降低可能与硝酸盐浓度的增加有关,土地利用状况是影响泉水中硝酸盐污染的关键。Rizeei et al.(2018)利用LR-IPNOA模型来评估伊拉克萨拉丁省的硝酸盐污染危害等级(图6),与传统的IPNOA模型相比,优化模型增加了土地利用类型作为评价指标,并利用逻辑回归模型调整各指标的权重,评价准确率提高了5%。优化后的模型也可推广至气候条件相似的地区。
-
(3)树形结构模型。决策树(decision tree,DT)可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点就是实例所属的分类。决策树的结构包括根节点、内部节点、叶子结点,搭建过程主要包括3步:特征选择、决策树的生成与剪枝。决策树计算复杂程度低,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。相对的,该算法易造成过度匹配的问题,利用众多决策树的随机森林策略能够较好地解决该问题(Apté et al.,1997)。Jeihouni et al.(2020)使用5种基于决策树的算法绘制地下水质量分布图,所选取的特征变量包括电导率、pH值、硬度及氯离子的浓度,通过对比分析,随机森林模型表现最优,可利用其生成的水质分布图确定水质优良的地下水源靶区(图7)。Bertrand et al.(2022)以巴西累西腓作为研究区,将开采井和人口密度、废物和污水管理状况以及住户有无卫生设施作为关键影响因子,构建决策树模型,形成了地下水污染风险图,有效服务了当地水资源管理和环境保护。
-
图6 利用LR-IPNOA模型绘制硝酸盐危害等级图(据Rizeei et al.,2018)
-
Fig.6 Groundwater nitrates hazard rating mapping using LR-IPNOA models (after Rizeei et al., 2018)
-
(4)朴素贝叶斯。朴素贝叶斯(naïve Bayes,NB)算法以贝叶斯定理为基础,假设所有条件特征相互独立,简化了条件概率的表示与估计,提高了运算速率,可以处理多分类及小样本问题,具有较强的实用性(Chen Shenglei et al.,2020)。但该算法对输入数据的表达形式很敏感,需要计算先验概率,其“朴素”的特性也对分类精度影响较大。Yudhana et al.(2021)结合朴素贝叶斯算法和GIS空间分析方法,将研究区内土壤中氮含量进行预测和分类,模型的精度达到了87.5%,其结果可为当地制定适宜的水稻种植方案提供参考。
-
图7 利用树形结构模型绘制地下水质量分布图(据Jeihouni et al.,2020)
-
Fig.7 Using tree-based mining algorithms tomap groundwater quality distribution (after Jeihouni et al., 2020)
-
(5)支持向量机。支持向量机(support vector machine,SVM)由Cortes et al.(1995)首先提出,是一种建立在统计学习理论基础上的有监督式机器学习方法,在解决小样本问题时,容易抓住数据特征之间得非线性关系,同时可以避免神经网络结构选择和局部极小点问题,从而得到更好地泛化性能及解决高维问题的能力。但支持向量机对非线性问题没有通用的解决方案,必须谨慎选择核函数(Ccoicca,2013)。Arabgol et al.(2015)利用支持向量机模拟了伊朗阿拉克平原地下水中硝酸盐的浓度和分布,采用4折交叉验证和网格搜索技术相结合的方式来确定支持向量机模型的最优参数,预测结果与实测结果相关性高,分别为0.92和0.87。Isazadeh et al.(2017)利用支持向量机和人工神经网络预测了伊朗北部桂兰省地下水电导率(EC),Na+和SO2-4的浓度,通过评估RMSE和E值,虽然人工神经网络模型优于支持向量机模型,但是支持向量机的不确定性低于人工神经网络模型。
-
(6)人工神经网络。人工神经网络(artificial neural network,ANN)是基于模仿大脑神经网络结构和功能而构成的自适应非线性动态系统。模型结构至少包括3层,即一个输入层(input layer)、一个或多个隐含层(hidden layer)和一个输出层(output layer)。人工神经网络模型在数据较少的情况下,依旧可以得到较为满意的结果,但神经网络内在推导过程、参数设置等与实际情况无法对应,较难解释(Baldi et al.,1989)。近年来,众多学者采用人工神经网络模型进行地下水质量和污染评估(Kouziokas et al.,2018)和典型污染物富集机理研究(Cao Hailong et al.,2022)。Kumar et al.(2010)将BP神经网络应用在印度地下水质量评估,并对饮水健康风险进行了预测。Gholami et al.(2016)基于多层感知机神经网络(MLP)建立了地下水质模型(图8),结果表明影响地下水质的重要因素有:地下水位埋深、含水层类型及与污染源的距离,作者认为采用合适的输入和优化的网络结构,人工神经网络可以成为水质模拟的有效工具。
-
2.2.2 集成学习算法
-
2.2.2.1 Bagging集成算法
-
Bagging是Breiman(1996)提出的一种引导聚合预测器集成机器学习方法,通过随意混合创建的训练集的分类来提高分类精度,使用引导抽样方法生成T个子集,然后,每个子集将用于构建分类器,最后将这些分类器聚合形成Bagging集成分类器。Bagging算法的优点是它可以减少基础算法的方差,训练数据的细微变化很敏感,因此,具有提高预测结果的能力。Bagging的经典算法主要包括:随机森林(RF)、随机子空间方法(RSM)、极端随机树(ERT)和旋转森林(RTF)。
-
图8 利用MLP模拟地下水水质的流程图(据Gholami et al.,2016)
-
Fig.8 Using MLP to simulate groundwater quality processes (after Gholami et al., 2016)
-
Barzegar et al.(2019)使用的Bagging集成模型计算地下水污染风险指数和NO3浓度之间的r值为0.67,与独立优化的DRASTIC模型、典型DRASTIC模型相比,集成模型增加了r值,能够更好地预测地下水污染风险分布。Alnahit et al.(2022)应用随机森林(RF)和增强回归树(BRT)模型进行流域的水质预测,结果表明,随机森林算法更容易训练,在模型的抗过拟合方面更加稳健,水质预测精度更高。Fu Yu et al.(2022)以河套盆地浅层地下水水质为研究对象,通过对比随机森林(RF)模型与逻辑回归(LR)和支持向量机(SVM)三种方法,得出基于Bagging集成算法的随机森林(RF)模型对于地下水污染组分空间分布非均质刻画更为准确(图9)。Pham et al.(2022)比较评估了随机树(RT)、随机森林(RF)、决策树桩、模型M5P、支持向量机(SVM)、局部加权线性回归(LWLR)和错误修剪树(REPTree)7种机器学习模型的性能,结果表明Bagging-RT(随机森林)模型与其他模型相比可以有效提升预测精度。
-
2.2.2.2 Boosting集成算法
-
Boosting算法是指一组将弱学习器转换为强学习器的算法(Tien et al.,2016)。Boosting的过程可以不断地添加各种分类器,直到模型数量或精度达到极限。与Bagging方法相比,Boosting可以获得顺序训练的子集,并提供对偏差和方差的控制。由于分类器的多样化,分类误差可以显著降低。常用的Boosting算法包括:增强回归树(boosting regression tree,BRT)、随机梯度提升(SGB)、AdaBoost和极限梯度提升(XGB)等。Sajedi-Hosseini et al.(2018)采用增强回归树(BRT)、多元判别分析(MDA)和支持向量机(SVM)进行地下水硝酸盐污染风险评估,多重指标验证得出BRT具有良好的性能表现。Mosavi et al.(2020)使用随机梯度提升(StoGB)、旋转森林(RotFor)和贝叶斯广义线性模型(Bayesglm)三种机器学习方法构建预测模型,对比并评估其在描绘地下水盐度分布的性能,结果表明基于Boosting集成算法的随机梯度提升模型优其他模型。Tahraoui et al.(2022)使用聚合(bag)和最小二乘提升法(lsboost)来增强决策树(DT),对地下水有机物分布进行建模(图10),结果表明最小二乘提升树(DT_lsboost)模型的预测值和有机物浓度之间具有良好一致性(相关系数为0.9992),证明集成算法在地下水污染物浓度预测方面具有显著优势。
-
2.3 混合学习
-
混合模型是将两种及两种以上的机器学习算法组合,或者将某种智能优化算法与机器学习算法相结合,是为了弥补单一方法存在的缺陷,解决单一方法无法解决的复杂问题,以提高模型预测精度为目标而产生的一类组合模型。其中,智能优化算法主要包括遗传算法(GA)、粒子群优化算法(PSO)等,可对实现对基础模型性能(复杂度、正确性、健壮性)的优化。目前,已有学者应用混合模型来研究地下水资源、环境以及由地下水引发的地质灾害问题,并取得了许多新的认识。
-
2.3.1 多种机器学习算法混合
-
目前在地下水环境研究中,多种机器学习算法混合模型已初步应用于地下水水质评价、地下水资源潜力评价等方面。如Bui et al.(2020)将4种单一算法,包括随机森林、模型树(M5P)、随机树(RT)、剪枝树(REP tree),分别与Bagging集成算法(BA),交叉验证参数选择(CVPS)和随机过滤分类(RFC)进行混合(图11),预测伊朗北部某湿润气候区的水质综合指数(WQI)。结果显示,混合模型比单一模型具有更高的准确性。Mallick et al.(2022)将旋转森林(rotation forest,RF)分别与决策树(DT)、模型树(M5P)、减少错误修剪树(REP Tree)、神经网络(neural network)、朴素贝叶斯树(NBT)进行混合,采用多个混合模型对地下水储存潜力进行预测,结果表明RF与NBT组合成的混合模型预测准确性最高,AUC达到0.947。Chen Yunzhi et al.(2021)将深度学习(deep learning)与Boosting集成算法、提升树(boosted tree)、人工神经网络(ANN)、神经网络(NN)等模型混合,预测伊朗马尔卡齐省萨维市的地下水资源潜力,所有混合模型精度都较为理想,其中deep learning-boosting混合模型AUC最高,取值范围高达0.87~0.99。
-
图9 使用随机森林模型预测高砷地下水分布(据Fu Yu et al.,2022)
-
Fig.9 Random forest model was used to predict the distribution of high arsenic groundwater (after Fu Yu et al., 2022)
-
图10 使用增强决策树预测水中有机物流程(据Tahraoui et al.,2022)
-
Fig.10 Prediction of organic matter processes in water using enhanced decision trees (after Tahraoui et al., 2022)
-
2.3.2 机器学习算法与智能优化算法混合
-
在地下水环境研究中,机器学习算法与智能优化算法构成的混合模型主要应用于污染源识别、地下水水质评价等方面。如Li Jiuhui et al.(2020)将极限学习机(ELM)与粒子群优化(PSO)结合,构造了PSO-ELM混合模型(图12),识别地下水污染源,与单一模型(人工神经网络、广义神经网络和极限学习)进行比较,发现PSO-ELM模型准确性更高。Wu Ruohan et al.(2021)将随机森林与专家系统进行混合,利用专家系统选取对砷分布影响较大的因素作为输入变量,对乌拉圭地下水中砷浓度超过10 μg/L的区域进行了预测,并与单一的随机森林模型进行对比,混合模型预测的高砷区分布准确度更高。Senoro et al.(2021)将神经网络粒子群优化(NN-SO)与经验贝叶斯克里金(EBK)混合后,对多种重金属离子空间分布进行插值,指出混合模型较单一的EBK插值结果更加准确,体现在均方根误差更小,并且相关系数更大。
-
图11 机器学习算法相互混合示意图(据Bui et al.,2020)
-
Fig.11 Schematic diagram of mixing machine learning algorithms with each other (after Bui et al., 2020)
-
2.4 深度学习
-
近年来,深度学习(deep learning)因其分析处理数据非线性关系和复杂性的能力而受到极大关注。这种机器学习技术成功的主要原因是它忽略了传统机器学习算法最具代表性的特征选择的要求(Hernández-Blanco et al.,2019)。相比之下,深度学习是一种自我确定的方法,它通过学习所有特征去发现给定任务所需特征(Zhong Xiaolin et al.,2012),可以从给定的数据集中逐步构建高级属性。这种机器学习技术是人工神经网络方法的扩展,具有额外的复杂架构,高度的模型配置灵活性、更强的泛化能力和强大的学习能力,使这种方法适合管理多维输入(Heo et al.,2012)。
-
目前深度学习在水质分类、预测方面应用较为广泛。Singha et al.(2021)构建了基于深度学习(DL)的地下水水质预测模型,并与随机森林(RF)、极端梯度提升(XGBoost)和人工神经网络(ANN)三种机器学习模型进行了比较,结果表明DL模型预测精度最高。Sda et al.(2021)实现了一种先进的深度学习方法——长短期记忆循环神经网络(LSTM)(图13),构建了阿尔及利亚的 Tilesdit地区饮用水水质智能分类模型,能够实现高效实时水质分类预测,其准确率达到99.72%。
-
图12 极限学习机与粒子群优化算法混合过程图(据Li Jiuhui et al.,2020)
-
Fig.12 The hybrid process diagram of extreme learning machine and particle swarm optimization algorithm (after Li Jiuhui et al., 2020)
-
深度学习常以大规模样本集为前提,在众多领域取得了巨大的成功,并在许多实际生产和生活中得到了成功应用(Sohn et al.,2011; Mohamed et al.,2012)。但它对于某些现实世界的具体问题仍然存在一定的局限性,深度学习的理想应用场景是拥有大量带标签的训练数据,与测试数据具有相同的特征空间和分布,然而在水文地质研究领域内,由于调查、取样及测试条件的限制,导致可实际获取的数据量往往较少,这就会导致模型精度降低甚至无法建立有效反映现实状况的模型。为了解决小样本问题,目前主要从数据增强和算法优化两个角度出发,来解决此类问题。
-
以数据增强角度,通常需要进行特征数据增强工作。Chan et al.(2017)利用GAN神经网络生成了不同的岩性结构体,模拟了地质结构的各类特性,形成的GAN模型可以根据参考数据形成符合真实特性的地质结构和特征流体,进而将模拟获得的数据集与有限的实测数据集进行整合,形成增强型数据,为小样本的建模工作提供了新思路。Mo Shaoxing et al.(2019)利用TOUGH2数值模型模拟生成不同情况下的气液边界,继而将数值模拟结果代入深度卷积神经网络(DCNN)进行训练,最终结果显示建立的DCNN模型,能够有效地替代数值模型进行气液界面的判断和界定。同年,Mo Shaoxing et al.(2019)在构建由数值模拟形成的地下水污染的增强数据集后,利用DCNN模型完成了对污染源的识别研究,证明了数据增强方法在地下水污染小样本建模过程的有效性和实用性。
-
图13 LSTM 神经网络模型架构(据Sda et al.,2021)
-
Fig.13 LSTM neural network model architecture (after Sda et al., 2021)
-
以算法优化的角度,为了能在样本数量有限的条件下获取良好泛化能力的模型,迁移学习作为针对小样本的优化算法应运而生。迁移学习的任务就是利用来自相关领域(源领域)的知识,以提高学习性能和最小化目标领域所需样本数量为目标,将学到的知识快速迁移到一个新的领域(目标领域)(Patel et al.,2015)。迁移学习可以减少对目标领域大量数据的依赖,适合处理解决小样本和个性化问题,已在众多领域验证了其通用性。Guo Hongwei et al.(2020)构建了一个基于物理信息神经网络(PINN)和迁移学习的改进 NAS 模型,成功解决了多孔介质中的地下水流动问题。Willard et al.(2021)通过构建元迁移学习(MTL)框架,在145个有良好监控数据的湖泊中构建源模型,预测了美国中西部缺乏监测数据的305个湖泊特定深度的温度。谢先军团队(Cao Hailong et al.,2022)采用基于孪生网络的迁移学习技术(SNTL)(图14),在缺少丰富地下水水质数据条件下,实现了对原生劣质地下水空间分布的高精度预测。
-
3 讨论
-
对比机器学习算法在地下水污染应用效果,聚类算法主要基于地下水样品点在参数空间上的分布特征,考虑数据的相似性和差异性,将数据集分成不同的类别。主成分分析主要是在保留原始数据的主要信息的基础上简化数据集;聚类和主成分分析常常联合使用,不但有助于识别地下水污染物的影响因子,也可为在地下水污染建模提供数据预处理。
-
目前,以回归为主的监督学习算法(包括:逻辑回归,树形结构算法的回归树、随机森林和提升回归树以及人工神经网络)已成为地下水污染建模的主流方法。逻辑回归可以直接获取地下水污染物与影响因子之间的数值关系,但该算法需要用显性的形式描述影响因子与因变量之间的关系,因此模型性能表现一般(Ayotte et al.,2006)。树形结构算法可以考虑影响因子间的相互关系,且不需要对参数分布进行过多的假设,其中随机森林和增强回归树因具有复杂的集成学习结构,通常模型性能表现较高。神经网络在地下水污染建模过程中非线性关系刻画表现较好,但可解读性较差,只通过敏感性分析来评估参数对地下水污染物的影响,不能明确解析地下水污染富集的机理过程。深度学习模型方法是人工神经网络的扩展,这种方法具有更强的泛化能力和强大的学习能力,适合管理多维影响因子输入,比基于人工神经网络的预测方法具有更高的预测精度。作为深度学习中的前沿方向,迁移学习降低了对大规模样本的依赖,适合处理解决小样本数据和个性化问题,但需要存在与测试样本(目标领域)相近的训练样本(源领域),否则可能导致负迁移。混合模型是一种高效的模型组合,可以弥补单一方法存在的缺陷、解决单一方法无法解决的复杂问题。近年来,集成学习模型在地下水污染建模中的应用逐渐加强,可以克服普通机器学习模型存在的统计问题(当搜索空间对于可用的训练数据来说太大)、计算问题(学习算法无法找到最优解)和表示问题(当学习算法缺乏对应的函数表达),因此具有更高的建模效率。目前现有的地下水污染研究中所使用的机器学习方法的优劣及适用范围见表2,尽管这些方法已在地下水污染研究建模中应用广泛,但每种方法都有其局限性和适用性。
-
图14 基于孪生神经网络的迁移学习框架(据Cao Hailong et al.,2022)
-
Fig.14 Siamese network-based transfer learning framework (after Cao Hailong et al., 2022)
-
4 结论与展望
-
本文全面介绍了近年来机器学习在地下水环境背景值及污染评价的应用成果,详细归纳了各类算法的机理,总结了技术优劣和适用环境。尽管已有研究表明,使用机器学习算法可以处理很多复杂的地下水污染建模问题,但由于地下水数据固有的小样本、不均衡的特点,以及随着建模数据多模态、高维度的发展趋势,机器学习算法在学习目标和建模效率方面遇到了新的挑战,为更好地支撑服务地下水环境背景值、污染风险评价及预测研究工作,对机器学习的应用和发展提出以下几点展望:
-
(1)探索高效集成学习模型。目前国内外多项成果已经证明,通过集成不同的机器学习方法可以较好地解决成因复杂的地下水污染问题。然而,目前的文献中,集成学习主要采用了一些常规学习算法作为基础学习器。但一些新颖且知名的机器学习算法,例如自适应模糊推理系统(ANFIS)、数据处理群方法(GMDH)、基因表达式编程(GEP)、深度回波状态和详尽可能性模型(ELM),极少被采用。然而,这些新颖先进算法在单独处理复杂问题方面的效率已得到证明。因此,如何将这些新兴的建模算法进行筛选、集成,进而提升集成学习模型的效率和稳定性,是需要格外关注的。
-
(2)发展面向小样本的深度学习建模技术。由于地下水水质连续监测数据通常是非线性或非平稳的,因此对地下水污染组分变化趋势的预测非常复杂和棘手,深度学习可以用来提取变量间的非线性关系,而无需考虑它们的显式形式。但是,长期连续的地下水化学组分监测资料极难获得,并且经常存在缺失值(例如,项目资金有限难以支撑持续水质监测工作、样品获取受到水质监测井密度限制),这些缺失值可能会降低数据质量,并且会增加地下水化学组分时空变化模拟的不确定性。如何在样本量有限的条件下,充分利用已有的水质监测数据,从中抽取知识进而完成新的学习任务,还需要借鉴其他领域的经验,进一步挖掘深度学习在地下水污染预测方面的潜力。
-
参考文献
-
Abdelaziz S, Gad M I, El Tahan A H M H. 2020. Groundwater quality index based on PCA: Wadi El-Natrun, Egypt. Journal of African Earth Sciences, 172: 103964.
-
Agoubi B, Dabbaghi R, Kharroubi A. 2018. A mamdani adaptive neural fuzzy inference system for improvement of groundwater vulnerability. Groundwater, 56(6): 978~985.
-
Ahmed A N, Othman F B, Afan H A, Ibrahim R K, Elshafie A. 2019. Machine learning methods for better water quality prediction. Journal of Hydrology, 578: 124084.
-
Alnahit A O, Mishra A K, Khan A A. 2022. Stream water quality prediction using boosted regression tree and random forest models. Stochastic Environmental Research and Risk Assessment, 36: 2661~2680.
-
Apté C, Weiss S. 1997. Data mining with decision trees and decision rules. Future Generation Computer Systems, 13(2-3): 197~210.
-
Arabgol R, Sartaj M, Asghari K. 2015. Predicting nitrate concentration and its spatial distribution in groundwater resources using support vector machines (SVMs) model. Environmental Modeling & Assessment, 21(1): 71~82.
-
Arslan O. 2013. Spatially weighted principal component analysis (PCA) method for water quality analysis. Water Resources, 40(3): 315~324.
-
Aullón A A, Schulz C, Bundschuh J, Jacks G, Thunvik R, Gustafsson J, Mörth C, Sracek O, Ahmad A, Bhattacharya P. 2020. Hydrogeochemical controls on the mobility of arsenic, fluoride and other geogenic co-contaminants in the shallow aquifers of northeastern LaPampa Province in Argentina. Science of the Total Environment, 715: 136671.
-
Awomeso J A, Ahmad S M, Taiwo A M. 2020. Multivariate assessment of groundwater quality in the basement rocks of Osun State, Southwest, Nigeria. Environmental Earth Sciences, 79(5): 1~9.
-
Ayotte J D, Nolan B T, Nuckols J R, Cantor K T, Robinson G R, Baris D, Hayes L, Karagas M, Bress W, Silverman D T, Lubin J. 2006. Modeling the probability of arsenic in groundwater in New England as a tool for exposure assessment. Environmental Science & Technology, 40(11): 3578.
-
Ayvaz M T. 2016. A hybrid simulation-optimization approach for solving the areal groundwater pollution source identification problems. Journal of Hydrology, 538: 161~176.
-
Baldi P, Hornik K. 1989. Neural networks and principal component analysis: Learning from examples without local minima. Neural Networks, 2(1): 53~58.
-
Banda T D, Kumarasamy M. 2020. Application of multivariate statistical analysis in the development of a surrogate water quality index (WQI) for South African Watersheds. Water, 12(6): 1584.
-
Barzegar R, Asghari M A, Adamowski J, Nazemi A H. 2019. Delimitation of groundwater zones under contamination risk using a bagged ensemble of optimized DRASTIC frameworks. Environmental Science and Pollution Research, 26(8): 8325~8339.
-
Bengio Y. 2009. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2(1): 1~127.
-
Bertrand G F, Paiva A L R, Araújo F J B, Silva P C J J, Veras A T B, Carvalho F J A A. 2022. River bank filtration in tropical metropoles: Integrated evaluation of physical, geochemical and biochemical interactions in Recife, NE Brazil. International Journal of Environmental Science and Technology, 19: 5803~5818.
-
Breiman L. 1996. Bagging predictors. Machine Learning, 24: 123~140.
-
Bui D T, Khosravi K, Tiefenbacher J, Nguyen H, Kazakis N. 2020. Improving prediction of water quality indices using novel hybrid machine-learning algorithms. Science of the Total Environment, 721: 137612.
-
Cao Hailong, Xie Xianjun, Shi Jianbo, Jiang Guibin, Wang Yanxin. 2022. Siamese network-based transfer learning model to predict geogenic contaminated groundwaters. Environmental Science & Technology, 56(15): 11071~11079.
-
Ccoicca Y. 2013. Applications of support vector machines in the exploratory phase of petroleum and natural gas: A survey. International Journal of Engineering & Technology, 2(2): 113.
-
Chan S, Elsheikh A H. 2017. Parametrization and generation of geological models with generative adversarial networks. arXiv preprint, arXiv: 1708. 01810 [stat. ML].
-
Chen Honghan, Liu Mingzhu. 2007. Analysis and suggestion on protection of groundwater drinking water source. Environmental Protection, (2): 58~160 (in Chinese with English abstract).
-
Chen Shenglei, Webb G I, Liu Linyuan, Ma Xin. 2020. A novel selective naïve Bayes algorithm. Knowledge-Based Systems, 192: 105361.
-
Chen Yunzhi, Chen Wei, Chandra P S, Saha A, Chowdhuri I, Adeli B, Janizadeh S, Dineva A A, Wang X, Mosavi A. 2021. Evaluation efficiency of hybrid deep learning algorithms with neural network decision tree and boosting methods for predicting groundwater potential. Geocarto International, 37(19): 5564~5584.
-
Cortes C, Vapnik V. 1995. Support-vector networks. Machine learning, 20(3): 273~297.
-
Danielsson Å, Cato I, Carman R, Rahm L. 2009. Spatial clustering of metals in the sediments of the Skagerrak/Kattegat. Applied Geochemistry, 14(6): 689~706.
-
Delgadoo A, GIL F, Chullunquia J, Valdivia T, Carbajal C. 2021. Water quality analysis in Mantaro River, Peru, before and after the Tailing's accident using the grey clustering method. International Journal on Advanced Science Engineering and Information Technology, 11(3): 917.
-
Descourvières C, Hartog N, Patterson B M, Oldham C, Prommer H. 2010. Geochemical controls on sediment reactivity and buffering processes in a heterogeneous aquifer. Applied Geochemistry, 25(2): 261~275.
-
Feng Yuguo. 1992. Grey cluster and comprehensive evaluation of groundwater quality. System Engineering Theory and Practice, (6): 46~48 (in Chinese with English abstract).
-
Freund Y, Schapire R E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55(1): 119~139.
-
Fu Xingqiu, Zou Zhihong. 2018. Water quality evaluation of the Yellow River basin based on gray clustering method. IOP Conference Series: Earth and Environmental Science: 128(1): 012139.
-
Fu Yu, Cao Wengeng, Pan Deng, Ren Yu. 2022. Changes of groundwater arsenic risk in different seasons in Hetao basin based on machine learning model. Science of the Total Environment, 817: 153058 (in Chinese with English abstract).
-
Gao Qi, Zhang Baosheng, Yang Zongling. 2020. Research on comprehensive evaluation of air quality in Beijing based on entropy weight and grey clustering method. Journal of Applied Science and Engineering Innovation, 6(4): 195~202.
-
Gholami V, Sebghati M, Yousefi Z. 2016. Integration of artificial neural network and geographic information system applications in simulating groundwater quality. Environmental Health Engineering and Management, 3(4): 173~182.
-
Gogu R C, Dassargues A. 2000. Current trends and future challenges in groundwater vulnerability assessment using overlay and index methods. Environmental Geology, 39(6): 549~559.
-
Guo Hongwei, Zhuang Xiaoying, Liang Dawei, Rabczuk T. 2020. Stochastic groundwater flow analysis in heterogeneous aquifer with modified neural architecture search (NAS) based physics-informed neural networks using transfer learning. arXiv preprint, arXiv: 2010. 12344 [cs. LG].
-
Hansen L K, Salamon P. 1990. Neural network ensembles. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(10): 993~1001.
-
He Baonan, He Jiangtao, Sun Jichao, Wang Junjie, Wen Dongguang, Jin Jihong, Peng Cong, Zhang Changyan. 2022. Comprehensive evaluation of regional groundwater pollution: Research status and suggestion. Earth Science Frontiers, 29(3): 51~63 (in Chinese with English abstract).
-
Heo P, Gu G M, Lee S J, Rhee K, Kim J. 2012. Current hand exoskeleton technologies for rehabilitation and assistive engineering. International Journal of Precision Engineering and Manufacturing, 13(5): 807~824.
-
Hernández-Blanco A, Herrera-Flores B, Tomás D, Navarro-Colorado B. 2019. A systematic review of deep learning approaches to educational data mining. Complexity, 2019: 1~22.
-
Hinton G E, Salakhutdinov R R. 2006. Reducing the dimensionality of data with neural networks. Science, 313(5786): 504~507.
-
Isazadeh M, Biazar S M, Ashrafzadeh A. 2017. Support vector machines and feed-forward neural networks for spatial modeling of groundwater qualitative parameters. Environmental Earth Sciences, 76(17): 1~14.
-
Javadi S, Hashemy S M, Mohammadi K, Howard K W F, Neshat A. 2017. Classification of aquifer vulnerability using K-means cluster analysis. Journal of Hydrology, 549: 27~37.
-
Jeihouni M, Toomanian A, Mansourian A. 2020. Decision tree-based data mining and rule induction for identifying high quality groundwater zones to water supply management: A novel hybrid use of data mining and GIS. Water Resources Manage, 34: 139~154.
-
Karpatne A, Ebert-Uphoff I, Ravela S, Babaie H A, Kumar V. 2019. Machine learning for the geosciences: Challenges and opportunities. IEEE Transactions on Knowledge and Data Engineering, 31(8): 1544~1554.
-
Kouadri S, Pande C B, Panneerselvam B, Moharir K N, Elbeltagi A. 2022. Prediction of irrigation groundwater quality parameters using ANN, LSTM and MLR models. Environmental Science and Pollution Research International, 29(14): 21067~21091.
-
Kouziokas G N, Chatzigeorgiou A, Perakis K. 2018. Multilayer feed forward models in groundwater level forecasting using meteorological data in public management. Water Resources Management, 32(15): 5041~5052.
-
Kumar N V, Mathew S, Swaminathan G. 2010. Analysis of groundwater for potability from Tiruchirappalli City using backpropagation ANN model and GIS. Journal of Environmental Protection, 1(2): 136~142.
-
Kura U N, Ramli F M, Sulaiman W N A, Ibrahim S, Zaharin A, Aris A Z, Mustapha A. 2013. Evaluation of factors influencing the groundwater chemistry in a small tropical island of Malaysia. International Journal of Environmental Research and Public Health, 10(5): 1861~1881.
-
Le Cun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, Jackel L D. 1989. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4): 541~551.
-
Lee J Y, Cheon J Y, Lee K K, Lee S Y, Lee M H. 2001. Statistical evaluation of geochemical parameter distribution in a ground water system contaminated with petroleum hydrocarbons. Journal of Environmental Quality, 30(5): 1548~1563.
-
Li Jin, Gong Xulong, Liu Yan, Zhang Yan, Gou Fugang, Liu Yuan. 2021. Correlation between shallow groundwater hydrochemical characteristics and soil salinity. Journal of Water Resources and Water Engineering, 32(1): 89~96 (in Chinese with English abstract).
-
Li Jiuhui, Lu Wenxi, Wang Han, Fan Yue, Chang Zhenbo. 2020. Groundwater contamination source identification based on a hybrid particle swarm optimization-extreme learning machine. Journal of Hydrology, 584: 124657.
-
Linnainmaa S. 1970. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master thesis of University of Helsinki.
-
Liu Honghua, Yang Jing, Ye Ming, James S, Tang Zhonghua, Dong Jie, Xing Tongju. 2021. Using t-distributed stochastic neighbor embedding (t-SNE) for cluster analysis and spatial zone delineation of groundwater geochemistry data. Journal of Hydrology, 597: 126~146.
-
Macqueen I. 1967. Some methods for classification and analysis of multivariate observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics Problems, 281~297.
-
Mahesh B. 2018. Machine learning algorithms—a review. International Journal of Science and Research, 9(1): 381~386.
-
Mallick J, Talukdar S, Alsubih M, Almesfer M K, Shahfahad, Hang H T, Rahman A. 2022. Integration of statistical models and ensemble machine learning algorithms (MLAs) for developing the novel hybrid groundwater potentiality models: A case study of semi-arid watershed in Saudi Arabia. Geocarto International, 37(22): 6442~6473.
-
Masetti M, Sterlacchini S, Ballabio C, Sorichetta A, Poli S. 2009. Influence of threshold value in the use of statistical methods for groundwater vulnerability assessment. Science of the Total Environment, 407: 3836~3846.
-
Mencio A, Boy M, Mas-Pla J. 2011. Analysis of vulnerability factors that control nitrate occurrence in natural springs (Osona Region, NE Spain). Science of the Total Environment, 409(16): 3049~3058.
-
Mo Shaoxing, Zabaras N, Shi Xiaoqing, Wu Jichun. 2019. Deep autoregressive neural networks for high-dimensional inverse problems in groundwater contaminant source identification. Water Resources Research, 5(5): 3856~3881.
-
Mohamed A R, Dahl G E, Hinton G. 2012. Acoustic mode-ling using deep belief networks. IEEE Transactionson Audio, Speech and Language Processing, 20(1): 14~22.
-
Mokdad F, Haddad B. 2017. Improved infrared precipitation estimation approaches based on K-means clustering: Application to north Algeria using MSG-SEVIRI satellite data. Advances in Space Research, 12(59): 2880~2900.
-
Mosavi A, Hosseini F S, Choubin B, Goodarzi M, Dineva A A. 2020. Groundwater salinity susceptibility mapping using classifier ensemble and Bayesian machine learning models. IEEE Access, 8: 145564~145576.
-
Mouser P, Rizzo D, Roling W, Van Breukelen B. 2005. A multivariate geostatistical approach to spatial representation of groundwater contamination using hydrochemistry and microbial community profiles. Environmental Science & Technology, 39(19): 7551~7559.
-
Nakić Z, Kovač Z, Parlov J, Perković D. 2020. Ambient background values of selected chemical substances in four groundwater bodies in the Pannonian region of Croatia. Water, 12: 2671.
-
Norman A G. 2000. Clustering algorithm studies. AIP Conference Proceedings, 578: 1.
-
Parrone D, Ghergo S, Preziosi E. 2019. A multi-method approach for the assessment of natural background levels in groundwater. Science of the Total Environment, 659: 884~894.
-
Parrone D, Frollini E, Preziosi E, Ghergo S. 2021. eNaBLe, an on-line tool to evaluate natural background levels in groundwater bodies. Water, 13(1): 74.
-
Patel V M, Gopalan R, Li R. 2015. Visual domain adaptation: a survey of recent advances. Signal Processing Magazine, IEEE, (3): 53~69.
-
Paul J W. 1982. Applications of advances in nonlinear sensitivity analysis. Lecture Notes in Control and Information Sciences, 38(1): 762~770.
-
Pham Q B, Kumar M, DiNunno F, Elbeltagi A, Granata F, Islam A, Swapan T, Nguyen X, Ahmed A, Duong T A. 2022. Groundwater level prediction using machine learning algorithms in a drought-prone area. Neural Computing and Applications, 34(1): 1~23.
-
Reghunath R, Sreedhara M T R, Raghavan B R. 2002. The utility of multivariate statistical techniques in hydrogeochemical studies: An example from Karnataka, India. Water Research, 36(10): 2437~2442.
-
Rizeei H M, Azeez O S, Pradhan B. 2018. Assessment of groundwater nitrate contamination hazard in a semi-arid region by using integrated parametric IPNOA and data-driven logistic regression models. Environmental Monitoring and Assessment, 190(11): 633.
-
Rotiroti M, Mauro B D, Fumagalli L, Bonomi T. 2015. COMPSEC, a new tool to derive natural background levels by the component separation approach: Application in two different hydrogeological contexts in northern Italy. Journal of Geochemical Exploration, 158: 44~54.
-
Rumelhart D, Hinton G, Williams R. 1986. Learning representations by back-propagating errors. Nature, 323: 533~536.
-
Sagi M, Rokach M. 2018. Ensemble learning: A survey. WIREs Data Mining and Knowledge Discovery, 8(4): 1~18.
-
Sajedi-Hosseini F, Malekian A, Choubin B, Rahmati O, Cipullo S, Coulon F, Pradhan B. 2018. A novel machine learning-based approach for the risk assessment of nitrate groundwater contamination. Science of the Total Environment, 644: 954~962.
-
Sda B, Mla C. 2021. A novel approach for water quality classification based on the integration of deep learning and feature extraction techniques. Chemometrics and Intelligent Laboratory Systems, 214: 104329.
-
Senoro D B, de Jesus K L M, Mendoza L C, Apostol E M D, Escalona K S, Chan E B. 2021. Groundwater quality monitoring using in-situ measurements and hybrid machine learning with empirical ayesian Kriging interpolation method. Applied Sciences, 12(1): 132.
-
Shahab A, Adnan S, Khan M, Keita S, Rad S, Shihua Q. 2019. Groundwater vulnerability assessment using GIS-based DRASTIC method in the irrigated and coastal region of Sindh province, Pakistan. Hydrology Research, 50(1): 319~338.
-
Shinde P P, Shah S. 2018. A review of machine learning and deep learning applications. 2018 Fourth International Conference on Computing Communication Control and Automation, 1~6.
-
Singha S, Pasupuleti S, Singha S S, Singh R, Kumar S. 2021. Prediction of groundwater quality using efficient machine learning technique. Chemosphere, 276: 130265.
-
Sohn K, Jung D Y, Lee H. 2011. Efficient learning of sparse, distributed, convolutional feature representations for object recognition. Proceeding of 2011 IEEE International Conference on Computer Vision, Barcelona, 2643~2650.
-
Stefania G A, Zanotti C, Bonomi T, Fumagalli L, Rotiroti M. 2018. Determination of trigger levels for groundwater quality in landfills located in historically human-impacted areas. Waste Management, 75: 400~406.
-
Tahraoui H, Amrane A, Belhadj A E, Zhang J. 2022. Modeling the organic matter of water using the decision tree coupled with bootstrap aggregated and least-squares boosting. Environmental Technology & Innovation, 27: 102419.
-
Temino-Boes R, Romero-Lopez R, Ibarra-Zavaleta S P, Romero I. 2020. Using grey clustering to evaluate nitrogen pollution in estuaries with limited data. Science of the Total Environment, 722: 137964.
-
Tien B D, Tuan T A, Klempe H, Pradhan B, Revhaug I. 2016. Spatial prediction models for shallow landslide hazards: A comparative assessment of the efficacy of support vector machines, artificial neural networks, kernel logistic regression and logistic model tree. Landslides, 13(2): 361~378.
-
Ujević Bošnjak M, Capak K, Jazbec A, Casiot C, Sipos L, Poljak V, Dadić Z. 2012. Hydrochemical characterization of arsenic contaminated alluvial aquifers in Eastern Croatia using multivariate statistical techniques and arsenic risk assessment. Science of the Total Environment, 420: 100~110.
-
Voss F D. 2003. Development and testing of method for assessing and mapping agricultural areas susceptible to atrazine leaching in the State of Washington. U. S. Geological Survey Water Resources Investigations Report 03-4173, 13.
-
Wang Yanxin. 2007. Groundwater Pollution and Prevention. Beijing: Beijing Higher Education Press (in Chinese with English abstract).
-
Willard J D, Read J S, Appling A P, Oliver S K, Kumar V. 2021. Predicting water temperature dynamics of unmonitored lakes with meta transfer learning. Water Resources Research, 57(7): 1~14.
-
Wu Ruohan, Alvareda E M, Polya D A, Blanco G, Gamazo P. 2021. Distribution of groundwater arsenic in Uruguay using hybrid machine learning and expert system approaches. Water, 13(4): 527.
-
Xiao Chao. 2021. Study on risk assessment method of groundwater pollution in a certain area of northeast Beijing. Master thesis of Guilin University of Technology (in Chinese with English abstract).
-
Yudhana A, Sulistyo D, Mufandi I. 2021. GIS-based and naïve Bayes for nitrogen soil mapping in Lendah, Indonesia. Sensing and Bio-Sensing Research, 33: 100435.
-
Zhang Min, Gao Dongdong, He Chengjiang, Zhao Junhai, Yin Heng. 2016. Environmental quality evaluation of Deyang plain groundwater based on fuzzy mathematics. Environmental Monitoring & Assessment, 34(4): 151~155 (in Chinese with English abstract).
-
Zhang Xinyu, Xin Baodong, Wang Xiaohong, Guo Gaoxuan, Lu Haiyan, Ji Zhiqun, Shen Yuanyuan. 2011. Research progress of groundwater pollution in China. Earth and Environment, 39(3): 415~422 (in Chinese with English abstract).
-
Zhao Yongsheng. 2007. Groundwater pollution control and remediation. Journal of Jilin University (Earth Science Edition), 37(2): 303~310 (in Chinese with English abstract).
-
Zhong Xiaolin, Wang Xiaowen. 2012. Direct numerical simulation on the receptivity, instability, and transition of hypersonic boundary layers. Annual Review of Fluid Mechanics, 44(1): 527~561.
-
Zhou Yangxiao, Li Wenpeng. 2008. Groundwater quality monitoring and assessment. Hydrogeology & Engineering Geology, (1): 1~11 (in Chinese with English abstract).
-
陈鸿汉, 刘明柱. 2007. 地下水饮用水源保护的分析及建议. 环境保护, (2): 58~160.
-
费宇红, 刘雅慈, 李亚松, 包锡麟, 张鹏伟. 2021. 中国地下水污染修复方法和技术应用展望. 中国地质, (2): 420~434.
-
冯玉国. 1992. 灰色聚类与水质污染综合评价. 系统工程理论与实践, (6): 46~48.
-
何宝南, 何江涛, 孙继朝, 王俊杰, 文冬光, 荆继红, 彭聪, 张昌延. 2022. 区域地下水污染综合评价研究现状与建议. 地学前缘, 29(3): 51~63.
-
李进, 龚绪龙, 刘彦, 张岩, 苟富刚, 刘源. 2021. 浅层地下水水化学特征与土体盐分相关性研究. 水资源与水工程学报, 32(1): 89~96.
-
王焰新. 2007. 地下水污染与防治. 北京: 高等教育出版社.
-
肖超. 2021. 北京市东北部某区域地下水污染风险评价研究. 桂林理工大学硕士学位论文.
-
张敏, 高东东, 何成江, 赵军海, 尹恒. 2016. 基于模糊数学的德阳市平原地下水环境质量评价. 环境工程, 34(4): 151~155.
-
张新钰, 辛宝东, 王晓红, 郭高轩, 陆海燕, 纪轶群, 沈媛媛. 2011. 我国地下水污染研究进展. 地球与环境, 39(3): 415~422.
-
赵勇胜. 2007. 地下水污染场地污染的控制与修复. 长春工业大学学报(自然科学版), 37(2): 303~310.
-
周仰效, 李文鹏. 2008. 地下水水质监测与评价. 水文地质工程地质, (1): 1~11.
-
摘要
地下水资源在世界各国水资源中占有举足轻重的地位,对人类生存发展、维系生态系统健康发挥着重要作用。现阶段地下水污染日益严重,地下水环境背景值研究和污染风险评价对地下水污染防治工作具有重要意义。由于地下水污染影响因素复杂,地下水化学组分空间分布的非均质性、地下水样品采集的小样本问题与大尺度区域的高计算代价,都对传统的污染风险评价方法构成了极大挑战。机器学习作为人工智能的核心,已成为水文地质领域研究的前沿热点,通过智能高效的数据处理和挖掘,在地下水化学组分的分布、变化以及赋存机制等方向已得到探索和尝试。本文全面介绍了近年来在地下水污染研究方面应用的机器学习方法,涵盖了以聚类为主的非监督学习算法,以回归为主的监督学习算法,以提升算法效率为目标的混合算法,以及以神经网络为核心的深度结构算法,展示了不同类型算法在地下水污染研究方面的成果,详细归纳了各种算法的机理,对算法的技术优劣及适用方向进行了探讨;最后对机器学习在地下水污染方面的应用发展趋势进行了展望,建议探索高效集成学习模型,以弥补单一算法的不足,同时发展面向小样本的深度学习建模技术,提高地下水污染评价精度,拓展和丰富新方法新技术在地下水污染研究方面的应用。
Abstract
Groundwater resources play an important role in water resources of all countries in the world. They are essential for human survival, development and maintenance of health of ecosystem. At this stage, groundwater pollution is becoming increasingly serious. The research on groundwater environmental background value and pollution risk assessment is of great significance for the prevention and control of groundwater pollution. The factors influencing groundwater pollution are complex, including heterogeneity in spatial distribution of groundwater chemical components, small groundwater sample size and high calculation cost of large scale areas. These limitations pose a great challenge in the traditional pollution risk assessment methods. As the core of artificial intelligence, machine learning has recently become a frontier hot spot in hydrogeology research, newer approaches using intelligent and efficient data processing and mining have explored the distribution, variation and occurrence mechanism of groundwater chemical components. This paper comprehensively introduces the machine learning methods applied in groundwater pollution research in recent years, including unsupervised learning algorithm based on clustering, supervised learning algorithms based on regression, hybrid algorithm aimed at improving algorithm efficiency, and depth structure algorithm with neural network as the core, showing the achievements of different types of algorithms in groundwater pollution research. The mechanism of each algorithm is summarized in detail, the technical advantages and disadvantages of the algorithm and the applicable direction are discussed. Finally, the application and development trend of machine learning in the field of groundwater pollution are evaluated. It is suggested to explore an efficient integrated learning model to make up for the shortcomings of a single algorithm. At the same time, the deep learning modeling technology for small samples is developed to improve the accuracy of groundwater pollution assessment, and expand and enrich the application of new methods and technologies in groundwater pollution research.