环境科学研究  2020, Vol. 33 Issue (3): 718-727  DOI: 10.13198/j.issn.1001-6929.2019.07.11

引用本文  

田嘉禹, 刘俐, 汪群慧, 等. 中美土壤元素背景值调查研究中数理统计方法运用及影响[J]. 环境科学研究, 2020, 33(3): 718-727.
TIAN Jiayu, LIU Li, WANG Qunhui, et al. Application and Impact of Statistic Methods on the Soil Background Values in China and the United States[J]. Research of Environmental Sciences, 2020, 33(3): 718-727.

基金项目

国家重点研发计划项目(No.2017YFA0207002,2016YFD0800905);全国土壤污染状况详查(广西土壤重金属背景综合分析与评估专题研究)
National Key Research and Development Program of China (No.2017YFA0207002, 2016YFD0800905); Nationwide Soil Pollution Survey of China (Special Research on Comprehensive Analysis and Assessment of Soil Heavy Metal Elements Background Value in Guangxi Zhuang Autonomous Region)

责任作者

刘俐(1961-), 女, 山东潍坊人, 教授, 博士, 主要从事土壤污染调查、评估和修复研究, liuli@craes.org.cn.

作者简介

田嘉禹(1995-), 男, 北京人, 460709162@qq.com

文章历史

收稿日期:2018-12-15
修订日期:2019-06-25
中美土壤元素背景值调查研究中数理统计方法运用及影响
田嘉禹1,2, 刘俐2, 汪群慧1, 黎宁3, 邓超冰3    
1. 北京科技大学能源与环境工程学院, 北京 100083;
2. 中国环境科学研究院, 北京 100012;
3. 广西壮族自治区环境监测中心站, 广西 南宁 530028
摘要:土壤元素背景值是统计性的范围值,是评价土壤环境质量和制定土壤环境质量标准的重要参考依据,其因土壤母质、成因以及各种地球化学作用的影响而不同.通过分析20世纪60年代至90年代中美土壤元素背景值调查研究中数理统计方法的运用,发现当时受国内外学者对土壤元素含量及统计分析方法认识的局限,中美在土壤元素背景值研究中存在一些偏态分布被当作正态分布、对称剔除偏态分布的异常值和用平均值计算偏态分布背景值等问题,可能导致所得土壤元素背景值不能很好地代表区域背景情况.2007-2013年美国再次开展全国土壤调查和土壤元素背景值研究,对数理统计方法做出了改进和优化,主要包括:①用箱式图法分析距离中间50%数值较远的异常值;②针对对数分布形态也进行了分析;③用中位数和绝对中位偏差计算偏态分布的土壤元素背景值.在研究方法有了新的认识和发展的今天,建议中国优化土壤元素背景值数理统计研究方法,再次开展全国土壤元素背景含量调查工作,并从以下两个方面加以改进:①采用箱式图剔除异常值;②针对不同的频数分布形态计算相应的统计量作为土壤元素背景值.
关键词土壤    元素背景值    异常值    频数分布    可信度    
Application and Impact of Statistic Methods on the Soil Background Values in China and the United States
TIAN Jiayu1,2, LIU Li2, WANG Qunhui1, LI Ning3, DENG Chaobing3    
1. School of Energy and Environmental Engineering, University of Science and Technology Beijing, Beijing 100083, China;
2. Chinese Research Academy of Environmental Sciences, Beijing 100012, China;
3. Guangxi Zhuang Autonomous Region Environmental Monitoring Center, Nanning 530028, China
Abstract: The background values of soil elements were generally derived from the statistical analysis of the soil survey data, which can provide an important reference for the development of soil quality standards and evaluation of soil quality. The background values are influenced by a range of factors, including parent material, soil genesis, and geochemical effect. The limitations of the knowledge of soil element contents and statistical methods proposed by domestic and foreign scholars were discussed based on the analysis of the national soil background values survey in China and the USA from the 1960s to 1990s. The statistical methods for the background values derivation were somewhat problematic in China and the USA. For example, the skewed distribution was mistaken for the normal distribution, the outliers were eliminated symmetrically in the skewed distribution, and the average values were used as the background values in the skewed distribution. Therefore, the background values obtained cannot represent the regional background contents exactly. Improvements and optimizations were made in the USA in the latest national soil background values survey and research in 2007-2013. First, the outliers away from the middle 50% of the data were analyzed by box-plot. Second, the dataset was analyzed to follow normal distribution after taking logarithm. Third, the median and the median absolute deviation were used as the background values in the skewed distribution. In view of the above deficiencies, this study proposed to optimize the mathematical statistical method and conduct further national survey on the soil background values for China. First, the outliers should be eliminated by box-plot. Second, the frequency distribution should be demonstrated before the background values obtained. Third, the different values should be used as the background values in various frequency distribution.
Keywords: soil    elements background value    outlier    frequency distribution    degree of confidence    

土壤元素背景含量是指未受或少受人类活动影响的自然环境中土壤自身的化学元素含量.土壤污染指土壤中某些有害物质含量增加,超过土壤净化能力,并超过土壤元素背景含量.因此评价土壤是否遭受某元素污染,实质上是考察土壤中该元素含量是否高出其土壤元素背景含量.显然,土壤元素背景含量也成为土壤环境质量标准制定的重要参考依据.然而,土壤元素背景含量因土壤母质、成因、土壤质地以及各种地球化学作用的影响而不同.因此,用一个国家尺度的土壤环境质量标准未必能精准地评价其所辖所有区域的土壤环境质量.有研究[1]显示,保加利亚土壤Cr和Hg的土壤元素背景含量高于欧洲农田土壤地球化学制图项目(GEMAS)中给出的南欧土壤阈值,其中Hg含量高出了一个数量级. Reimann等[2]于2017年研究澳大利亚表层土壤元素地球化学背景及阈值时发现,约有24%采样点的Mn和V的土壤元素背景含量高于已有的澳大利亚生态调查值(ecological investigation level, EIL),指出使用EIL标准评估环境风险以及对一些元素超过该标准调查值的地块进行修复是不科学的.研究[3]还发现,欧洲各国土壤指导值相差很远,甚至高达100倍,提出不能使用统一的值来评价全欧洲的土壤环境风险,应根据区域土壤元素背景含量制定阈值或者筛选值.

由于土壤本身结构与化学组成的不均一性,导致不仅同一区域土壤中不同元素的分布规律不同,而且同一元素在不同区域土壤中的元素背景含量也存在明显差异.受采样和分析测试的影响,即使同一区域(具有相同母质和相同土类)采集的样品中同一元素的土壤元素背景含量也不完全相同.因此,人类研究所得到的一定区域内土壤元素背景含量是统计性的范围值,是按照相关要求采集一定数量的未受污染的土壤样品,通过分析,将元素含量数值经过异常值剔除、频数分布检验和分布类型确定,以能代表该区域土壤中该元素背景含量水平的并用一定置信范围表达的数理统计值. 20世纪中期,有研究[4-5]认为,土壤元素背景含量数据大多符合对数正态分布,采用几何平均值(M)可以准确地表达集中趋势.包括美国在内的许多国家都在上述观点基础上完成了土壤元素背景含量研究;直到20世纪90年代末,土壤元素背景含量数据大多符合正态或对数正态分布的认识受到质疑[6].美国地质调查局也于2007—2013年再一次进行了全国范围的土壤元素背景含量调查,对美国1961—1984年首次全国土壤元素背景含量调查中的不足进行了优化和改进.

我国于20世纪80年代到90年代开展了土壤元素背景含量研究,在统计方法运用上也有需要优化之处.我国土地辽阔,土壤类型较多,各省(自治区、直辖市)土壤所包含的元素背景含量差异较大.研究一定区域范围内不同土壤类型的土壤元素背景含量,可为土壤污染防治和环境保护以及土壤环境质量标准、风险评估筛选值、土壤修复目标值的制定,提供至关重要的参照依据和支撑.

1 土壤元素背景值与土壤环境质量标准的作用

GB 15618—1995《土壤环境质量标准》主要是根据中国“六五”“七五”时期的《中国土壤环境容量》[7]和《中国土壤元素背景值》[8]的研究结果而制定,自1995年发布实施以来,在土壤环境保护工作中发挥了重要作用. “七五”期间,全国土壤元素环境背景含量研究成果也为国家新环境质量标准制定提供了重要支撑.国家新环境质量标准于2018年6月22日由生态环境部与国家市场监督管理总局联合发布,包含GB 15618—2018《土壤环境质量农用地土壤污染风险管控标准(试行)》(简称“《农用地标准》”)和GB 36600—2018《土壤环境质量建设用地土壤污染风险管控标准(试行)》(简称“《建设用地标准》”),自2018年8月1日起实施.这两个标准因以风险管控为目标,故也被称为风险管控标准.

1.1 土壤元素背景值与《农用地标准》的应用关系

《土壤污染防治行动计划》[9]中明确指出:“实施农用地分类管理,保障农业生产环境安全——划定农用地土壤环境质量类别.按污染程度将农用地划为3个类别,未污染和轻微污染的划为优先保护类,轻度和中度污染的划为安全利用类,重度污染的划为严格管控类.以耕地为重点,分别采取相应管理措施,保障农产品质量安全”. 2017年9月25日和12月28日,原环境保护部和农业部联合发布和印发了《农用地土壤环境管理办法(试行)》(部令第46号)[10]和《农用地土壤环境质量类别划分技术指南(试行)》(环办土壤[2017]97号)[11].

《农用地标准》以保护食用农产品质量安全为主要目标,通过制定的农用地土壤污染风险筛选值和管制值,结合GB 2762—2017《食品安全国家标准食品中污染物限量》(简称“《食品安全标准》”)中关于农产品重金属含量的限值,对耕地土壤污染进行风险筛查和分类,为农用地分类管理提供技术支持.联合运用《农用地标准》和《食品安全标准》对农用地进行分类,归纳结果如表 1所示.

表 1 农用地分类管理类别划分 Table 1 Categorization management of the agricultural lands

采用《农用地标准》进行农用地分类时,有时会出现“农产品超标而土壤不超标”(见表 1中“安全利用类1)”)和“土壤超标而农产品不超标”(见表 1中“安全利用类2)”)的矛盾现象.除了由于各种农作物对土壤污染敏感性有差异、土壤中重金属有效性存在差异等因素外,区域土壤元素背景含量的差异也会引起区域性大面积土壤环境质量评价误差.以中性环境(6.5<pH≤7.5)含Cd水田为例(见表 2)来分析可能出现的耕地土壤分类和区域土壤元素背景值之间的关系,以及对农用地环境质量评价的影响.

表 2 中性环境(6.5<pH≤7.5)含Cd水田的环境质量评价和类别划分 Table 2 Environmental quality assessment and categorization management of cadmium in neutral solution paddy soils (6.5 < pH≤7.5)

《农用地标准》以保护食用农产品安全为目标,如果用于评价农用地的环境污染状况,应结合区域土壤元素背景值进行,否则就会出现误判现象.例如表 2中:①当筛选值< B或C地污染物(Cd)含量<区域土壤元素背景值时,无论农产品是否超过《食品安全标准》中限值,采用《农用地标准》的筛选值评价土壤污染状况时,会得到该农用地对农产品质量安全、农作物生长或土壤生态可能存在风险的结论;若参照区域土壤元素背景值评价,则会发现该土壤并未遭受污染. ②当区域土壤元素背景值< D或E地污染物(Cd)含量≤筛选值时,采用《农用地标准》的筛选值评价土壤污染状况,会得到该农用地对农产品质量安全、农作物生长或土壤生态的风险可以忽略的结论;若参照区域土壤元素背景值评价,则会发现该地土壤已经被污染,应该分析其具体原因,防止继续污染.

如果某农用地污染物含量超过《农用地标准》的管制值,会得到该农用地对农产品质量安全构成较高风险的结论,若农产品不符合质量安全标准,原则上要采取严格管控措施.但如果没有超过该区域土壤元素背景值,就意味着土壤并未受到人为污染,该污染物含量高是自然背景所致.如果农产品不超标,可加强农产品监测,实现安全利用;若农产品超标,可采取改变种植结构、禁止种植食用农产品、退耕还林等管控措施.但若采取土壤治理和修复等方式使其降低,显然不现实.国际上一些研究[2-3]也发现,存在区域土壤元素背景值高于已有标准值的现象,并提出根据区域土壤元素背景含量特征制定阈值或者筛选值.

1.2 土壤元素背景值与《建设用地标准》的应用关系

《建设用地标准》以保护人体健康为目标制定筛选值和管制值,为建设用地风险筛查和风险管制服务.从新颁布的风险管控标准可以看到,《农用地标准》和《建设用地标准》中同种元素的筛选值相差几十倍甚至上百倍.如《建设用地标准》中Cd的筛选值在一类用地中是20 mg/kg、二类用地中是65 mg/kg,比《农用地标准》的筛选值高出几十倍.一般来说,同一区域土壤中同种元素背景含量接近,与土地用途是农用地还是建设用地并无很大关系.因此,用风险管控标准评价土壤是否遭受了污染是不够科学的.

《建设用地标准》中某些元素(如Cd)筛选值显然也高出了大多数区域[13, 15, 17-18]的土壤元素背景值,这意味着,如果调查分析出该地块w(Cd)低于《建设用地标准》的筛选值而高于该区域土壤元素背景值,按照《建设用地标准》,该地块对人体健康的风险可以忽略.但是,如果参照区域土壤元素背景值对该地块进行环境质量评价,该地块事实上已经遭受污染,应该分析造成污染的具体原因,防止继续污染,尤其是在产企业地块.如果忽略对这类用地的管控,只关注w(Cd)超过筛选值的地块,这种低于筛选值而高于土壤元素背景值且已经造成污染或正在被污染地块的w(Cd),将来很可能会超过筛选值.

虽然,“七五”期间全国土壤元素背景含量研究是当时世界上覆盖面积最大、涉及元素最多的土壤元素背景值研究[19],20多年来在中国土壤环境评价和保护中发挥了重大作用,但是,随着国际上土壤元素背景值研究方法的发展、改进和优化,20世纪80年代各国相关研究得出的土壤元素背景值已难以较为准确地代表各种土壤类型和各区域的土壤元素背景含量.而且,多种土壤类型的各区域的土壤元素背景值相差较大.就目前的研究水平和能力看,“七五”期间全国土壤元素背景值研究中除了采样点稀疏、样品量不足以外,其数理统计方法也有应用不恰当之处.如GB 15618—1995《土壤环境质量标准》中Cd的背景值为0.2 mg/kg,而中国南方一些地区[13, 15-16, 20]的Cd背景含量已远高于0.2 mg/kg,有些地区[15]高达0.2 mg/kg的10倍.宋静等[21]分析了GB 15618—1995《土壤环境质量标准》在污染物指标、制定方法和标准定值上的不足.夏家淇等[22]通过讨论土壤环境质量标准、区域土壤元素背景值和场地土壤污染临界值,建议在区域和场地污染评价中采用当地土壤元素背景值判断土壤中是否有污染物进入.这些研究都显示了中国应再次研究和完善土壤元素背景值的必要性和紧迫性.

2 美国首次土壤元素背景值调查研究中数理统计方法的运用

1961—1984年,由美国地质调查局牵头,进行了美国大陆首次土壤地球化学背景值调查.其中,1961—1971年在全美公路沿途863个采样点采集了表层土样,并分析测定了35种元素的含量;但由于采样密度过小,又于1971—1975年补采了355个采样点,分析了46种元素土壤背景含量.这两个阶段共设置1 218个采样点,每个采样点覆盖面积为6 000 km2.经过统计分析,美国地质调查局于1984年发布了调查报告《Element Concentrations in Soils and Other Surficial Materials of the Conterminous United States》[23]. 1982—1988年,美国地质调查局完成了阿拉斯加地区首次土壤地球化学背景含量调查,选取了阿拉斯加州的266个采样点,采集0~20 cm处的表层土,检测了43种元素含量、灰分含量和pH,并发布了调查报告《Element Concentrations in Soils and Other Surficial Materials of Alaska》[24].

2.1 美国首次全国土壤元素背景值调查背景含量数据频数分布分析

早在1953年,Ahrens[4]Nature发表了“土壤元素背景含量值大多符合对数正态分布”的观点. 1967年,美国科学家Miesch[5]也得出大多数土壤元素背景含量值在对数变换后可以呈现对称分布,认为采用几何平均值(M)可以准确地表达土壤元素背景含量数据的集中趋势.这些观点误导了包括美国在内的许多国家在土壤元素背景值研究中的数理统计参数应用.直到20世纪90年代末,土壤元素背景含量数据大多符合正态或对数正态分布的观点受到质疑. Reimann等[6]提出,异常值的存在以及土壤元素背景含量数据的多种影响因素,均会导致数据并不像“土壤元素背景含量数据大多符合正态或对数正态分布”一样理想,他们对一些取样密度小、样本量较大、覆盖地域广的土壤元素背景含量(超过50种元素)的数据组(data sets)进行了正态或对数正态分布检验,结果发现,几乎所有土壤元素背景含量数据既不符合正态分布,也不符合对数正态分布.

美国首次全国土壤元素背景值调查采用了美国科学家Ahrens等[4-5]关于“自然界中大多数元素背景含量数据,特别是微量元素,在对数变换后可以呈现对称分布”的观点,46种元素中除了K和Si两种元素背景含量按正态分布计算以外,其余44种元素都按对数正态分布计算土壤元素背景值[23].数据统计分布形态中,近似正态分布形态应与正态分布类似,且关于平均值对称.而从美国大陆首次土壤元素背景值调查报告《Element Concentrations in Soils and Other Surficial Materials of the Conterminous United States》[23]可见,w(K)的算术平均值(X)为1.5 mg/kg,其分布形态并不关于算数平均值对称,并不是正态分布(见图 1). w(Al)的频数分布形态是负偏态,虽然对数变换后会使数值更集中,由于含量数值越大,集中程度越高,所以会出现频数分布更偏离正态分布,而向负偏态方向移动,不可能得到对数正态分布.这样基于错误的分布形态判断而计算得到的土壤元素背景值是不可信的.

图 1 美国大陆首次土壤地球化学元素背景调查中w(K)和w(Al)的频数分布[23] Fig.1 Frequency distribution histograms of K and Al for the first national soil background value survey in the USA[23]
2.2 美国首次全国土壤元素背景值调查异常值剔除方法分析

统计学中,将相对于数据集中其他值而言不寻常的大或小的观测值称为异常值.异常值的存在会导致由整个数据集计算得到的平均值产生偏离.土壤元素背景值数理统计中,为避免异常值导致的统计结果误差,应首先剔除其中的异常值,再做进一步分析.

美国首次调查异常值分析[23]中,除了K和Si两种元素背景含量是按照正态分布分析以外,其余元素都是按照对数正态分布分析的异常值.如w(F)和w(Na)均按照对数正态分布进行分析(见图 2),并根据1 045个数据计算得到,w(F)的几何平均值(M)为0.021 mg/kg,几何标准差(D)为3.34;根据1 193个数据计算得到,w(Na)的几何平均值(M)为0.59 mg/kg,几何标准差(D)为3.27.即将元素含量的对数按照正态分布计算得到的土壤元素背景值.若存在异常值,是按照拉依达(PauTa)法则剔除M/D3~MD3以外的数据.也就是采用正态分布对称剔除异常值的方法(剔除M/D3~MD3以外的异常值),剔除了并非对称分布的异常值.受20世纪60年代到90年代科学家们关于“土壤元素背景含量数据在对数变换后可以呈现对称分布”以及“土壤元素背景含量数据大多符合对数正态分布”等观点的影响,导致在土壤元素背景含量异常值统计分析时,都忽略了土壤元素背景含量数据绝大多数情况下是非对数正态分布的事实,以几何平均值作为土壤元素背景值.

图 2 美国大陆首次土壤地球化学元素背景调查中w(F)和w(Na)的频数分布[23] Fig.2 Frequency distribution histograms of F and Na for the first national soil background value survey in the USA[23]
2.3 美国首次全国土壤元素背景值计算

当一组数据呈正态分布时,其平均值和中位数(Me)基本相等;假若数据不呈正态分布,其平均值和中位数会有差异,由所有数据计算得出的平均值会受到异常值的影响,所得到的平均值不如中位数合理.已经有研究[6]证明,当数据既不符合正态分布也不符合对数正态分布时,采用中位数表达集中趋势以及用绝对中位偏差(MAD)表达离散趋势更为合理.近几年,国际上关于土壤元素背景值和阈值的研究者[1-3]也认识到,当数据不符合正态分布的情况下,计算中位数作为土壤元素背景值和阈值比平均值更为合理.

美国首次全国土壤元素背景值调查数据并非都符合正态或近似正态分布,甚至存在既不符合正态分布也不符合对数正态分布的情况,但均采用平均值和标准差(X±SM/D~MD)作为土壤元素背景值,忽略了数据本身在不符合正态分布的情况下所得到的平均值会受异常值的影响而出现偏差的问题,而将不一定是对数正态分布的44种元素含量值,直接计算其几何平均值和几何标准差(M/D~MD)作为土壤元素背景值,对于K和Si元素,则直接计算算术平均值和算术标准差(X±S)作为其土壤背景值.

进入21世纪初以来,Smith等[25-26]意识到20世纪60年代到90年代土壤元素背景含量研究中统计方法运用的不足,同时也考虑到美国没有一个较为全面的全美土壤地球化学含量的数据库,北美地区土壤元素背景含量以及空间分布的资料很少,对土壤元素背景值的研究不够深入,因此,2007—2013年,美国地质调查局再次启动了全国范围的土壤元素背景值调查,并对1961—1984年首次全国土壤元素背景调查研究中的不足进行了优化和改进.

3 美国第二次土壤元素背景值调查研究中数理统计方法的运用

2007—2013年,美国再次启动了土壤地球化学和矿物学调查工作,美国地质调查局以1 600 km2(40 km×40 km)的间隔确定4 857个采样点,每个剖面采集0~5 cm、A层混合样和C层土壤样品,于2010年结束采样工作,2013年完成对所有样品(包括44种矿质元素和碳元素)的3个指标(总碳、无机碳和有机碳含量)的47个项目的检测分析,并发布了调查研究报告《Geochemical and Mineralogical Data for Soils of the Conterminous United States》[27].这次调查纠正了首次调查中土壤元素背景含量值频数分布形态分析不全面的错误,利用频数分布图、箱式图、经验累积分布图等直观且更合理的分析方法,建立了土壤元素背景值.

3.1 美国第二次全国土壤元素背景值调查背景含量数据频数分布分析

2007—2013年美国的土壤元素背景值研究采用Sturges[28]的经验公式:

$ m = 1 + {\log _2}N \approx 1 + 3.322\lg \;N $ (1)

式中:m为频数分布组数,个;N为土壤元素背景数据样本量,个.通过式(1)确定频数分布图中的组数,并将土壤元素背景含量频数分布形态呈现明显正(右)偏态的数据进行了对数变换,138个频数分布图中有74个为对数频数分布,将对数变换后的数据再一次进行分布形态分析,结果显示,未做对数变换的64个原始数据的频数分布绝大部分是偏态,74个对数值的频数分布中有近一半为偏态分布.美国第二次土壤元素背景值调查研究纠正了其首次调查中,将46种元素中的44种元素含量直接当作对数正态分布,计算几何平均值(M)作为土壤元素背景值的分析方法.

3.2 美国第二次全国土壤背景值调查异常值剔除方法分析

Kürzl[29]最早建议在土壤元素背景值研究中使用箱式图.美国统计学家Tukey[30]最先用箱式图描述数据的分布形态和异常值的剔除,随后广泛应用于医疗和经济学统计领域.国际标准化组织(ISO)[31]也提出使用箱式图剔除土壤元素背景含量数据中的异常值.箱式图法适用于任何一种分布形态的异常值剔除,以不受异常值影响的位于上下四分位数之间的50%数值为基础,剔除距离中间50%数值较远的异常值.箱式图法是一种优于格拉布斯(Grubbs)和拉依达法则的异常值剔除方法.拉依达法则是剔除X±3SM/D3~MD3以外的异常值,由于平均值和标准差是通过包含异常值在内的全部数据计算得出,易受异常值影响,所以只适用于正态分布情况,难以准确剔除偏态分布情况下的异常值. 2007—2013年美国土壤元素背景值研究纠正了首次土壤元素背景值研究中异常值分析方法的错误,将138个检测项目中的64个原始数据和74个原始数据的对数值用箱式图结合土壤元素背景含量空间分布分析了异常值. 2008年非洲佛得角土壤元素背景值调查[32]也是基于箱式图的异常值分析方法.

3.3 美国第二次全国土壤元素背景值计算

进入21世纪以来,土壤元素背景值研究者们已经意识到,自然界土壤元素背景含量绝大多数情况下不是正态分布.美国第二次全国土壤元素背景值调查分析也显示,64个原始数据的频数分布和74个原始对数值的频数分布中绝大多数都是偏态分布.因此,此次研究计算并给出了所有检测项目的中位数和绝对中位偏差作为土壤元素背景值,并不像美国首次调查那样,把绝大多数元素背景含量当作对数正态分布,直接以几何平均值和几何标准差作为土壤元素背景值. 2017年欧洲农牧业土壤元素地球化学研究也是以中位数作为土壤元素背景值[33],并与美国以中位数为土壤元素背景值的同种元素进行对比和分析,如Cd元素.该研究2.1节中关于土壤元素背景含量研究也证实,自然界土壤中绝大多数元素背景含量不是正态分布,用中位数和绝对中位偏差(MAD)表达偏态分布的具有相同母岩和地球化学发育过程区域的土壤元素背景值更为合理.

4 中国首次土壤元素背景值调查研究中数理统计方法的运用

中国土壤元素背景值研究始于20世纪70年代中期. 1978年由原农牧渔业部牵头,对北京市、天津市、上海市、黑龙江省、吉林省、山东省、江苏省、浙江省、贵州省、四川省、陕西省、新疆维吾尔自治区等13个省(自治区、直辖市)的主要农业土壤和粮食作物中的9种元素含量进行了研究. 1982年中国将土壤元素背景值调查研究列入“六五”重点科技攻关项目,土壤元素背景值研究在湘江谷地和松辽平原进行,分别在430和934个采样点采集土样,获得了8个元素的土壤元素背景值.结果表明,土壤元素背景值调查研究的各种技术规定和方法,为中国“七五”时期全国范围的土壤元素背景值研究提供了技术准备. “七五”时期的调查范围包括除中国台湾以外的29个省(自治区、直辖市)和5个沿海开放城市.按照中国科学研究院南京土壤研究所主编的《中国土壤》(1980年版)[34]的土壤分类系统,以国际通用的十万分之一标准图幅为设网基础,根据中国东、中、西地区经济发展现状及前景差异,确定了约30 km×30 km、50 km×50 km和80 km×80 km的采样密度,完成了41个土类4 095个剖面的采样任务[35-36].

4.1 中国首次土壤元素背景值调查背景含量数据频数分布分析

中国“七五”期间土壤元素背景值研究得出“7种土壤常量元素近似于正态分布,其算术平均值与中位数接近(仅Ca除外);其余54个微量元素近似于对数正态分布,各元素含量几何平均值与中位数接近,无一例外”的结论[8, 19].

数理统计中,当数据集分布形态是标准正态分布时,其峰度系数为3,偏度系数为0.近似正态分布判断方法有3种,满足任一种都可以认定数据符合近似正态分布[36]:①近似正态分布形状与正态分布类似,且关于平均值对称;②计算数据的四分位差(IQR,上、下四分位数的差值)与算数标准差(S)的比值(IQR/S),标准正态分布下,算数标准差(S)为1,上、下四分位数分别为0.67和-0.67,则IQR/S=[0.67-(-0.67)]/1=1.34,有研究者[37]认为,IQR/S≈1.3时,数据符合近似正态分布;③建立数据的正态分布概率图,若数据符合近似正态分布,则数据点会近似地落在一条直线上.

《中国土壤元素背景值》[8]中,w(Mg)是按正态分布、w(Ga)是按对数正态分布进行分析,但w(Mg)的原始数据频数分布形态和ln[w(Ga)]的频数分布形态并不关于平均值对称(见图 3),不是近似正态分布. 《中国土壤元素背景值》[8]显示,w(Mg)的上、下四分位数分别为1.12和0.45 mg/kg,算数标准差(S)为0.433,其IQR/S〔(1.12-0.45)/0.433〕值为1.55,不属于近似正态分布;w(Ga)的几何平均值(M)为15.8 mg/kg,经计算可知,ln[w(Ga)]的算术平均值为2.76 mg/kg(见图 3),其对数分布形态并不关于对数的算数平均值对称,并不是对数正态分布.

图 3 中国“七五”期间全国土壤元素背景含量调查土壤A层中w(Mg)和w(Ga)的频数分布[8] Fig.3 Frequency distribution histograms of Mg and Ga in A horizon for China′s 'Seventh Five-Year Plan' period national soil background value survey[8]
4.2 中国首次土壤元素背景值调查异常值剔除方法分析

20世纪80年代,研究者[38]认为,用格拉布斯法则和拉依达法则所得到的统计参数(平均值和标准差)是基于全部数据计算得出的,与仅用数据两端值计算极差比的狄克逊(Dixon)法则相比,其异常值剔除效果较好.中国“七五”期间,土壤元素背景值研究中采用的正是格拉布斯法则和拉依达法则来剔除异常值.对于样本量>100个的统计单元,符合正态分布的,剔除X±3S以外的异常值;符合对数正态分布的,剔除M/D3~MD3以外的异常值;对于样本量≤100个的统计单元,用格拉布斯法则剔除异常值[8].

在数理统计分析中,用格拉布斯法则和拉依达法则剔除异常值,需要计算异常值的剔除范围(如拉依达法则剔除范围为X±3SM/D3~MD3),而其中的平均值〔算术平均值(X)、几何平均值(M)〕和标准差〔算数标准差(S)、几何标准差(D)〕都是基于剔除异常值之前的所有数据获得,导致所得平均值和标准差都有误差.同时,对称剔除偏态分布X±3S以外的异常值,会造成所得土壤元素背景值范围出现偏差.正如前面所分析的中国“七五”期间土壤元素背景含量分布并非全部正态分布或对数正态分布,那么,采用格拉布斯法则和拉依达法则剔除异常值,所得到的土壤元素背景值范围是不够合理的.通常情况下,对于既不符合正态分布也不符合对数正态分布的数据,可以采取两种方案解决:①计算偏态分布数据的几何平均值(M)和几何标准差(D)作为土壤元素背景值;②先剔除异常值,然后计算平均值和标准差.但Reimann等[6]认为,大多数土壤元素背景含量经对数变换后未必呈正态分布,否定了第一种方案;并指出第二种方案的关键是异常值的界定和如何准确剔除异常值以及哪些值应该保留在土壤元素背景值计算范围内. Reimann等[6]表达的正是笔者关于“对称剔除偏态分布X±3S以外的异常值的不合理性”分析所要表达的观点.

由于中位数不受极端值的影响,对于偏态分布的情况,建议用中位数作为土壤元素背景值会更准确.

4.3 中国首次土壤元素背景值调查元素背景值计算

中国“七五”期间土壤元素背景值调查研究是用平均值和标准差(X±SM/D~MD)表示土壤元素背景值,其中7种常量元素采用算数平均值和算数标准差(X±S),另外54种微量元素采用几何平均值和几何标准差(M/D~MD).由于“七五”期间土壤元素背景值调查数据并非都是正态分布或近似正态分布,甚至可能存在既不是正态分布也不是对数正态分布的情况[6],那么,全部以平均值和标准差(X±SM/D~MD)作为土壤元素背景值的做法不够准确.

4.4 土壤元素背景值的分析与研究

土壤元素背景值的分析与研究不只是取样、检测和计算统计值的工作.通常情况下,区域尺度的土壤元素背景含量数据具有较大的范围,有的元素背景含量可能是2~1 000 mg/kg的范围.这与土壤母质、成因、地球化学作用和发育过程以及矿藏分布有关,这也是美国土壤元素背景值调查由美国地质调查局主持完成的更合理的原因所在,《Geochemical and Mineralogical Data for Soils of the Conterminous United States》调查研究报告也由美国地质调查局发布.由地质调查局主持土壤元素背景值研究的益处是可以从地球化学发展、成因、矿藏分布等因素分析区域土壤元素背景值相差较大的原因,更有利于土壤环境质量评价时对土壤元素背景值的理解和运用.

4.5 对中国土壤元素背景值调查研究的建议

受20世纪国内外土壤元素背景值研究方法和统计方法认识的影响,与美国等发达国家一样,中国土壤元素背景值研究方法还需要进一步优化和改进.在研究方法有了新的认识和发展的今天,再次研究和确立中国土壤元素背景值很有必要.建议:①在分析土壤元素背景含量频数分布和空间分布基础上,确定统计范围和统计量,用箱式图法剔除异常值,针对不同的频数分布采用不同的统计量作为土壤元素背景值.土壤元素背景含量呈正态分布的,用算数平均值(X)和算术标准差(S)作为土壤元素背景值(X±S);土壤元素背景含量呈对数正态分布的,用几何平均值(M)和几何标准差(D)作为土壤元素背景值(M/D~MD);土壤元素背景含量呈偏态分布的,用中位数和绝对中位偏差作为土壤元素背景值. ②中国土壤背景值调查应联合地矿部门共同参与完成,以加强土壤元素背景值与土壤母质、成因、地球化学作用和发育过程以及矿藏分布相关性的研究.

5 结论

a) 20世纪60年代到90年代,国内外土壤元素背景值调查与分析的统计方法研究不够成熟,包括中国“七五”期间全国土壤元素背景值研究和美国1961—1984年首次全国土壤元素背景调查研究,在采样布点和土壤元素背景含量形态分布、异常值剔除以及土壤元素背景值统计量计算等数理统计方法上,都有应用不恰当之处,导致土壤元素背景值存在一定误差.

b) 土壤元素背景值直接影响到土壤环境各类标准的制定,对土壤环境质量的评价起着至关重要的作用.

c) 随着数理统计方法在土壤元素背景值研究中应用的发展,包括美国在内的一些国家已经再次启动了全国范围的土壤元素背景值研究,优化和改进了过去研究方法上的不足.中国土地辽阔、土壤类型较多,研究各省(自治区、直辖市)不同土壤类型的土壤元素背景值很有必要.在土壤详查全面展开的“十三五”期间,建议用更科学的方法再次启动全国土壤元素背景值研究.

参考文献
[1]
YOTOVA G, PADAREVA M, HRISTOVA M, et al. Establishment of geochemical background and threshold values for 8 potential toxic elements in the Bulgarian soil quality monitoring network[J]. Science of the Total Environment, 2018, 643: 1297-1303. DOI:10.1016/j.scitotenv.2018.06.237 (0)
[2]
REIMANN C, CARITAT P D. Establishing geochemical background variation and threshold values for 59 elements in Australian surface soil[J]. Science of the Total Environment, 2017, 578: 633-648. DOI:10.1016/j.scitotenv.2016.11.010 (0)
[3]
REIMANN C, FABIAN K, BIRKE M, et al. GEMAS:establishing geochemical background and threshold for 53 chemical elements in European agricultural soil[J]. Applied Geochemistry, 2018, 88(2): 302-318. (0)
[4]
AHRENS L H. A fundamental law of geochemistry[J]. Nature, 1953, 172: 1148. DOI:10.1038/1721148a0 (0)
[5]
MIESCH A T.Methods of computation for estimating geochemical abundance[R].Washington DC: U.S.Geological Survey Professional Paper, 1967. (0)
[6]
REIMANN C, FILZMOSER P. Normal and lognormal data distribution in geochemistry:death of a myth.consequences for the statistical treatment of geochemical and environmental data[J]. Environmental Geology, 2000, 39(9): 1001-1014. DOI:10.1007/s002549900081 (0)
[7]
夏增禄. 中国土壤环境容量[M]. 北京: 地震出版社, 1992. (0)
[8]
中国环境监测总站. 中国土壤元素背景值[M]. 2版. 北京: 中国环境科学出版社, 1990. (0)
[9]
国务院.土壤污染防治行动计划[R].北京: 人民出版社, 2016. (0)
[10]
环境保护部, 农业部.农用地土壤环境管理办法(试行)[EB/OL].北京: 生态环境部, 2017-09-25[2018-12-12]. http://www.mee.gov.cn/gkml/hbb/bl/201710/t20171009_423104.htm. (0)
[11]
环境保护部, 农业部.农用地土壤环境质量类别划分技术指南(试行)[EB/OL].北京: 生态环境部, 2017-12-28[2018-12-12]. http://nyxx.jiuquan.gov.cn/tongzhigonggao/xingzhengtongzhi/20180208/0935376165e482.htm. (0)
[12]
陈穗玲, 李锦文, 陈南, 等. 福建沿海地区不同区域稻田土壤重金属元素富集特征与环境质量评价[J]. 中国环境监测, 2013, 29(2): 34-40.
CHEN Suiling, LI Jinwen, CHEN Nan, et al. Fujian coastal areas in different regions of paddy soil heavy metal elements enrichment characteristics and assessment of environmental quality[J]. Environmental Monitoring in China, 2013, 29(2): 34-40. DOI:10.3969/j.issn.1002-6002.2013.02.007 (0)
[13]
成杭新, 李括, 李敏, 等. 中国城市土壤化学元素的背景值与基准值[J]. 地学前缘, 2014, 21(3): 265-306.
CHENG Hangxin, LI Kuo, LI Min, et al. Geochemical background and baseline value of chemical elements in urban soil in China[J]. Earth Science Frontiers, 2014, 21(3): 265-306. (0)
[14]
邱锦泉, 付善明, 肖方, 等. 粤北某矿区横石河流域耕作土壤剖面重金属空间分布及生态风险评价[J]. 生态科学, 2016, 35(3): 56-64.
QIU Jinquan, FU Shanming, XIAO Fang, et al. Spatial distribution and potential ecological risk assessment of heavy metals in cultivated soil profiles of Hengshi River Basin in the sulfide mine, Northern Guangdong[J]. Ecological Science, 2016, 35(3): 56-64. (0)
[15]
ZHOU Xu, XIA Beicheng. Defining and modeling the soil geochemical background of heavy metals from the Hengshi River watershed (southern China):integrating EDA, stochastic simulation and magnetic parameters[J]. Journal of Hazardous Materials, 2010, 180(1/2/3): 542-551. (0)
[16]
宋波, 杨子杰, 张云霞, 等. 广西西江流域土壤镉含量特征及风险评估[J]. 环境科学, 2018, 39(4): 1888-1900.
SONG Bo, YANG Zijie, ZHANG Yunxia, et al. Accumulation of Cd and its risks in the soils of the Xijiang River drainage basin in Guangxi[J]. Environmental Science, 2018, 39(4): 1888-1900. (0)
[17]
柏建坤, 王建力, 李潮流, 等. 藏北可可西里地区土壤元素背景值研究[J]. 环境科学, 2014, 35(4): 1498-1501.
BAI Jiankun, WANG Jianli, LI Chaoliu, et al. Study on soil element background values of the Hoh Xil area in North Tibet[J]. Environmental Science, 2014, 35(4): 1498-1501. (0)
[18]
XU Gang, LIU Jian, PEI Shaofeng, et al. Sources and geochemical background of potentially toxic metals in surface sediments from the Zhejiang coastal mud area of the East China Sea[J]. Journal of Geochemical Exploration, 2016, 168: 26-35. DOI:10.1016/j.gexplo.2016.06.003 (0)
[19]
魏复盛, 陈静生, 吴燕玉, 等. 中国土壤环境背景值研究[J]. 环境科学, 1991, 12(4): 12-19. (0)
[20]
王佛鹏, 宋波, 周浪, 等. 广西西江流域土壤重金属背景值再研究[J]. 环境科学学报, 2018, 38(9): 3695-3702.
WANG Fopeng, SONG Bo, ZHOU Lang, et al. Redistribution of heavy metal background in soil of Xijiang River Basin in Guangxi[J]. Acta Scientiae Circumstantiae, 2018, 38(9): 3695-3702. (0)
[21]
宋静, 骆永明, 夏家淇. 我国农用地土壤环境基准与标准制定研究[J]. 环境保护科学, 2016, 42(4): 29-35.
SONG Jing, LUO Yongming, XIA Jiaqi. Study of the development of environmental criteria and standards for agricultural lands in China[J]. Environmental Protection Science, 2016, 42(4): 29-35. (0)
[22]
夏家淇, 骆永明. 关于土壤污染的概念和3类评价指标的探讨[J]. 生态与农村环境学报, 2006, 22(1): 87-90.
XIA Jiaqi, LUO Yongming. Definition and three evaluation guidelines of soil contamination[J]. Journal of Ecology and Rural Environment, 2006, 22(1): 87-90. DOI:10.3969/j.issn.1673-4831.2006.01.020 (0)
[23]
SHACKLETTE H T, BOERNGEN J G.Element concentrations in soils and other surficial materials of the conterminous United States[R].Washington DC: U. S. Government Printing Office, 1984. (0)
[24]
GOUGH L P, SEVERSON R C, SHACKLETTE H T.Element concentrations in soils and other surficial materials of Alaska[R].Washington DC: U.S.Government Printing Office, 1988: 1458. (0)
[25]
SMITH D B. Special issue:geochemical studies of North American soils:results from the pilot study phase of the North American Soil Geochemical Landscapes Project[J]. Applied Geochemistry, 2009, 24(8): 1355-1356. DOI:10.1016/j.apgeochem.2009.04.006 (0)
[26]
SMITH D B, CANNON W F, WOODRUFF L G. History and progress of the North American Soil Geochemical Landscapes Project, 2001-2010[J]. Earth Science Frontiers, 2012, 19(3): 19-32. (0)
[27]
SMITH D B, WILLIAM F C, WOODRUFF L G, et al.Geochemical and mineralogical data for soils of the conterminous United States[R].Denver: U. S. Geological Survey Data Series 801, 2013. (0)
[28]
STURGES H A. The choice of a class interval[J]. Journal of the American Statistical Association, 1926, 21(153): 65-66. DOI:10.1080/01621459.1926.10502161 (0)
[29]
KVRZL H. Exploratory data analysis:recent advances for the interpretation of geochemical data[J]. Journal of Geochemical Exploration, 1988, 30(1/2/3): 309-322. (0)
[30]
TUKEY J W. Exploratory data analysis[M]. Boston: Addison-Wesley, 1977. (0)
[31]
ISO 19258.Soil quality: guidance on the determination of background values[S].Switzerland: International Organization for Standardization, 2005. (0)
[32]
CABRAL PINTO M M S, FERREIRA DA SILVA E, SILVA M M V G, et al. Heavy metals of Santiago Island (Cape Verde) top soils:estimated background value maps and environmental risk assessment[J]. Journal of African Earth Sciences, 2015, 101: 162-176. DOI:10.1016/j.jafrearsci.2014.09.011 (0)
[33]
BIRKE M, REIMANN C, RAUCH U, et al. GEMAS:cadmium distribution and its sources in agricultural and grazing land soil of Europe-Original data versus clr-transformed data[J]. Journal of Geochemical Exploration, 2017, 173: 13-30. DOI:10.1016/j.gexplo.2016.11.007 (0)
[34]
中国科学院南京土壤研究所. 中国土壤[M]. 北京: 科学出版社, 1980. (0)
[35]
魏复盛, 杨国治, 蒋德珍, 等. 中国土壤元素背景值基本统计量及其特征[J]. 中国环境监测, 1991, 7(1): 1-6. (0)
[36]
CHEN Jingsheng, WEI Fusheng, ZHENG Chunjiang, et al. Background concentrations of elements in soils of China[J]. Water, Air, & Soil Pollution, 1991, 57/58(1): 699-712. (0)
[37]
MENDENHALL W, SINCICH T.统计学[M].5版.梁冯珍, 关静译.北京: 机械工业出版社, 2009. (0)
[38]
夏增禄. 土壤元素背景值及其研究方法[M]. 北京: 气象出版社, 1987. (0)