利用Sentinel-1A数据提取早稻面积
基于Sentinel-1A数据的临高县早稻面积提取
刘警鉴1,2, 李洪忠,1, 华璀3, 孙毓蔓4, 陈劲松1, 韩宇1
1.
2.
3.
4.
摘要
为了探讨双极化Sentinel-1A雷达影像数据识别提取早稻面积分布信息的能力,在分析典型地物后向散射系数的基础上,沿用极化差分合成孔径雷达(synthetic aperture Radar,SAR)图像和极化比值SAR图像对典型地物分类有着重要作用的思路,提出水体归一化参数,随后采用支持向量机(support vector machine,SVM)分类方法和阈值分类方法选取单时相、多时相水体归一化极化SAR数据(2017年3月10日、3月22日、4月3日、4月15日、4月27日)提取早稻面积。结果表明,阈值分类方法优于SVM分类方法,其总体精度为89.01%,Kappa系数为0.823 1,早稻的制图精度和用户精度分别为92.68%和82.26%; 种植面积为1.29万hm 2,与临高县主要的早稻生产基地在空间分布上基本一致。由此可得,多参数的极化SAR数据可以提高识别提取地物的精度,提取早稻面积的最佳监测数据为多时相水体归一化VH极化SAR数据。
关键词:
本文引用格式
刘警鉴, 李洪忠, 华璀, 孙毓蔓, 陈劲松, 韩宇.
LIU Jingjian, LI Hongzhong, HUA Cui, SUN Yuman, CHEN Jinsong, HAN Yu.
水稻是全世界主要的粮食作物之一。使用遥感技术对水稻种植规模进行宏观、及时、准确地监测,可以有效预测水稻作物的产量,对保证粮食安全具有非常重要的指导意义[1]。
合成孔径雷达(synthetic aperture Radar,SAR)技术具备全天时、全天候观测的能力。近年来,利用多极化、多时序的SAR数据研究地表覆被分类、农作物识别已取得较大进展。邵芸等[2]运用多时相RADARSAT影像结合实地测量的水稻生长结构参数,分析了不同生长周期4种类型水稻的时域散射特性,有效提取了水稻类型以及种植信息,其精度达到91%; 刘浩等[3]选取4个时相的RADARSAT数据使用神经网络方法和最大似然分类方法,对水稻进行识别研究,结果表明神经网络方法相比传统分类方法更加有效; 杨沈斌等[4]采用ASAR数据探索多时相多极化差值图的稻田识别方法研究,结果表明基于统计分析的监督分类方法能有效提取水稻作物,分类精度达到了84.92%; 国贤玉等[5]利用全极化RADARSAT-2数据,引入基于支持向量机(support vector machine,SVM)和序列前进搜寻策略的特征选择方法,构建基于决策树和SVM的水稻精细分类方法,结果表明基于决策树的阈值分类方法优于SVM分类方法,分类精度达到92.57%。
根据目前研究,虽然采用神经网络方法、SVM分类方法和决策树阈值分类方法等对多时相、多极化SAR数据进行分类提取,都获得了很高的提取精度,但是很多研究都局限于小区域、种植作物单一的地区,无法为地势复杂、农作物分布较分散的南方地区提供方法参考[6]。本文选择我国59个水稻制种基地之一和海南省第2大杂交水稻制种基地的临高县作为研究区[7],采用Sentinel-1A雷达数据沿用极化差分SAR图像和极化比值SAR图像对典型地物分类有着重要作用的思路[8,9],提出水体归一化参数,以此探讨Sentinel-1A数据在早稻面积遥感监测中的应用,为南方地区采用极化SAR数据监测水稻以及其他农作物提供可行性的理论和技术上的支撑,同时发掘Sentinel-1A对农作物遥感监测的应用潜力。
1.1 研究区概况
临高县位于海南岛西北部,介于N19°34'~20°02',E109°03'~109°53'之间,全境土地总面积为13.17万hm2。该地区地势自南向北逐渐倾斜,气候属热带季风气候,水热条件好,年均降雨量为1 700 mm,年均气温为23.4 ℃。全县耕地面积为3.11万hm2,未利用面积为0.11万hm2。该区农业以粮食作物为主,早稻面积约1.15万hm2,主要分布在西南部和中部地区,其余地区分布零散; 旱地作物以蔬菜为主,种植面积约1.15万hm2; 热带作物以橡胶树为主,种植面积约2.21万hm2; 水果以香蕉为主,种植面积约0.35万hm2 [10]。
1.2 遥感数据源及其预处理
Sentinel-1A卫星作为欧盟委员会和欧洲航天局共同倡议的全球环境与安全监测系统的重要组成部分,于2014年4月3日成功发射升空,单颗星重访周期12 d。其搭载C波段的雷达成像系统,该系统采用4种成像模式实现对地观测,分别是: 条带模式(strip map,SM),空间分辨率为5 m×5 m; 干涉宽幅模式(interferometric wide swath,IW),空间分辨率为5 m×20 m; 超幅宽模式(extra wide swath,EW),空间分辨率为20 m×20 m; 波模式(wave,WV),空间分辨率为5 m×5 m。Sentinel-1A卫星具有双极化、重访周期短的特点[11]。
本文采用2017年双极化Sentinel-1A地距影像产品(
基于欧空局提供的SNAP软件对各期Sentinel-1A影像进行了辐射定标,利用噪声文件使用Gamma Map滤波(滤波窗口5像元×5像元)来减少“相干斑点噪声”的影响,利用SRTM(shuttle Radar topography mission)数据进行了地形校正,使得其电磁辐射强度信息和相位信息能以电磁波对地物的后向散射系数来准确反映地物目标特征,准确提取每期VV和VH极化的时域后向散射系数[12]。预处理流程如图1所示。
图1 Sentinel-1A数据预处理流程
Fig.1 Pretreatment process on Sentinel-1A data
1.3 野外调查资料
2017年5月在海南省临高县实地开展地面样点采集工作,将研究区的土地利用类型分为6大类: 耕地(早稻和旱地作物)、园地(橡胶园地和香蕉园地)、建筑物、水域、林地和其他(草地等),野外样点分布如图2所示。为了满足Sentinel-1A数据的精度要求,结合Google Earth高空间分辨率影像选取典型地物样本所在的纯净地块须大于10个像元以上(即面积大于1 000 m2)。本文总共采集到1 035个典型地物样本,其中早稻典型样本总共采集到300个,包括50个分蘖期、100个拔节期、100个乳熟期、50个蜡熟期; 其他典型样本包括100个旱地作物、200个橡胶园地、100个香蕉园地、85个建筑物、50个水域(湖泊、坑塘)、100个林地(林地占研究区总面积较小,以乔木园地为主)和100个其他(草地等)。本文选取60%的典型样本作为训练样本,剩余40%作为精度验证样本。
图2 研究区野外样点空间分布
Fig.2 Spatial distribution of field samples in the study area
1.4 早稻物候资料
依据中国气象网(
图3 研究区早稻各个生长时期的野外照片
Fig.3 Field photographs of early paddy rice growing periods in the study area
2.1 水体归一化参数
地物的后向散射特征和强度,主要受2类特征参数影响: 一类是几何结构特性,如地物表面粗糙度,植被冠层粗糙度,散射单元的分布状态、大小尺寸、方位、方向等; 另一类是介电参数,主要是受含水量的控制[13]。
有关研究表明,在不同时间获取同一地区的极化SAR图像反映的地物特征随时间变化具有不同的极化信息特征。由于地物几何结构的改变、介电参数特性的变化等,不同极化在相同时间节点或者同极化在不同时间节点的VV和VH极化的后向散射系数差别较大,所表现的地物后向散射系数特征存在极大的差异,即使经过系统参数调整、滤波处理等一系列预处理过程,极化SAR数据依然会存在一部分的异常值,导致识别早稻区域的不准确性[8]。同时,依据典型地物样本(由于林地和橡胶园地的时域后向散射系数特征类似,本文只分析橡胶园地的散射特征)的后向散射系数散点分布(图4),地物的后向散射系数跨度大,同一地物在不同极化上的时域后向散射系数存在较大差异,采用阈值法提取早稻区域存在很大困难。
图4 典型地物时域后向散射系数散点分布
Fig.4 Scatter distribution of backscattering coefficients in time domain on typical objects
因此,本文为了进一步提高早稻面积识别提取的精度,让同时相不同极化数据或者不同时相同极化数据能较好地反映地物的时域后向散射特征,同时考虑到水体的时域后向散射系数在各个时期都处于较为平稳、低值的状态,沿用极化差分SAR图像和极化比值SAR图像对典型地物分类有着重要作用的思路[8,9],提出水体归一化参数σA,将VV和VH极化的后向散射系数归一化在[-1,1]之间。公式为
式中: P为某一时期的VV或VH数据; T为某一时期的VV或VH的水体均值。采用NDVV表示水体归一化VV极化SAR数据; NDVH表示水体归一化VH极化SAR数据。
2.2 监测方法
研究发现,在水稻生长期间,水体灌满水稻田,生长初期以水体散射为主,此时稻田的时域后向散射系数较低。随着水稻的继续生长,水稻冠层、叶层增大,后向散射逐渐以水稻本身的体散射和冠层面散射为主,所以水稻区域的后向散射系数增大,有上下波动的趋势。直到经历60 d左右的生长至抽穗期后,水稻区域的后向散射系数特征基本在抽穗期—乳熟期间能达到最大值。当水稻冠层、叶层继续增大到一定的密度和稻穗饱满之后,即蜡熟期—完熟期的生长时期,后向散射以水稻体散射为主,但衰减作用也增强,所以其后向散射系数略微有下降的趋势并趋于平稳,并在水稻收割之后,又开始下降。因此,本文根据水稻田的时域变化特征,较好地区分出了水稻区域和非水稻区域[14,15]。
2.3 分类方法
基于SVM分类方法和阈值分类方法具有利用极化SAR数据提取水稻种植区域均取得较高精度的优势,本文选取这2种分类方法提取研究区早稻面积,并对其结果进行对比分析。
2.4 精度评价方法
分别从2个方面验证研究区早稻面积提取结果: ①从早稻面积分析,结合海南省农业统计资料来验证其提取精度; ②从空间位置分析,主要利用混淆矩阵统计总体精度、Kappa系数、制图精度和用户精度等指标验证其提取精度。
3.1 基于水体归一化时间序列极化SAR数据J-M距离的可分离性分析
为了合理评价样本之间的差异程度,本文采用J-M距离[16]分析训练样本之间的可分离性,J-M距离的范围在0~2.0之间,大于1.8说明样本之间的可分离性高,可以较好地区分不同地物。本文分析1 035个典型地物样本的J-M距离,主要分析早稻与其他典型地物样本之间的可分离性。可分离性分析结果如表1和表2所示。
表1 不同时相极化SAR数据早稻与其他典型地物的J-M距离分析①
Tab.1
J-M距离 | 早稻 | |||||
---|---|---|---|---|---|---|
3月10日 | 3月22日 | 4月3日 | 4月15日 | 4月27日 | 3月10日—4月27日 | |
旱地作物 | 1.56/1.08 | 1.44/0.90 | 1.16/1.13 | 0.21/1.32 | 1.42/1.49 | 1.86/1.78 |
橡胶园地 | 0.87/0.62 | 0.99/0.71 | 0.99/0.75 | 0.13/0.89 | 0.44/0.80 | 1.58/1.57 |
香蕉园地 | 1.82/1.71 | 1.80/1.70 | 1.74/1.66 | 1.12/1.67 | 1.86/1.84 | 1.98/1.98 |
建筑物 | 1.82/0.94 | 1.87/1.12 | 1.88/1.06 | 1.35/1.09 | 1.87/1.24 | 1.98/1.71 |
水域 | 1.63/1.64 | 0.61/1.46 | 1.22/1.58 | 1.48/1.39 | 0.86/0.40 | 1.94/1.95 |
其他 | 0.90/0.50 | 1.03/0.50 | 0.76/0.65 | 0.79/0.79 | 0.95/0.88 | 1.49/1.36 |
①: 列表中数值分别表示VV/VH对应的结果。
表2 不同时相水体归一化SAR数据早稻与其他典型地物的J-M距离分析①
Tab.2
J-M距离 | 早稻 | |||||
---|---|---|---|---|---|---|
3月10日 | 3月22日 | 4月3日 | 4月15日 | 4月27日 | 3月10日—4月27日 | |
旱地作物 | 0.79/0.68 | 0.58/0.65 | 0.53/0.91 | 1.18/1.06 | 1.18/1.03 | 1.80/1.89 |
橡胶园地 | 0.94/1.11 | 0.88/1.08 | 0.81/1.33 | 0.45/1.43 | 0.49/1.13 | 1.72/2.00 |
香蕉园地 | 1.73/1.64 | 1.63/1.60 | 1.73/1.76 | 1.74/1.77 | 1.88/1.74 | 2.00/2.00 |
建筑物 | 1.07/1.02 | 0.87/1.00 | 0.85/1.12 | 0.92/1.13 | 0.91/0.97 | 1.82/1.96 |
水域 | 1.97/1.72 | 0.86/0.78 | 1.24/1.32 | 1.30/1.10 | 1.14/0.75 | 1.73/1.95 |
其他 | 0.86/1.07 | 0.88/1.15 | 0.65/1.24 | 0.79/1.18 | 0.99/1.03 | 2.00/2.00 |
①: 列表中数值分别表示NDVV/NDVH对应的结果。
从单时相分析,单时相的极化SAR数据和水体归一化极化SAR数据的可分离性都较低,只有香蕉园地和建筑物在某几个时相上有较好的可分离性,其余普遍低于1.8。从多时相分析,在多时相VV极化SAR数据上,早稻与旱地作物、香蕉园地、建筑物、水域的J-M距离都大于1.8,其余的J-M距离都小于1.8。在多时相VH极化SAR数据上,除了早稻与香蕉园地、水域的J-M距离都大于1.8以外,其余的J-M距离都小于1.8; 在多时相NDVH数据上,早稻与非早稻区域的J-M距离都大于1.8,而在多时相NDVV数据上,早稻与橡胶园地、水域的J-M距离却小于1.8。综上所述,多时相NDVH数据优于多时相的NDVV,VH和VV极化SAR数据,并且优于单时相的极化SAR数据。结果表明,水体归一化极化SAR数据能明显改善极化SAR图像的质量,基本满足了识别提取早稻区域的可分离性要求。因此,本文以下采用NDVV和NDVH极化SAR数据进行分析对比研究。
3.2 基于水体归一化极化SAR数据的SVM分类
SVM分类方法在有限数量训练样本和合适参数的前提下,对极化SAR数据进行分类识别提取具有明显的优势[9,17]。目前常用的核函数主要包括高斯核函数,如径向基函数(radio basis function,RBF)、Sigmoid核函数、线性和多项式核函数等。现有研究表明,RBF更适合土地覆被分类[18]。因此,本文选择RBF核函数,设置内核半径γ=0.125,惩罚因子为100,金字塔层数为0[9],对单时相、多时相的NDVV和NDVH极化SAR数据分别进行分类提取。
根据研究区早稻物候资料和野外调查资料,选取3月10日、3月22日、4月3日、4月15日、4月27日的水体归一化极化SAR数据,采用SVM分类方法提取早稻面积。从表3可知,从早稻面积和空间位置信息分析,单时相、多时相的极化SAR数据提取早稻面积效果都不佳。虽然在多时相的NDVH数据上,早稻区域与非早稻区域的可分离度满足了分类识别提取的要求,但是根据本文分析,因为SVM监督分类方法训练过度和极化SAR数据相干斑点噪声的影响,早稻面积的识别提取精度不能满足实际生产和应用的要求。
表3 基于SVM分类方法精度验证分析①
Tab.3
时间 | 制图精度/% | 用户精度/% | 总体精度/% | Kappa系数 | 相对误差/% | ||
---|---|---|---|---|---|---|---|
早稻 | 其他 | 早稻 | 其他 | ||||
3月10日 | 35.63/62.07 | 75.16/82.61 | 52.56/54.14 | 58.15/78.95 | 50.67/48.65 | 0.287 8/0.270 1 | -21.74/-11.04 |
3月22日 | 40.26/29.31 | 78.69/98.55 | 54.36/55.74 | 46.39/29.44 | 45.63/35.81 | 0.195 6/0.122 7 | -34.26/-25.77 |
4月3日 | 51.69/36.21 | 77.54/86.96 | 46.26/49.41 | 56.89/29.27 | 48.56/34.80 | 0.156 9/0.100 5 | -30.43/-21.72 |
4月15日 | 53.89/91.38 | 78.49/36.78 | 58.33/47.75 | 59.39/40.13 | 49.36/46.96 | 0.213 6/0.188 1 | 21.74/13.24 |
4月27日 | 58.62/73.28 | 84.06/84.06 | 57.63/64.89 | 32.58/36.48 | 42.57/50.00 | 0.183 7/0.284 8 | 15.26/18.7 |
3月10日— 4月27日 |
70.34/78.03 | 82.61/83.36 | 60.38/68.73 | 62.14/75.26 | 62.45/79.23 | 0.526 3/0.638 5 | 47.82/23.79 |
①: 列表中数值分别表示NDVV/NDVH对应的结果。
3.3 基于水体归一化极化SAR数据的阈值分类
根据多时相水体归一化极化SAR数据做典型地物样本散点分析,如图5所示。早稻在NDVV和NDVH上的后向散射系数分别集中在0.3~0.8和0.2~0.6之间; 旱地作物在NDVV和NDVH上的后向散射系数分别集中在0.73~0.92和0.72~0.84之间; 橡胶园地在NDVV和NDVH上的后向散射系数分别集中在0.75~0.9和0.67~0.78之间; 香蕉园地在NDVV和NDVH上的后向散射系数分别集中在0.82~0.96和0.77~0.88之间; 建筑物在NDVV和NDVH上的后向散射系数分别集中在0.65~0.96和0.77~0.88之间; 水域在NDVV和NDVH上的后向散射系数都小于0; 其他在NDVV和NDVH上的后向散射系数均集中在0.6~0.9之间。
图5 典型地物水体归一化时域后向散射系数散点分布
Fig.5 Scatter distribution of normalized backscattering coefficient of water in time domain on typical objects
早稻在时间序列NDVV和NDVH中表现有不同的差异特征,如图6所示。NDVH在早稻生长初期与非早稻区域有较明显的区分度,但是NDVV则表现得不明显。根据稻田在移栽初期灌满水的特征和极化SAR数据对水体相对于植被比较敏感的特性[19,20],通过逐月筛选提取早稻种植区域。通过分析表明,3月和4月的NDVV和NDVH数据的后向散射系数同时小于0.5的区域不属于早稻区域,只有单个时间点小于0.5的区域可以初步判定为早稻区域,便可采用阈值分类方法分别对3月10日、3月22日、4月3日、4月15日、4月27日设置阈值小于0.5,在下个时间节点设置阈值小于0.6,以此逐月识别提取早稻面积(非早稻区域的后向散射系数基本大于0.6)。同时,根据水体在各个时期的后向散射系数都存在较低值,利用1月21日这个时间点,设置阈值小于0.3,将湖泊、河流从分类结果中剔除。
图6 典型地物NDVV和NDVH后向散射系数特征
Fig.6 Characteristic of backscattering coefficient of the NDVV and NDVH with typical objects
本文采用阈值分类方法对NDVH数据提取了研究区的早稻面积(图7),其结果与临高县生产基地早稻空间分布的实际情况基本一致,主要分布在西南部、中部偏北地区,约占早稻总面积的58.95%; 其余零散分布在西北部、东部地区,约占早稻总面积的41.05%。从面积分析,识别提取早稻面积为1.29万hm2,与2017年海南省临高县统计数据早稻面积1.15万hm2相比,相差0.14万hm2,相对误差12.17%,总体效果优良。精度验证结果如表4所示,从表4中可以看出,早稻面积提取的总体精度为89.01%,Kappa系数为0.823 1,制图精度为92.68%,用户精度为82.26%。
图7 研究区早稻空间分布
Fig.7 Spatial distribution map of early rice in Lingao County
表4 基于阈值分类方法精度验证分析①
Tab.4
时间 | 制图精度/% | 用户精度/% | 总体精度/% | Kappa系数 | 相对误差/% |
||
---|---|---|---|---|---|---|---|
早稻 | 其他 | 早稻 | 其他 | ||||
3月10日 | 4.88/26.83 | 98.16/97.2 | 80.00/84.62 | 58.15/63.80 | 62.20/68.38 | 0.287 8/0.435 8 | -89.44/-67.74 |
3月22日 | 21.95/50.00 | 96.26/98.13 | 78.26/93.18 | 62.05/72.41 | 66.99/78.95 | 0.389 8/0.619 3 | -79.77/-54.41 |
4月3日 | 28.05/31.71 | 92.46/93.46 | 74.19/76.47 | 31.37/64.52 | 67.94/69.38 | 0.412 5/0.440 5 | -70.74/-64.31 |
4月15日 | 17.07/42.68 | 90.59/95.33 | 58.33/85.37 | 59.39/68.92 | 62.68/74.64 | 0.310 9/0.540 0 | -81.11/-57.64 |
4月27日 | 23.17/63.41 | 96.26/94.39 | 79.17/89.66 | 62.05/77.10 | 66.99/81.82 | 0.388 2/0.675 9 | -78.37/-43.04 |
3月10日— 4月27日 |
76.83/92.68 | 80.37/85.05 | 74.12/82.26 | 82.69/94.79 | 80.38/89.01 | 0.659 7/0.823 1 | -33.31/12.17 |
①: 列表中数值分别表示NDVV/NDVH对应的结果。
综上所述,采用阈值分类方法对多时相NDVH数据提取的早稻结果在总体精度、Kappa系数、早稻制图精度和用户精度上,相比采用SVM分类方法都有很大的提高,并且多时相NDVH数据优于多时相NDVV数据,但是依然存在“相干斑点噪声”的问题。比如,小面积种植的旱地作物(辣椒等蔬菜)和零散分布的牧草地与早稻种植区域交叉,在天气和目标单元的几何结构特性、介电参数等因素的影响下,都会影响早稻识别提取精度。
本文采用Sentinel-1A雷达数据作为数据源,沿用极化差分SAR图像和极化比值SAR图像的思路提出水体归一化参数,随后采用SVM和阈值分类方法进行早稻区域与非早稻区域的分类识别提取研究,以此探讨Sentinel-1A雷达数据在南方地区识别提取早稻面积的可行性和应用潜力,以及水体归一化参数提高早稻面积识别提取精度的优势。得出以下结论:
1)不同时相的极化SAR数据识别提取早稻面积存在差异。不同区域的早稻物候特征不同,准确把握当地区域的作物物候特征,对准确识别提取早稻面积具有重要作用。研究表明多时相的极化SAR数据优于单时相的极化SAR数据。
2)不同极化方式和多参数的SAR数据识别提取早稻面积存在差异。因SAR数据极化方式的差异特征,及早稻区域和非早稻区域在时域上的不同,本文对极化SAR数据进行水体归一化比值处理的研究表明,多时相NDVH极化SAR数据优于NDVV,VV和VH极化SAR数据,更适合于早稻面积的识别提取。
3)阈值分类方法优于SVM分类方法。这是因为SVM分类方法本身训练过度和极化SAR数据受相干斑点噪声的影响。因而基于样本统计分析的阈值分类方法更适合于采用极化SAR数据进行早稻面积的分类提取。
4)采用像元的分类方法,一般都会受相干斑点噪声的影响存在“椒盐效应”。大量琐碎斑块会显著影响分类效果,所以基于面向对象的方法和结合多源遥感数据进行极化SAR数据的分类识别,是非常值得后续深入探讨的。同时,多参数的极化SAR数据的进一步探究,也是未来研究的关键点之一。
参考文献(略)
排版:喜马拉雅
审核:晨风小语