基于pca-凯发娱乐注册

期刊菜单

基于pca-bp神经网络的城市空气质量统计研究
statistical study on urban air quality based on pca-bp neural network

doi: , , html, , 科研立项经费支持
作者: 柏子尧, 张春月^*, 王丽丽, 张新悦, 赵心如：鞍山师范学院数学学院，辽宁鞍山
关键词: ；；；；；；；

摘要: 本研究基于a市历史数据，深入剖析了pm_2.5污染特征及其短期浓度变化，从空气污染物和气象因素两大维度出发，通过描述性统计、相关性分析及逐步回归分析等手段，揭示了pm_2.5污染浓度的主要成因及其时间变化规律。为提高预测精度，研究融合了主成分分析与bp神经网络理论，运用spss软件将11项指标精简至4个主成分，并以此构建了pca-bp神经网络预测模型，同时利用python软件进行仿真验证。这一系列工作不仅深化了对pm_2.5污染特征的理解，也为环境污染分析提供了科学依据，对未来环境保护策略的制定与实施具有重要参考价值，有助于推动空气质量改善和环境保护事业的持续发展。

abstract: this study utilizes historical data from city a to conduct an in-depth analysis of the characteristics of pm_2.5 pollution and its short-term concentration fluctuations. it approaches the issue from two perspectives: air pollutants and meteorological factors, employing descriptive statistics, correlation analysis, and stepwise regression to elucidate the primary determinants of pm_2.5 concentration levels and their temporal variations. to enhance predictive accuracy, this research integrates principal component analysis (pca) with bp neural network theory, utilizing spss software to distill 11 indicators into 4 principal components before constructing a pca-bp neural network prediction model. additionally, validation of the model is performed using python software. this comprehensive approach not only enriches our understanding of pm_2.5 pollution characteristics but also provides robust scientific evidence for environmental pollution assessment. the findings hold significant reference value for developing and implementing future environmental protection strategies, thereby contributing to the ongoing advancement of air quality improvement and environmental conservation efforts.

文章引用：柏子尧, 张春月, 王丽丽, 张新悦, 赵心如. 基于pca-bp神经网络的城市空气质量统计研究[j]. 应用数学进展, 2024, 13(11): 4876-4885.

1. 引言

a市作为国家重要的钢铁工业基地，近年来伴随着工业化步伐的加速与城镇化水平的显著提升，其大气污染问题逐渐浮出水面，且态势愈发严峻。这一现象不仅给当地的自然环境带来了沉重的负担，更对民众的生活质量及身体健康构成了不容忽视的潜在威胁。

面对如此紧迫的环保挑战，推动a市空气质量的实质性改善已成为当务之急。有效应对大气污染，不仅关乎城市的可持续发展，更是对人民群众生命健康权的庄严承诺。在此背景下，科学预测重度污染天气的发生概率，显得尤为关键。通过精准预测，能够提前采取针对性的防控措施，有效降低污染峰值，减少污染物排放，为市民提供更加清新的空气环境。

苏赫(2020)在《基于改进bp神经网络的空气质量预测研究》[1]一文中将人工神经网络与空气质量指数(aqi)预测进行结合，利用人工神经网络非线性映射能力，建立预测模型，实现城市空气质量预测，并针对模型的缺点进行改进，为后续的空气质量预测研究提供了一些思路和方法。

王文静(2021)在《基于arma-bp神经网络的城市空气质量预测研究》[2]一文中提出将bp神经网络和arma模型相结合，构建arma-bp神经网络组合模型对西安市的空气质量指数(aqi)进行短期预测，并采用遗传算法(ga)对组合模型的稳定性进行改进。

尤游、张林静(2022)为实时预测空气质量，建立神经网络模型来预测空气质量指数(aqi)，考虑到bp神经网络的反向传播算法具有收敛速度慢、训练时间过长、易陷入局部最优等缺点，分别利用lm算法和贝叶斯正则化算法(br算法)优化bp神经网络。通过对芜湖市空气质量预测结果进行类比分析得到，br算法的预测效果更好，能够提升网络的泛化能力[3]。

2. 研究思路及模型介绍

2.1. 研究思路

本文依据重工业a城市的历史数据，深入剖析了pm_2.5的污染特征及其短期内的浓度波动，旨在为未来的环境污染分析提供有价值的参考与建议。

针对pm_2.5的时间变化规律分析，本文从空气污染物与气象因素两大核心维度进行了系统性探讨。借助描述性统计分析方法，能够直观地展现pm_2.5污染浓度的分布特性；同时，相关性分析深入挖掘了空气污染物、气象因素与pm_2.5污染浓度之间的潜在关联性，为理解pm_2.5污染浓度的成因提供了有力依据

为了深入探索与细颗粒物pm_2.5浓度存在线性相关性的主要因素，本文采用了spss软件进行数据处理，并实施了回归分析中的逐步回归分析法。这一方法的应用能够导出逐步回归的最优模型，该模型有效揭示了影响pm_2.5浓度的核心因素。

为优化预测性能，采取结合pca主成分分析与bp神经网络理论的策略。首先，利用spss软件开展主成分分析，科学地将原本复杂的11项指标精简为4个主成分，这些主成分能够更有效地反映原始数据集的信息特征；其次，这4个主成分被用作bp神经网络的输入参数，通过python软件构建神经网络模型，并严格实施仿真实验，以期达到提升预测精度的目的。

2.2. 模型简介

2.2.1. 描述统计分析

描述统计作为统计分析领域的基础分析方法，其核心在于通过图表展示或数学运算手段，对样本数据进行系统性的整理与剖析。这一过程主要聚焦于对数据分布状态、数字特征以及随机变量间关系的估计与详尽描述。具体而言，描述统计可细分为三大组成部分：集中趋势分析、离中趋势分析以及相关分析。每一部分均承担着揭示数据不同维度特性的重要任务。

2.2.2. 逐步回归分析

在处理多重共线性问题的研究中，逐步回归分析法被广泛采用。该方法结合了前进法与后退法的优点，其实施过程涉及逐一引入自变量，且引入的条件是需通过检验，确保偏回归平方和具有显著性。与此同时，每当一个新的解释变量被引入模型，都会对已存在的解释变量逐一进行重新检验，对于偏回归平方和不显著的解释变量，则予以排除。这一过程会持续进行，直至达到一个稳定状态，即既无新变量的引入，也无旧变量的删除。由于逐步回归分析法允许反复的调整与优化，因此在各类研究中，它成为了应用最为广泛的一种处理多重共线性问题的方法。

figure 1. schematic diagram of bp neural network

图1. bp神经网络结构示意图

2.2.3. 主成分分析

主成分分析是一种重要的数据降维技术，其核心思想在于通过构建原始变量的线性组合来生成新的主成分变量。这种方法旨在有效保留原始数据集中的大量信息，同时实现主成分数量的显著减少。具体而言，主成分分析通过数学变换，将原始的高维数据投影到较低维的空间上，从而生成一组新的、数量较少的主成分变量。这些主成分变量不仅能够在很大程度上反映原始数据的特征，而且彼此之间相互独立，避免了信息冗余。通过这种方式，主成分分析不仅简化了数据结构，还有助于提升后续数据分析的效率与准确性，因此在诸多领域得到了广泛应用。

2.2.4. bp神经网络

神经网络的构成主要包括输入层、隐藏层和输出层。数据首先被输入到多个输入层中，随后通过算法传递至一个或多个隐藏层进行处理。这一过程中，神经网络通过反复拟合训练，不断调整输入层、隐藏层和输出层之间的权值，直至形成一个具备特定适应能力的模型。如图1所示。

3. 统计建模

3.1. 数据来源

本研究重点考察了六种污染物及气象因子对空气质量指数(aqi)的实际影响。基于过往对aqi的深入研究，已明确aqi不仅与细颗粒物(pm_2.5)、可吸入颗粒物(pm₁₀)、二氧化硫(so₂)、一氧化碳(co)、二氧化氮(no₂)及臭氧(o₃)这六大主要污染物紧密相关，而且显著受到气象条件的影响。因此，在选定上述六大污染物作为污染物指标的同时，还精心挑选了六个关键的气象因子作为气象指标，具体包括最高气温、最低气温、天气类型、风力等级以及风向等气象信息。本研究所需数据主要源自两大平台：历史天气查询网站()与空气质量监测平台()。

3.2. 数据处理

归一化是一种处理数据的方法，旨在将有量纲的表达式转换为无量纲的纯量形式，从而便于不同单位或量级的指标进行比较和加权处理。这种方法通过等比例缩放原始数据，消除了量纲和数量级对数据分析的影响。具体来说，归一化过程利用变量的最大值和最小值(或仅最大值)，将原始数据转换到某一特定范围内，从而调整各变量在分析中的权重，解决不同度量标准之间的比较问题，归一化输出范围在0~1之间。

$x^{*} = \frac{x_{i} - x_{\min}}{x_{\max} - x_{\min}}$ (1)

在本文中，基于最终的归一化结果，执行了反归一化步骤，即将归一化后的数据还原到其原始状态的过程，从而得出预测值；并将预测值与真实数据进行对比，以评估预测的准确性。

3.3. 描述性统计分析

在2023年，每日pm_2.5浓度最高为155 μg/m³，最低为0 μg/m³，根据一般pm_2.5浓度等级划分可知：2023年中有250天为优，有92天为良，有19天为轻度污染，有3天为中度污染，只有1天是重度污染。图2是根据不同pm_2.5浓度质量等级天数绘制出的pm_2.5浓度质量天气分布饼图。

观察数据可知，pm_2.5的浓度在夏季平均值最低，而在1至3月期间达到最高。这一现象表明，温度可能是影响pm_2.5浓度变化的重要指标之一。此外，尽管供暖等因素也可能对pm_2.5浓度产生影响，但本文对此不作深入探讨。经计算分析，第一季度pm_2.5浓度最高，第三季度浓度最低，进一步印证了季节对pm_2.5具有显著影响。

figure 2. pm_2.5 concentration distribution map

图2. pm_2.5浓度分布图

3.4. 相关性分析

在这一部分，采用皮尔逊相关系数(pearson系数)来量化几个因素与pm_2.5浓度之间的关联程度。皮尔逊相关系数是一种统计指标，用于评估两个变量之间的线性相关性。该系数的计算公式允许我们客观地分析两个变量之间的相关性，从而更准确地理解它们之间的关系。

$ρ_{x, y} = \frac{c o v (x, y)}{σ_{x} σ_{y}} = \frac{e [(x - μ_{x}) (y - μ_{y})]}{σ_{x} σ_{y}}$ (2)

(1) 空气污染物浓度与pm_2.5浓度相关性分析

运用python软件，计算六项因素之间的相关系数矩阵：

table 1. correlation coefficient matrix of air quality factors

表1. 空气质量因素相关系数矩阵

	pm_2.5	pm₁₀	so₂	no₂	co	o₃
pm_2.5	1
pm₁₀	0.921	1
so₂	0.678	0.666	1
no₂	0.587	0.569	0.338	1
co	0.774	0.743	0.607	0.700	1
o₃	−0.161	−0.039	−0.169	−0.287	−0.016	1

观察表1不难得到，pm_2.5与pm₁₀、so₂、co、no₂、o₃的相关系数分别为0.921、0.678、0.587、0.774、−0.161。

(2) 天气指标与pm_2.5浓度相关性分析

由于天气和风向是类别数据，为保证结果合理，不采用pearson系数计算相关性。

table 2. average pm_2.5 concentration in different weather conditions

表2. 在不同天气下pm_2.5的平均浓度

编号	天气	pm_2.5平均浓度	编号	天气	pm_2.5平均浓度
1	多云	31.14	7	冻雨	33.67
2	晴	34.16	8	中雨	16.67
3	小雨	23.57	9	雨夹雪	18．5
4	阴	27.93	10	中雪	42
5	雾	59.17	11	霾	68
6	大雨	12.25	12	暴雨	22

由表2可知，天气出现“霾”时，pm_2.5的平均浓度最高，为68 μg/m³；出现“大雨”时，pm_2.5的平均浓度是最低的，为12.25 μg/m³。而且，当天气出现“小雨”“中雨”“大雨”时，pm_2.5的平均浓度逐渐降低，即表明降水量越大，pm_2.5的平均浓度普遍越低。由此说明，降水较大程度上能影响pm_2.5的浓度。

table 3. average concentration of pm_2.5 under different wind directions

表3. 在不同风向下pm_2.5的平均浓度

编号	风向	pm_2.5平均浓度	编号	风向	pm_2.5平均浓度
1	北风	38	5	南风	32.02
2	西北风	28.72	6	东南风	27.73
3	西风	28.72	7	东风	34.94
4	西南风	34.66	8	东北风	30.54

由表3可以推断出，颗粒物的积聚主要是由向北方向的气流导致的，而东南方向的气流有利于颗粒物扩散，即可以降低pm_2.5浓度。

table 4. correlation matrix of weather indicators with pm_2.5 concentration

表4. 天气指标对pm_2.5浓度相关系数矩阵

	pm_2.5	最高温度	最低温度	风级
pm_2.5	1
最高温度	−0.338	1
最低温度	−0.337	0.970	1
风级	0.041	−0.029	−0.066	1

观察表4不难得到pm_2.5与pm₁₀、so₂、co、no₂、o₃的相关系数分别为−0.338、−0.337、0.041。

3.5. 逐步回归分析

利用spss进行逐步回归分析，由于影响空气质量因素均为气体，故选用pm₁₀、so₂、co、no₂、o₃这五个为自变量，pm_2.5为因变量，分析结果如下表5。

table 5. fit of stepwise regression analysis

表5. 逐步回归分析拟合优度表

模型	r	r方	调整后r方	标准估算的错误
1	0.921^a	0.849	0.848	8.932
2	0.931^b	0.866	0.866	8.408
3	0.940^c	0.883	0.882	7.882
4	0.940^d	0.885	0.883	7.835

注释：^a代表模型1，^b代表模型2，^c代表模型3，^d代表模型4。

拟合优度通常可以通过判定系数r方来进行评估。从表中数据可见，所有判定系数r方均大于0.8，这表明方程的拟合程度良好。特别地，模型四的r方值为0.883，意味着该模型能够解释y值的88.3%。随着自变量的逐步引入，标准估算误差从8.932降低至7.835，这从侧面反映了拟合度的逐步提升。最终，so₂被排除在模型之外，这可能是因为除了与pm_2.5存在相关性外，so₂还与其他几个指标具有一定的相关性。

根据数据分析结果，pm₁₀对pm_2.5的影响最为显著，而so₂与因变量的线性关系不显著，因此被剔除。在表6中，展示了自变量pm₁₀、co、no₂、o₃对因变量的影响程度。最终得出的pm_2.5最优模型显示，从回归方程的系数来看，pm_2.5与pm₁₀、co呈现正相关关系，而与o₃、no₂则呈现负相关关系。具体来说，当pm₁₀、co、no₂、o₃各自增加一个单位时，pm_2.5会分别增加0.565、17.635个单位，同时减少0.082、0.127个单位。根据系数的贡献率，对pm_2.5影响从大到小的排序为co、pm₁₀、o₃、no₂。

为了应对一些非线性影响，从而更好、更准确地预测空气中细颗粒物pm_2.5的污染情况，本文采用了主成分分析与bp神经网络理论相结合的方法。

table 6. stepwise regression coefficient table

表6. 逐步回归系数表

模型		未标准化系数		标准化系数	t	显著性
模型		b	标准错误	beta	t
1	(常量)	−5.420	0.957		−5.666	0.000
1	pm₁₀	0.675	0.015	0.921	45.119	0.000
2	(常量)	−11.381	1.247		−9.125	0.000
	pm₁₀	0.567	0.021	0.774	26.922	0.000
	co	14.472	2.095	0.199	6.908	0.000
3	(常量)	−5.023	1.471		−3.415	0.001
	pm₁₀	0.561	0.020	0.766	28.407	0.000
	co	14.740	1.965	0.202	7.503	0.000
	o₃_8 h	−0.072	0.010	−0.129	−7.130	0.000
4	(常量)	−3.206	1.659		−1.933	0.054
	pm₁₀	0.565	0.020	0.772	28.670	0.000
	co	17.635	2.318	0.242	7.607	0.000
	o₃_8 h	−0.082	0.011	−0.146	−7.513	0.000
	no₂	−0.127	0.055	−0.063	−2.318	0.021

3.6. 主成分分析

运用spss软件得到成分得分系数矩阵表(见表7)，并依靠此表构建得分方程。

table 7. principal component score coefficient table

表7. 主成分得分系数表

	成分
	1	2	3	4
pm_2.5	0.214	0.133	−0.049	0.059
pm₁₀	0.203	0.172	−0.096	0.010
so₂	0.186	0.056	−0.110	−0.130
no₂	0.168	0.104	0.245	0.084
co	0.181	0.245	0.049	0.121
o₃	−0.101	0.324	−0.211	−0.072
最高气温	−0.149	0.342	0.029	0.144
最低气温	−0.157	0.315	0.066	0.171
天气	0.012	−0.112	0.153	0.901
风向	−0.010	0.094	0.509	−0.216
风级	0.006	0.003	−0.511	0.186

$\begin{matrix} z_{1} = 0.214 x_{{pm}_{2.5}} 0.203 x_{{pm}_{10}} 0.186 x_{{so}_{2}} 0.168 x_{{no}_{2}} 0.181 x_{co} - 0.101 x_{o_{3}} \\ - 0.149 x_{最高气温} - 0.157 x_{最低气温} 0.012 x_{天气} - 0.010 x_{风向} 0.006 x_{风级} \end{matrix}$ (3)

$\begin{matrix} z_{2} = 0.133 x_{{pm}_{2.5}} 0.172 x_{{pm}_{10}} 0.056 x_{{so}_{2}} 0.104 x_{{no}_{2}} 0.245 x_{co} 0.324 x_{o_{3}} \\ 0.342 x_{最高气温} 0.315 x_{最低气温} - 0.112 x_{天气} 0.094 x_{风向} 0.003 x_{风级} \end{matrix}$ (4)

$\begin{matrix} z_{3} = - 0.049 x_{{pm}_{2.5}} - 0.096 x_{{pm}_{10}} - 0.110 x_{{so}_{2}} 0.245 x_{{no}_{2}} 0.049 x_{co} - 0.211 x_{o_{3}} \\ - 0.029 x_{最高气温} - 0.066 x_{最低气温} 0.153 x_{天气} 0.509 x_{风向} - 0.511 x_{风级} \end{matrix}$ (5)

$\begin{matrix} z_{4} = 0.059 x_{{pm}_{2.5}} 0.010 x_{{pm}_{10}} - 0.130 x_{{so}_{2}} 0.084 x_{{no}_{2}} 0.121 x_{co} - 0.072 x_{o_{3}} \\ 0.144 x_{最高气温} 0.171 x_{最低气温} 0.901 x_{天气} - 0.216 x_{风向} 0.186 x_{风级} \end{matrix}$ (6)

利用以上四个主成分变量，将影响pm_2.5浓度的11个变量信息综合并简化为4个主要成分信息。

3.7. bp神经网络拟合

采用python进行bp神经网络预测，该模型以四个主成分变量为输入变量，隐含层设置为8层，输出层直接对应pm_2.5的浓度值。模型选取与当前情况最为接近的12月份数据作为预测基础，并设定预测步长为10,000步。为验证预测结果的准确性，本文采取了两种方法：一是绘制预测值与实际值的轮廓图，直观评估两者差异；二是运用mse (均方误差)即预测值与真实值差的平方的期望值来评判模型的拟合程度。python软件绘制的图像见图3，预测值与真实值高度接近，误差极小，表明拟合结果优异。

figure 3. comparison of pm_2.5 forecast values with actual values

图3. pm_2.5预测值与实际值对比

4. 总结与建议

4.1. 总结

在空气污染物相关性分析中，pm_2.5与pm₁₀的相关性最强，同时与so₂、no₂、co呈正相关，而与o₃呈负相关。降水对pm_2.5浓度有较大影响，能显著降低其浓度，气流方向也影响颗粒物分布，其中北向气流易使颗粒物积累，而东南向气流则促进扩散。此外，pm_2.5浓度与温度呈负相关，而与风级关系微弱。在构建回归方程时，so₂与pm_2.5的线性关系不显著被剔除，pm₁₀对pm_2.5的影响最大。主成分分析显示，选取4个主成分变量能充分解释变量信息并实现有效降维。当这4个主成分作为bp神经网络的输入层时，网络在迭代6000步后展现出相对精准的预测结果。

4.2. 建议

(1) 法制建设：立法监管，强化排污约束

在pm_2.5浓度预测研究中，发现我国污染治理机制尚存不足。建议政府加强法制建设，通过立法手段，严格监管排污行为，调动各方力量，共同限制气体排放，从源头上降低pm_2.5浓度。

(2) 技术革新：规范技术体系，提升监测水平

为完善空气质量监测体系，需大力发展监测技术，研发适合我国国情的监测仪器，增加监测站点，确保数据真实反映空气质量变化。同时，利用多种媒体渠道，及时发布预警信息，提供出行建议。

(3) 部门协同：加强部门合作，优化资源共享

提高pm_2.5监测水平，离不开气象、环保等部门的紧密合作。建议各地区政府相关部门联合行动，建立合理的制度体系，优化资源配置，共享监测数据，共同提升环境质量。

(4) 源头治理：强化监测能力，严控排放源头

为有效降低pm_2.5污染，改善空气质量，需加快构建监测能力，为pm_2.5研究提供有力数据支持。同时，加大对重污染行业的治理力度，加强检查、监督与惩罚，严格控制污染物排放，从源头上解决污染问题。

基金项目

鞍山师范学院校级科学研究项目(编号：23kyxm040)；

2024年度鞍山市哲学社会科学研究立项课题成果(编号：as20242052)；

鞍山师范学院国家级大学生创新创业训练计划项目(编号：202410169032)；

鞍山师范学院应用型课程建设项目阶段性研究成果(编号：2024-07)；

鞍山师范学院校级本科教学改革培育项目(编号：2023-15)。

notes

^*通讯作者：张春月(1984-)，女，高级统计师，主要从事应用统计学方向研究。

参考文献

[1]	苏赫. 基于改进bp神经网络的空气质量预测研究[d]: [硕士学位论文]. 南昌: 南昌大学, 2020.
[2]	王文静. 基于arma-bp神经网络的城市空气质量预测研究[d]: [硕士学位论文]. 西安: 西安工业大学, 2021.
[3]	尤游, 张林静. 贝叶斯正则化bp神经网络在空气质量指数预测中的应用[j]. 重庆科技学院学报(自然科学版), 2022, 24(1): 78-82.

为你推荐

凯发娱乐注册的友情链接