1. 研究目的与意义
当今保护环境已成为全球共识,而空气质量更是衡量其好坏的重要标准之一。持续的空气污染或多或少对人们的身体健康造成一定的伤害,尤其是中老年人和患有呼吸道、心血管疾病的群众。近年来由于中国的工业化、城市化的快速发展,雾霾等恶劣污染天气频发。随着经济的发展,国家对大气污染治理力度不断加大,尽管“十三五”约束性指标已经超额完成,但是,个别地区、个别时段重污染天气仍时有发生,完成“十四五”基本消除重污染天气目标任重道远。而空气质量的精准预测对于污染天气的提前防控,及时做出针对性部署与治理起到重要参考作用,对人们的日常活动也有一定的日常指导作用。随着人工智能的快速发展,越来越多的研究人员将机器学习运用到时间序列空气质量的预测研究中,并取得较好的预测结果。
2. 课题关键问题和重难点
机器学习在空气质量预测方面的应用是热门研究之一,该课题拟定选用KNN、SVM、LSTM算法模型对空气质量做预测。空气质量指数背后的影响因素在时间和空间上均有或多或少的关系,需将气象特征,空间特征综合分析并做出预测。数据的有效性对预测结果的准确性有着重要影响,该课题通过爬取空气质量网站气象网站等获得2022年南京市,西安市,深圳市空气质量指数及气象指数包括了六大污染物指标和五大气象特征,数据集较大且特征较多,对数据的预处理是一大难点。此外,空气质量的影响因素是综合考虑的,空气质量的评定需综合分析六大污染物含量的自相关性,气象数据与空气质量的相关性分析,这些都与空气质量预测的准确性有着不同程度的联系,为区域的空气治理和改善提供理论依据。
3. 国内外研究现状(文献综述)
近年来机器学习作为人工智能的热点研究之一,在各个领域都有广泛的应用并取得有效的研究成果。张勤,郭进利根据2016-2021年每日上海空气质量数据,分别用BP神经网络,CART决策树,支持向量机对次日空气质量等级进行预测并得出支持向量机的预测结果最优,BP神经网络的精确度最差的结果。但空气质量指数与季节特征相关,研究在扩大样本量的同时还需根据四季建模分析。刘侠,何春旺对六大污染物指标和六大气象数据通过min-max对数据进行归一化,利用XGBoost算法对北京市PM2.5空气质量做预测,与逻辑回归、决策树、随机森林、梯度提提升决策树、极端梯度提升相比,预测结果最接近实际值。不同于部分学者将空气质量等级作为变量之一,何进采用气象指标和环境指标共同预测北京AQI指数,在XGBoost,随机森林,BP神经网络的基础上建立了XGBoost-RF-BPNN混合模型并取得较精确的结果。由于该研究是混合模型,通过与其他融合模型比较更能体现模型的优越性。
中国国土广阔,各地区之间有着鲜明的特征,空气污染程度依赖复杂的时空变化特征,莫炜聪运用了常用于时序预测任务的机器学习模型和深度学习模型并发现深度学习模型预测结果更优,并在此基础上提出了融合空间特征和时间特征的深度学习模型GCN-GRU-ATT且取得了较好的预测效果。该模型仅限于短期预测且考虑因素有限。刘成亮在空气质量预测中结合了时空异质性分析,通过地理加权回归方法进行数据分析,结合LSTM网络和GCN网络两种模型,提取实验数据时空特质,实现较基础模型更优的性能和精度。
近年来长短时记忆网络在空气质量预测领域中被大量采用,并取得较优异的成果。朱润苏提出由多通道数据输入和多路径结果输出组成的新型数据输入输出方式提高输入数据的有效性,并针对VLSTM结构的大量参数问题和实际空气质量数据不稳定等问题,对VLSTM的内部结构进行了多种改进,提升了网络训练时的收敛能力,及异常值的抗干扰能力,使预测结果在各项指标上都较原本的VLSTM和GRU有所提升。对于部分新监测点历史数据较少难以做预测的问题,ZHUMA等人提出了基于传递学习的堆叠式双向长短期记忆神经网络模型,该方法结合了叠加BLSTM和迁移学习,解决了新站短期时间数据匮乏的问题并显著提高了基础模型的预测性能。现有的空气污染物浓度预测方法无法有效地模拟长期依赖性,并且大多忽略了空间相关性。李翔等人提出一种固有考虑时空相关性的新型长短期记忆神经网络扩展(LSTME)模型用于空气污染物浓度预测。利用长短期记忆层从历史空气污染物数据中自动提取固有的有用特征,并将气象数据和时间数据等辅助数据合并到所提出的模型中,以提高性能。经过多种模型实验对比表明LSTME模型优于其他基于统计的模型。
4. 研究方案
该课题通过2022年全国城市空气质量报告选定南京,深圳,西安三座城市作为研究对象。该三座城市在城市功能,经济发展,地理特征等方面均具有一定的对比分析意义,为中国其他城市的空气治理和防控有一定的参考意义。首先通过爬取空气质量网站、气象网站获取该三座城市的2022年每日的空气质量指数包括六种污染因子(NO2、SO2、PM2.5、PM10、O3、CO),各项气象指标数据包括温度,相对湿度,气压,风速,降雨五大特征指标,并对数据做清洗、去重、缺省值处理等数据预处理操作。由于气象因素单位不统一,数据范围差距较大,故用min-max标准化方法对数据集做归一化处理。
为提高空气质量预测准确性,该课题从时间特征和空间特征上对空气质量进行分析。分别从环境因素和气象因素分析对空气质量的约束关系,环境因素考虑到植被覆盖率,人口密度等因素,接着对空气六大污染物指数与空气质量数据的自相关分析以及气象数据与空气质量数据的相关性分析以及数据的可视化,探究不同特征因子与空气质量指标的关联。
将经过数据预处理后的结果进行数据划分,本课题选择机器学习算法里较常用的KNN、SVM、LSTM来建立空气质量预测模型,通过获取前七天的空气质量指数和气象数据,预测未来一天的空气质量指数,最后通过预测数据对模型进行对比分析。SVM用于分类问题,不能直接用于空气质量预测,需要使用其回归方法支持向量回归机。LSTM是一种RNN特殊的类型,它可以学习序列的长时依赖信息,原始的RNN即使不使用Sigmoid或ReLU激活函数,也可能引起梯度消失。RNN通过覆盖的方式计算隐藏状态,在序列边长时就的信息就会被“遗忘”,而LSTM的隐藏状态是通过累加的方式计算,这样梯度消失的可能性会大大减小。
5. 工作计划
(1)通过爬虫爬取定向空气质量网站和气象网站的数据,并进行数据预处理(清洗、去重、格式调整,缺省值补齐等)
(2)对数据进行分析,确定与空气质量密切相关的特征数据,对数据进行分组和可视化
(3)通过机器学习算法训练数据模型,并通过不同分组数据进行验证
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。