مقابله با مخاطرات ناشی از غلظت آلایندۀ PM2.5 با به‌کارگیری روش‌های رگرسیونی و شباهت مکانی- زمانی و تخمین مقادیر گم‌شده در سری زمانی آنها (مطالعۀ موردی: شهر تهران)

نوع مقاله : پژوهشی کاربردی

نویسندگان

1 دانشجوی دکتری مهندسی نقشه‌برداری گرایش سنجش ‌از دور، دانشکدۀ مهندسی عمران و حمل‌ونقل، دانشگاه اصفهان

2 استادیار گروه مهندسی نقشه‌برداری، دانشکدۀ مهندسی عمران و حمل‌ونقل، دانشگاه اصفهان

چکیده

با توجه به تأثیر نامطلوب آلاینده‌ها بر محیط زیست و سلامت انسان، تجزیه‌وتحلیل داده‌های کیفیت هوا اهمیت زیادی در حفاظت از محیط زیست و رویارویی با مشکلات آلودگی هوا دارد. داده‌های گم‌شده در سری‌های زمانی به‌خصوص داده‌های مربوط به آلودگی هوا موجب بروز چالشی ویژه در برابر آنالیز این داده‌ها می‌شود که ضرورت استفاده از روش‌هایی با عنوان جانهی را برای مقابله با این پدیده نمایان می‌کند. مقادیر گم‌شده، موجب کاهش حجم داده و تغییر الگوهای زمانی موجود در داده‌ها و نتیجه‌گیری اشتباه در تجزیه‌وتحلیل داده‌ها می‌شود. در این پژوهش به‌منظور جانهی مقادیر از‌دست‌رفته ‌در داده‌های سری زمانی غلظت آلایندۀ  از 12 ایستگاه سنجش آلودگی شهر تهران، روشی ترکیبی برمبنای رگرسیون جانهی با در نظر گرفتن وابستگی و شباهت‌های مکانی و زمانی بین ایستگاه‌ها توسط الگوریتم پیچش زمانی پویا معرفی شده است. داده‌هایی با مقادیر گم‌شده با الگویی مشابه با داده‌های اصلی در دامنۀ 10، 15 و 20 درصد گم‌شدگی در داده‌ها با هدف ارزیابی عملکرد مدل‌های جانهی شبیه‌سازی شدند. سپس روش پیشنهادی در ترکیب با روش‌های مختلف جانهی چندگانه همانند روش طبقه‌بندی و رگرسیون درختی، نمونۀ تصادفی و میانگین تطابق پیش‌بینی کننده، اجرا و نتایج با روش‌های جانهی منفرد مقایسه شد. نتایج بیانگر برتری روش معرفی‌شده در ترکیب با رگرسیون درختی در مقایسه با دیگر روش‌های جانهی چندگانه و منفرد است.

کلیدواژه‌ها


]1[. بازگیر، سعید؛ قدیری معصوم، مجتبی؛ شمسی‌پور، علی‌اکبر؛ و سیدی سرنجیانه، شیوا (2015). »تحلیل رابطۀ آلودگی هوای تهران با ترافیک و شرایط جو برای کاهش مخاطرات، مدیریت مخاطرات محیطی، دوره 2، شمارۀ 1. ص 49-35.
]2[. باقی یزدل، رقیه؛ جمالی، احسان؛ خدایی، ابراهیم؛ و حبیبی مجتبی (۱۳۹۵). »روش‌های برخورد با داده‌های گمشده: مزایا، معایب، رویکردهای نظری و معرفی نرم‌افزارها«. نامۀ آموزش عالی، دورۀ 9، شمارۀ 33، ص 37-11.
]3[. عثمانی، فرشته؛ و راسخی، علی‌اکبر (۱۳۹۷). »روش‌های وزن‌دهی احتمال معکوس و جانهی چندگانه برای تحلیل پاسخ در حالت گم‌شدگی«. علوم آماری، دورۀ ۱۲ شمارۀ 2، ص 483-469.
]4[.کرمانی، آذر؛ اکبری، مهری؛ علیجانی، بهلول؛ و مفاخری، امید (2015). »تحلیل آماری-همدیدی غلظت آلایندۀ مونواکسیدکربن براساس سمت و سرعت باد و مخاطرۀ آن در شهر تهران«. مدیریت مخاطرات محیطی، دورۀ 2 شمارۀ 4، ص 450-439.‌
[5]. Burgette, L.F.; & Reiter, J.P. (2010). “Multiple imputation for missing data via sequential regression trees”, American journal of epidemiology, 172(9), pp: 1070-1076. doi: https://doi.org/10.1093/aje/kwq260.
[6]. Caillault, É.P.; Lefebvre, A.; & Bigand, A. (2017). “Dynamic time warping-based imputation for univariate time series data”, Pattern Recognition Letters. doi:https://doi.org/10.1016/j.patrec.2017.08.019.
[7]. Chen, X.; & Xiao, Y. (2018). “A novel method for air quality data imputation by nuclear norm minimization”, Journal of Sensors. doi:https://doi.org/10.1155/2018/7465026.
[8]. Erler, N.S.; Rizopoulos, D.; Jaddoe, V.W.; Franco, O.H.; & Lesaffre, E.M. (2019). “Bayesian imputation of time-varying covariates in linear mixed models”, Statistical methods in medical research, 28(2), pp: 555-568. doi:https://doi.org/10.1177/0962280217730851.
[9]. Fortuin, V.; Rätsch, G.; & Mandt, S. (2019). “Multivariate time series imputation with variational autoencoders”, arXiv preprint arXiv:1907.04155. doi: https://arxiv.org/abs/1907.04155..
[10]. Ghazali, S.M.; Shaadan, N.; & Idrus, Z. (2020). “Missing data exploration in air quality data set using R-package data visualisation tools”, Bulletin of Electrical Engineering and Informatics, 9(2), pp: 755-763. doi:https://doi.org/10.11591/eei.v9i2.2088.
[11]. Gómez-Carracedo, M.; Andrade, J.; López-Mahía, P.; Muniategui, S.; & Prada, D. (2014). “A practical comparison of single and multiple imputation methods to handle complex missing data in air quality datasets”, Chemometrics and Intelligent Laboratory Systems, 134, pp: 23-33. doi:https://doi.org/10.1016/j.chemolab.2014.02.007.
[12]. Hadeed, S.J.; O'Rourke, M.K.; Burgess, J.L.; Harris, R.B.; & Canales, R.A. (2020). “Imputation methods for addressing missing data in short-term monitoring of air pollutants”, Science of The Total Environment, pp: 139140. doi:https://doi.org/10.1016/j.scitotenv.2020.139140.
[13]. Junger, W.; & De Leon, A.P. (2015). “Imputation of missing data in time series for air pollutants”, Atmospheric Environment, 102, pp: 96-104. doi:https://doi.org/10.1016/j.atmosenv.2014.11.049.
[14]. Junninen, H.; Niska, H.; Tuppurainen, K.; Ruuskanen, J.; & Kolehmainen, M. (2004). “Methods for imputation of missing values in air quality data sets”, Atmospheric Environment, 38(18), pp: 2895-2907. doi:https://doi.org/10.1016/j.atmosenv.2004.02.026.
[15]. Lin, J.; Li, N.; Alam, M.A.; & Ma, Y. (2020). “Data-driven missing data imputation in cluster monitoring system based on deep neural network”, Applied Intelligence, 50(3), pp: 860-877. doi:https://doi.org/10.1007/s10489-019-01560-y.
[16]. Liu, X.; Wang, X.; Zou, L.; Xia, J.; & Pang, W. (2020). “Spatial imputation for air pollutants data sets via low rank matrix completion algorithm”, Environment International, 139, pp: 105713. doi:https://doi.org/10.1016/j.envint.2020.105713.
[17]. Ma, J.; Cheng, J.C.; Jiang, F.; Chen, W.; Wang, M.; & Zhai, C. (2020). “A bi-directional missing data imputation scheme based on LSTM and transfer learning for building energy data”, Energy and Buildings, pp: 109941. doi:https://doi.org/10.1016/j.enbuild.2020.109941.
[18]. Mishra, S.; Dwivedi, V.; Sarvanan, C.; & Pathak, K. (2013). “Pattern discovery in hydrological time series data mining during the monsoon period of the high flood years in Brahmaputra River basin”, International Journal of Computer Applications, 67(6).
[19]. Raghunathan, T.E.; Lepkowski, J.M.; Van Hoewyk, J.; & Solenberger, P. (2001). “A multivariate technique for multiply imputing missing values using a sequence of regression models”, Survey methodology, 27(1), pp: 85-96.
[20]. Rombach, I.; Gray, A.M.; Jenkinson, C.; Murray, D.W.; & Rivero-Arias, O. (2018). “Multiple imputation for patient reported outcome measures in randomised controlled trials: advantages and disadvantages of imputing at the item, subscale or composite score level”, BMC medical research methodology, 18(1), pp: 87. doi:https://doi.org/10.1186/s12874-018-0542-6.
[21]. Shahbazi, H.; Karimi, S.; Hosseini, V.; Yazgi, D.; & Torbatian, S. (2018). “A novel regression imputation framework for Tehran air pollution monitoring network using outputs from WRF and CAMx models”, Atmospheric Environment, 187, pp: 24-33. doi:https://doi.org/10.1016/j.atmosenv.2018.05.055.
[22]. Stead, A.D.; & Wheat, P. (2020). “The case for the use of multiple imputation missing data methods in stochastic frontier analysis with illustration using English local highway data”, European Journal of Operational Research, 280(1), pp: 59-77. doi:https://doi.org/10.1016/j.ejor.2019.06.042.
[23]. Zeileis, A.; Grothendieck, G.; Ryan, J.A.; Andrews, F.; & Zeileis, M.A. (2019). “Package "zoo"”.