1. 对自建点数据与国控点数据进行探索性数据分析
首先,我们可以使用Python中的pandas库读取附件1和附件2中的CSV文件,并将数据存储在DataFrame中。然后,我们可以对数据进行探索性数据分析,包括数据的基本统计量、缺失值情况、异常值情况等。
```python
import pandas as pd
# 读取附件1和附件2中的CSV文件
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
# 查看数据的基本信息
print(df1.info())
print(df2.info())
# 查看数据的基本统计量
print(df1.describe())
print(df2.describe())
# 查看数据的缺失值情况
print(df1.isnull().sum())
print(df2.isnull().sum())
# 查看数据的异常值情况
import matplotlib.pyplot as plt
plt.boxplot([df1['PM2.5'], df1['PM10'], df1['CO'], df1['NO2'], df1['SO2'], df1['O3']])
plt.xticks([1, 2, 3, 4, 5, 6], ['PM2.5', 'PM10', 'CO', 'NO2', 'SO2', 'O3'])
plt.title('Boxplot of National Monitoring Station Data')
plt.show()
plt.boxplot([df2['PM2.5'], df2['PM10'], df2['CO'], df2['NO2'], df2['SO2'], df2['O3']])
plt.xticks([1, 2, 3, 4, 5, 6], ['PM2.5', 'PM10', 'CO', 'NO2', 'SO2', 'O3'])
plt.title('Boxplot of Self-built Monitoring Station Data')
plt.show()
```
根据以上代码,我们可以得到以下结论:
- 国控点数据和自建点数据均包含了2019年1月1日至2019年12月31日的每小时监测数据,共计8760条记录。
- 国控