找回密码
 立即注册
搜索

掌握 Pandas 中的多索引:复杂数据分析的强大工具

Pandas是 Python 中广泛使用的数据操作库,它提供了处理各种类型数据的广泛功能。它的显着特性之一是能够使用MultiIndexes,也称为分层索引。在这篇博文中,我们将深入研究多索引的概念,并探索如何利用它们来处理复杂的多维数据集。
了解 MultiIndexes:分析运动表现数据

MultiIndex 是一种 pandas 数据结构,允许跨多个维度或级别索引和访问数据。它支持为行和列创建层次结构,提供一种灵活的方式来组织和分析数据。为了说明这一点,让我们考虑一个场景,您是一名私人教练或教练,您在运动员的体育活动中监测他们的健康参数。您想要在特定时间间隔内跟踪各种参数,例如心率、跑步配速和节奏。
综合健康表现数据

要处理此类数据,让我们首先编写模拟健康表现数据的 Python 代码,特别是心率和跑步节奏:
from __future__ import annotationsfrom datetime import datetime, timedeltaimport numpy as npimport pandas as pdstart = datetime(2023, 6, 8, 14)end = start + timedelta(hours=1, minutes=40)timestamps = pd.date_range(start, end, freq=timedelta(minutes=1), inclusive='left')def get_heart_rate(begin_hr: int, end_hr: int, break_point: int) -> pd.Series[float]:    noise = np.random.normal(loc=0.0, scale=3, size=100)    heart_rate = np.concatenate((np.linspace(begin_hr, end_hr, num=break_point), [end_hr] * (100 - break_point))) + noise    return pd.Series(data=heart_rate, index=timestamps)def get_cadence(mean_cadence: int) -> pd.Series[float]:    noise = np.random.normal(loc=0.0, scale=1, size=100)    cadence = pd.Series(data=[mean_cadence] * 100 + noise, index=timestamps)    cadence[::3] = np.NAN    cadence[1::3] = np.NAN    return cadence.ffill().fillna(mean_cadence)提供的代码片段展示了体育活动期间心率和节奏的合成数据的生成。它首先导入必要的模块,例如 datetime、numpy 和 pandas。
体育活动的持续时间定义为 100 分钟,该pd.date_range函数用于以一分钟为间隔生成一系列时间戳以覆盖该时间段。
get_heart_rate函数生成合成心率数据,假设心率线性增加到一定水平,然后在活动的剩余时间保持恒定水平。引入高斯噪声以增加心率数据的可变性,使其更加真实。
类似地,该get_cadence函数会生成合成节奏数据,假设在整个活动中节奏相对恒定。添加高斯噪声以创建步频值的可变性,噪声值每三分钟而不是每分钟更新一次,反映步频相对于心率的稳定性。
有了数据生成功能,现在可以为两个运动员 Bob 和 Alice 创建综合数据:
bob_hr = get_heart_rate(begin_hr=110, end_hr=160, break_point=20)alice_hr = get_heart_rate(begin_hr=90, end_hr=140, break_point=50)bob_cadence = get_cadence(mean_cadence=175)alice_cadence = get_cadence(mean_cadence=165)此时,我们有 Bob 和 Alice 的心率和节奏。让我们使用 matplotlib 绘制它们以更深入地了解数据:
from __future__ import annotationsimport matplotlib.dates as mdatesimport matplotlib.pyplot as pltdate_formatter = mdates.DateFormatter('%H:%M:%S')  # Customize the date format as neededfig = plt.figure(figsize=(12, 6))ax = fig.add_subplot(111)ax.xaxis.set_major_formatter(date_formatter)ax.plot(bob_hr, color="red", label="Heart Rate Bob", marker=".")ax.plot(alice_hr, color="red", label="Heart Rate Alice", marker="v")ax.grid()ax.legend()ax.set_ylabel("Heart Rate [BPM]")ax.set_xlabel("Time")ax_cadence = ax.twinx()ax_cadence.plot(bob_cadence, color="purple", label="Cadence Bob", marker=".", alpha=0.5)ax_cadence.plot(alice_cadence, color="purple", label="Cadence Alice", marker="v", alpha=0.5)ax_cadence.legend()ax_cadence.set_ylabel("Cadence [SPM]")ax_cadence.set_ylim(158, 180)


伟大的!对数据的初步分析提供了有趣的观察结果。我们可以很容易地区分 Bob 和 Alice 在最大心率和增加速率方面的差异。此外,Bob 的节奏似乎明显高于 Alice 的。
使用 Dataframes 实现可扩展性

bob_hr但是,正如您可能已经注意到的那样,当前为每个健康参数和运动员使用单独变量( 、alice_hrbob_cadence和)的方法alice_cadence不可扩展。在具有大量运动员和健康参数的现实场景中,这种方法很快变得不切实际且麻烦。
为了解决这个问题,我们可以通过使用 pandas DataFrame 来表示多个运动员和健康参数的数据,从而利用 pandas 的强大功能。通过以表格格式组织数据,我们可以轻松地同时管理和分析多个变量。
DataFrame 的每一行都可以对应一个特定的时间戳,每一列都可以代表特定运动员的健康参数。这种结构允许高效存储和操作多维数据。
通过使用 DataFrame,我们可以消除对单独变量的需要,并将所有数据存储在一个对象中。这增强了代码清晰度,简化了数据处理,并提供了整个数据集的更直观表示。
bob_df = pd.concat([bob_hr.rename("heart_rate"), bob_cadence.rename("cadence")], axis="columns")这是 Bob 健康数据的 Dataframe 的样子:


心率
节奏
2023-06-08 14:00:00
112.359
175
2023-06-08 14:01:00
107.204
175
2023-06-08 14:02:00
116.617
175.513
2023-06-08 14:03:00
121.151
175.513
2023-06-08 14:04:00
123.27
175.513
2023-06-08 14:05:00
120.901
174.995
2023-06-08 14:06:00
130.24
174.995
2023-06-08 14:07:00
131.15
174.995
2023-06-08 14:08:00
131.402
174.669

引入分层数据框

最后一个数据框看起来已经更好了!但是现在我们仍然需要为每个运动员创建一个新的数据框。这是 pandas MultiIndex 可以提供帮助的地方。让我们来看看我们如何优雅地将多个运动员和健康参数的数据合并到一个数据框中:
from itertools import productbob_df = bob_hr.to_frame("value")bob_df["athlete"] = "Bob"bob_df["parameter"] = "heart_rate"values = {    "Bob": {        "heart_rate": bob_hr,        "cadence": bob_cadence,    },    "Alice": {        "heart_rate": alice_hr,        "cadence": alice_cadence    }}sub_dataframes: list[pd.DataFrame] = []for athlete, parameter in product(["Bob", "Alice"], ["heart_rate", "cadence"]):    sub_df = values[athlete][parameter].to_frame("values")    sub_df["athlete"] = athlete    sub_df["parameter"] = parameter    sub_dataframes.append(sub_df)df = pd.concat(sub_dataframes).set_index(["athlete", "parameter"], append=True)df.index = df.index.set_names(["timestamps", "athlete", "parameter"])此代码处理运动员 Bob 和 Alice 的心率和踏频数据。它执行以下步骤:

  • 为 Bob 的心率数据创建一个 DataFrame,并为运动员和参数添加元数据列。
  • 定义一个字典,用于存储 Bob 和 Alice 的心率和节奏数据。
  • 生成运动员和参数的组合(Bob/Alice 和 heart_rate/cadence)。
  • 对于每个组合,创建一个具有相应数据和元数据列的子数据框。
  • 将所有子数据帧连接成一个数据帧。
  • 设置索引以包括时间戳、运动员和参数的级别。这是创建实际 MultiIndex 的地方
这是分层数据框df的样子:


价值观
(时间戳('2023-06-08 14:00:00'),'鲍勃','heart_rate')
112.359
(时间戳('2023-06-08 14:01:00'),'鲍勃','heart_rate')
107.204
(时间戳('2023-06-08 14:02:00'),'鲍勃','heart_rate')
116.617
(时间戳('2023-06-08 14:03:00'),'鲍勃','heart_rate')
121.151
(时间戳('2023-06-08 14:04:00'),'鲍勃','heart_rate')
123.27
(时间戳('2023-06-08 14:05:00'),'鲍勃','heart_rate')
120.901
(时间戳('2023-06-08 14:06:00'),'鲍勃','heart_rate')
130.24
(时间戳('2023-06-08 14:07:00'),'鲍勃','heart_rate')
131.15
(时间戳('2023-06-08 14:08:00'),'鲍勃','heart_rate')
131.402

至此,我们已经有了一个单一的数据框,其中包含任意数量的运动员和健康参数的所有信息。我们现在可以轻松地使用该.xs方法来查询分层数据框:
df.xs("Bob", level="athlete")  # get all health data for Bob


价值观
(时间戳('2023-06-08 14:00:00'),'heart_rate')
112.359
(时间戳('2023-06-08 14:01:00'),'heart_rate')
107.204
(时间戳('2023-06-08 14:02:00'),'heart_rate')
116.617
(时间戳('2023-06-08 14:03:00'),'heart_rate')
121.151
(时间戳('2023-06-08 14:04:00'),'heart_rate')
123.27

df.xs("heart_rate", level="parameter")  *# get all heart rates*


价值观
(时间戳('2023-06-08 14:00:00'),'鲍勃')
112.359
(时间戳('2023-06-08 14:01:00'),'鲍勃')
107.204
(时间戳('2023-06-08 14:02:00'),'鲍勃')
116.617
(时间戳('2023-06-08 14:03:00'),'鲍勃')
121.151
(时间戳('2023-06-08 14:04:00'),'鲍勃')
123.27

df.xs("Bob", level="athlete").xs("heart_rate", level="parameter")  # get heart_rate data for Bob
时间戳
价值观
2023-06-08 14:00:00
112.359
2023-06-08 14:01:00
107.204
2023-06-08 14:02:00
116.617
2023-06-08 14:03:00
121.151
2023-06-08 14:04:00
123.27

用例:地球温度变化

为了展示分层数据框的强大功能,让我们探索一个真实世界的复杂用例:分析过去几十年地球表面温度的变化。对于此任务,我们将利用Kaggle 上可用的数据集,该数据集总结了美国国家航空航天局戈达德太空研究所 (NASA-GISS)分发的全球表面温度变化数据。
检查和转换原始数据

让我们从阅读和检查数据开始。此步骤对于在深入分析之前更好地了解数据集的结构和内容至关重要。以下是我们如何使用 pandas 完成此操作:
from pathlib import Pathfile_path = Path() / "data" / "Environment_Temperature_change_E_All_Data_NOFLAG.csv"df = pd.read_csv(file_path , encoding='cp1252')df.describe()


区号
月份代码
元素代码
Y1961
Y1962
Y1963
Y1964
Y1965
Y1966
Y1967
Y1968
Y1969
Y1970
Y1971
Y1972
Y1973
Y1974
Y1975
Y1976
Y1977
Y1978
Y1979
Y1980
Y1981
Y1982
Y1983
Y1984
Y1985
Y1986
Y1987
Y1988
Y1989
Y1990
Y1991
Y1992
Y1993
Y1994
Y1995
Y1996
Y1997
1998年
Y1999
2000元
2001年
2002年
2003年
2004年
2005年
2006年
2007年
2008年
2009年
2010年
2011年
2012年
2013年
2014年
2015年
2016年
2017年
2018年
2019年
数数
9656
9656
9656
8287
8322
8294
8252
8281
8364
8347
8345
8326
8308
8303
8323
8394
8374
8280
8209
8257
8327
8290
8283
8276
8237
8205
8259
8216
8268
8284
8273
8257
8239
8158
8354
8315
8373
8409
8439
8309
8370
8324
8342
8241
8312
8390
8415
8424
8503
8534
8475
8419
8435
8437
8350
8427
8377
8361
8348
8366
8349
8365
意思是
821.806
7009.88
6674.5
0.402433
0.315527
0.317393
0.269382
0.217839
0.376419
0.263239
0.24487
0.382172
0.365322
0.240934
0.302553
0.427691
0.261849
0.314653
0.221112
0.422978
0.355488
0.442465
0.43827
0.437693
0.404857
0.503748
0.366971
0.365511
0.398096
0.535514
0.546662
0.469231
0.621797
0.499991
0.447798
0.439094
0.611078
0.635836
0.477239
0.617341
0.818264
0.704445
0.674191
0.741673
0.802509
0.769485
0.726237
0.777465
0.791795
0.842554
0.742614
0.814177
0.884504
0.768488
0.78893
0.829647
0.913872
1.01882
1.08149
1.00334
1.01083
1.0946
标准
1781.07
6.03825
596.531
0.701567
0.713777
0.853133
0.749216
0.739418
0.73737
0.725421
0.7549
0.725313
0.662412
0.727313
0.765895
0.677769
0.76885
0.723964
0.755587
0.677094
0.662228
0.670377
0.638585
0.70157
0.675693
0.749268
0.700364
0.765491
0.710202
0.756869
0.664038
0.758738
0.724396
0.656754
0.843925
0.81786
0.752511
0.754133
0.72521
0.741812
0.785076
0.723811
0.783754
0.781683
0.840545
0.794839
0.644364
0.720366
0.821489
0.854893
0.852562
0.694464
0.878303
0.750631
0.858586
0.713753
0.815933
0.840189
0.877399
0.8098
0.872199
0.853953
分钟
1个
7001
6078
-4.018
-5.391
-8.483
-7.309
-4.728
-8.147
-6.531
-8.407
-6.784
-5.847
-7.671
-7.722
-4.896
-4.732
-6.169
-4.263
-6.495
-8.228
-6.319
-5.784
-6.591
-4.55
-6.101
-5.437
-8.411
-6.345
-8.75
-8.963
-5.311
-4.03
-4.598
-5.414
-7.389
-5.099
-4.862
-4.027
-4.059
-6.031
-3.035
-3.596
-5.493
-6.17
-6.118
-5.025
-5.171
-4.981
-3.19
-9.334
-3.543
-6.072
-4.854
-5.785
-3.642
-5.367
-4.068
-3.306
-3.584
-2.216
-2.644
25%
78
7005
6078
0.057
-0.033
0.03025
-0.1025
-0.214
0.055
-0.169
-0.164
0.171
0.094
-0.209
-0.028
0.201
-0.184
-0.115
-0.219
0.174
0.091
0.217
0.2455
0.205
0.168
0.268
0.077
0.123
0.164
0.293
0.285
0.186
0.298
0.264
0.18425
0.214
0.289
0.324
0.244
0.305
0.385
0.327
0.3
0.349
0.38
0.37525
0.361
0.373
0.371
0.378
0.337
0.381
0.392
0.365
0.37225
0.4085
0.418
0.437
0.457
0.443
0.434
0.455
50%
153.5
7009
6674.5
0.366
0.333
0.355
0.326
0.303
0.36
0.313
0.312
0.385
0.367
0.305
0.346
0.413
0.305
0.325
0.309
0.388
0.35
0.406
0.424
0.409
0.39
0.468
0.373
0.374
0.38
0.504
0.478
0.404
0.49
0.448
0.419
0.427
0.493
0.539
0.45
0.528
0.715
0.548
0.514
0.596
0.668
0.658
0.597
0.676
0.646
0.667
0.589
0.693
0.771
0.64
0.651
0.719
0.745
0.858
0.949
0.865
0.81
0.939
75%
226.25
7016
7271
0.6765
0.627
0.64775
0.609
0.584
0.66025
0.601
0.595
0.677
0.642
0.5885
0.628
0.709
0.586
0.625
0.586
0.695
0.633
0.69775
0.701
0.709
0.689
0.825
0.666
0.674
0.678
0.854
0.802
0.728
0.8485
0.758
0.777
0.748
0.874
0.905
0.777
0.938
1.188
0.98825
0.937
1.028
1.08425
1.063
0.991
1.104
1.082
1.096
1.0425
1.1345
1.2765
1.091
1.108
1.126
1.19
1.389
1.496
1.36475
1.341
1.508
最大限度
5873
7020
7271
5.771
4.373
4.666
5.233
5.144
5.771
4.768
4.373
4.411
4.373
4.373
9.475
6.304
6.912
6.15
7.689
4.875
5.956
5.483
4.519
6.144
5.411
6.513
9.303
5.948
6.845
4.516
4.982
6.841
9.73
6.11
6.017
5.989
6.477
7.221
7.27
5.637
6.816
7.017
5.836
6.092
8.719
6.171
7.461
7.651
11.331
7.655
8.298
6.415
7.19
6.531
10.826
6.738
11.759
7.59
10.478
7.389
9.228
7.215

从这个初步检查中,很明显数据是在一个数据框中组织的,不同的月份和国家有不同的行。但是,不同年份的值分布在数据框中的多个列中,并标有前缀“Y”。这种格式使得有效读取和可视化数据具有挑战性。为了解决这个问题,我们将数据转换为更加结构化和分层的数据帧格式,使我们能够更方便地查询和可视化数据。
from dataclasses import dataclass, fieldfrom datetime import datefrom pydantic import BaseModelMONTHS = {    "January": 1,     "February": 2,     "March": 3,     "April": 4,     "May": 5,     "June": 6,     "July": 7,     "August": 8,  "September": 9,     "October": 10,  "November": 11,     "December": 12}class GistempDataElement(BaseModel):    area: str    timestamp: date    value: float@dataclassclass GistempTransformer:    temperature_changes: list[GistempDataElement] = field(default_factory=list)    standard_deviations: list[GistempDataElement] = field(default_factory=list)    def _process_row(self, row) -> None:        relevant_elements = ["Temperature change", "Standard Deviation"]        if (element := row["Element"]) not in relevant_elements or (month := MONTHS.get(row["Months"])) is None:            return None        for year, value in row.filter(regex="Y.*").items():            new_element = GistempDataElement(                timestamp=date(year=int(year.replace("Y", "")), month=month, day=1),                area=row["Area"],                value=value            )            if element == "Temperature change":                self.temperature_changes.append(new_element)            else:                self.standard_deviations.append(new_element)    @property    def df(self) -> pd.DataFrame:        temp_changes_df = pd.DataFrame.from_records([elem.dict() for elem in self.temperature_changes])        temp_changes = temp_changes_df.set_index(["timestamp", "area"]).rename(columns={"value": "temp_change"})        std_deviations_df = pd.DataFrame.from_records([elem.dict() for elem in self.standard_deviations])        std_deviations = std_deviations_df.set_index(["timestamp", "area"]).rename(columns={"value": "std_deviation"})        return pd.concat([temp_changes, std_deviations], axis="columns")    def process(self):        environment_data = Path() / "data" / "Environment_Temperature_change_E_All_Data_NOFLAG.csv"        df = pd.read_csv(environment_data, encoding='cp1252')        df.apply(self._process_row, axis="columns")此代码介绍了该类GistempTransformer,该类演示了如何处理 CSV 文件中的温度数据以及如何创建包含温度变化和标准差的分层 DataFrame。
该类GistempTransformer定义为数据类,包括两个列表temperature_changesstandard_deviations,用于存储处理后的数据元素。该_process_row方法负责处理输入 DataFrame 的每一行。它检查相关元素,例如“温度变化”和“标准偏差”,从“月份”列中提取月份,并创建该类的实例GistempDataElement。然后根据元素类型将这些实例附加到适当的列表中。
df属性通过组合temperature_changesstandard_deviations列表返回一个 DataFrame。这个分层的 DataFrame 有一个 MultiIndex,其级别代表时间戳和区域,提供数据的结构化组织。
transformer = GistempTransformer()transformer.process()df = transformer.df


温度变化
标准偏差
(datetime.date(1961, 1, 1), '阿富汗')
0.777
1.95
(datetime.date(1962, 1, 1), '阿富汗')
0.062
1.95
(datetime.date(1963, 1, 1), '阿富汗')
2.744
1.95
(datetime.date(1964, 1, 1), '阿富汗')
-5.232
1.95
(datetime.date(1965, 1, 1), '阿富汗')
1.868
1.95

分析气候数据

现在我们已经将所有相关数据整合到一个数据框中,我们可以继续检查和可视化数据。我们的重点是检查每个区域的线性回归线,因为它们提供了对过去几十年温度变化总体趋势的见解。为了促进这种可视化,我们将创建一个函数来绘制温度变化及其相应的回归线。
def plot_temperature_changes(areas: list[str]) -> None:    fig = plt.figure(figsize=(12, 6))    ax1 = fig.add_subplot(211)    ax2 = fig.add_subplot(212)    for area in areas:        df_country = df[df.index.get_level_values("area") == area].reset_index()        dates = df_country["timestamp"].map(datetime.toordinal)        gradient, offset = np.polyfit(dates, df_country.temp_change, deg=1)        ax1.scatter(df_country.timestamp, df_country.temp_change, label=area, s=5)        ax2.plot(df_country.timestamp, gradient * dates + offset, label=area)    ax1.grid()    ax2.grid()    ax2.legend()    ax2.set_ylabel("Regression Lines [°C]")    ax1.set_ylabel("Temperature change [°C]")在此函数中,我们在 pandas MultiIndex 上使用**get_level_values** 方法来有效地查询不同级别的分层 Dataframe 中的数据。让我们使用这个函数来可视化不同大陆的温度变化:
plot_temperature_changes(["Africa", "Antarctica", "Americas", "Asia", "Europe", "Oceania"])


从这个图中,我们可以得出几个关键结论:

  • 所有大陆的回归线都具有正梯度,表明地球表面温度升高的全球趋势。
  • 与其他大陆相比,欧洲的回归线明显更陡峭,这意味着欧洲的气温上升更为明显。与其他地区相比,这一发现与欧洲加速变暖的观察结果一致。
  • 与南极洲相比,导致欧洲温度升高的具体因素很复杂,需要进行详细的科学研究。然而,一个促成因素可能是洋流的影响。欧洲受到暖洋流的影响,例如墨西哥湾暖流,它将热量从热带输送到该地区。这些洋流在调节温度方面发挥着作用,并可能导致在欧洲观察到的相对较高的变暖。相比之下,南极洲被寒冷的洋流包围,其气候受南大洋和南极绕极流的严重影响,它们充当了温暖水域入侵的屏障,从而限制了变暖效应。
现在,让我们通过检查欧洲不同地区的温度变化,将分析重点放在欧洲本身。我们可以通过为每个欧洲区域创建单独的地块来实现这一点:
plot_temperature_changes(["Southern Europe", "Eastern Europe", "Northern Europe", "Western Europe"])


从欧洲不同地区的温度变化图中,我们观察到整个欧洲大陆的整体温度上升非常相似。虽然各地区之间回归线的陡度可能略有不同,例如东欧与南欧相比曲线略陡,但各地区之间没有显着差异。
受气候变化影响最大和最小的十个国家

现在,让我们将重点转移到确定自 2000 年以来平均气温上升幅度最大的前 10 个国家/地区。以下是我们如何检索国家/地区列表的示例:
df[df.index.get_level_values(level="timestamp") > date(2000, 1, 1)].groupby("area").mean().sort_values(by="temp_change",ascending=False).head(10)
区域
温度变化
标准偏差
斯瓦尔巴群岛和扬马延群岛
2.61541
2.48572
爱沙尼亚
1.69048

科威特
1.6825
1.12843
白俄罗斯
1.66113

芬兰
1.65906
2.15634
斯洛文尼亚
1.6555

俄罗斯联邦
1.64507

巴林
1.64209
0.937431
东欧洲
1.62868
0.970377
奥地利
1.62721
1.56392

为了提取自 2000 年以来平均气温增幅最高的前 10 个国家,我们执行以下步骤:

  • 使用过滤数据框以仅包含年份大于或等于 2000 的行df.index.get_level_values(level='timestamp') >= date(2000, 1, 1)
  • 使用按“区域”(国家/地区)对数据进行分组.groupby('area')
  • 使用 计算每个国家/地区的平均温度变化.mean()
  • 选择平均温度变化最大的前 10 个国家/地区**.sort_values(by="temp_change",ascending=True).head(10)**。
这一结果与我们之前的观察结果一致,证实与其他大陆相比,欧洲经历了最高的温度上升。
继续我们的分析,现在让我们探索受气温上升影响最小的十个国家。我们可以使用与以前相同的方法来提取此信息。这是我们如何检索国家列表的示例:
df[df.index.get_level_values(level="timestamp") > date(2000, 1, 1)].groupby("area").mean().sort_values(by="temp_change",ascending=True).head(10)
区域
温度变化
标准偏差
皮特凯恩群岛
0.157284
0.713095
马绍尔群岛
0.178335

南乔治亚岛和南桑威奇群岛
0.252101
1.11
密克罗尼西亚联邦
0.291996

智利
0.297607
0.534071
威克岛
0.306269

诺福克岛
0.410659
0.594073
阿根廷
0.488159
0.91559
津巴布韦
0.493519
0.764067
南极洲
0.527987
1.55841

我们观察到,这份名单中的大多数国家都是位于南半球的偏远小岛。这一发现进一步支持了我们之前的结论,即与其他地区相比,南部大陆,尤其是南极洲,受气候变化的影响较小。
夏季和冬季的温度变化

现在,让我们使用分层数据框深入研究更复杂的查询。在这个特定的用例中,我们的重点是分析冬季和夏季的温度变化。出于此分析的目的,我们将冬季定义为 12 月、1 月和 2 月,而夏季包括 6 月、7 月和 8 月。通过利用 pandas 的力量和分层数据框,我们可以轻松地可视化欧洲这些季节的温度变化。这是一个示例代码片段来实现这一点:
all_winters = df[df.index.get_level_values(level="timestamp").map(lambda x: x.month in [12, 1, 2])]all_summers = df[df.index.get_level_values(level="timestamp").map(lambda x: x.month in [6, 7, 8])]winters_europe = all_winters.xs("Europe", level="area").sort_index()summers_europe = all_summers.xs("Europe", level="area").sort_index()fig = plt.figure(figsize=(12, 6))ax = fig.add_subplot(111)ax.plot(winters_europe.index, winters_europe.temp_change, label="Winters", marker="o", markersize=4)ax.plot(summers_europe.index, summers_europe.temp_change, label="Summers", marker='o', markersize=4)ax.grid()ax.legend()ax.set_ylabel("Temperature Change [°C]")


从这个图中,我们可以观察到与夏季的温度变化相比,冬季的温度变化表现出更大的波动性。为了量化这种差异,让我们计算两个季节的温度变化的标准差:
pd.concat([winters_europe.std().rename("winters"), summers_europe.std().rename("summers")], axis="columns")


冬天
夏天
温度变化
1.82008
0.696666

结论

总之,掌握 Pandas 中的 MultiIndexes 为处理复杂的数据分析任务提供了强大的工具。通过利用 MultiIndexes,用户可以以灵活直观的方式有效地组织和分析多维数据集。使用行和列的层次结构的能力提高了代码的清晰度,简化了数据处理,并支持同时分析多个变量。无论是跟踪运动员的健康参数还是分析地球温度随时间的变化,理解和利用 Pandas 中的 MultiIndexes 都可以释放图书馆处理复杂数据场景的全部潜力。
您可以在此处找到本文中包含的所有代码: https: //github.com/GlennViroux/pandas-multi-index-blog

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

大神点评7

大唐花痴 2024-4-30 11:27:15 显示全部楼层
转发了
回复

使用道具 举报

胤隆法律 2024-4-30 11:27:43 显示全部楼层
转发了
回复

使用道具 举报

吴老师 2024-4-30 11:28:36 显示全部楼层
转发了
回复

使用道具 举报

AKsSSSyC 2024-4-30 11:29:25 显示全部楼层
转发了
回复

使用道具 举报

转发了
回复

使用道具 举报

早春二月716 2024-4-30 11:30:39 显示全部楼层
转发了
回复

使用道具 举报

鳕蘩 2024-4-30 11:31:35 显示全部楼层
转发了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册