df.groupby().agg({...})语句，对数据进行分组。对分组后的数据进行如下聚合操作

xujunhui / 2023-08-30 / 原文

    data = list_tupel
    dict_data = {'城市': [item[0] for item in data],
                 '工作路程': [item[1] for item in data],
                 '路线': [item[2] for item in data],
                 '回家路程': [item[3] for item in data]}

    # 创建数据框
    df = pd.DataFrame(dict_data)
    # 将数据按照每五天进行分组，并计算距离总和
    df_grouped = df.groupby(df.index // number).agg({'城市': 'last', '工作路程': 'sum', '路线': ' '.join, '回家路程': 'last'})
    df_grouped['上班路程'] = df_grouped['回家路程']
    df_grouped['总路程'] = df_grouped['工作路程'] + df_grouped['回家路程'] + df_grouped['回家路程']
    df_grouped['安装费用'] = number*subsidy
    # 计算路费
    df_grouped['路费'] = df_grouped['总路程'].apply(calculate_fare)
    # 总费用
    df_grouped['总费用'] = df_grouped['安装费用'] + df_grouped['路费']
    column = ['路线', '工作路程', '回家路程', '总路程', '路费', '安装费用', '总费用']
    # 保存结果到文件
    df_grouped.to_excel('距离和路费.xlsx', index=False, columns=column)

根据提供的代码，这段代码的功能是将给定的数据按照每五天进行分组，并进行一些计算和聚合操作，最后将结果保存到Excel文件中。

具体步骤如下：

根据给定的list_tuple数据，通过列表推导式将数据转换为字典形式的dict_data，其中包含了不同列的值。
使用pd.DataFrame()创建一个数据框df，将字典dict_data转换为数据框。
使用df.groupby(df.index // number).agg({...})语句，按照每五天对数据进行分组。对分组后的数据进行如下聚合操作：
'城市': 'last'：取每个分组中最后一个元素的'城市'值作为聚合结果。
'工作路程': 'sum'：计算每个分组中的'工作路程'的总和。
'路线': ' '.join：将每个分组中的'路线'值连接成一个字符串。
'回家路程': 'last'：取每个分组中最后一个元素的'回家路程'值作为聚合结果。
在得到的聚合结果df_grouped中，添加了以下新的列：
'上班路程'：将'回家路程'的值复制给'上班路程'列。
'总路程'：计算每个分组中的'工作路程'、'回家路程'和'回家路程'的总和。
'安装费用'：根据给定的number和subsidy计算每个分组的安装费用。
'路费'：对'总路程'列的值应用calculate_fare函数，计算路费。
'总费用'：计算安装费用和路费的总和。
最后，将df_grouped的特定列按照给定的顺序存储到Excel文件距离和路费.xlsx中。
请注意，在上述代码中，可能需要使用pandas库的相关函数和变量，因此可能需要在代码的开头使用import pandas as pd导入该库。此外，在保存结果到Excel文件之前，确保已经安装了openpyxl库，该库可以处理Excel文件的写入操作。