数据分析利器 pandas 系列教程（五）：合并相同结构的 csv-技术圈

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 122 篇原创干货

距离上一篇 pandas 系列教程：数据分析利器 pandas 系列教程（四）：对比 sql 学 pandas 发布已经过去大半年，近来才记起以前开了这样一个坑，本篇是本系列 pandas 实战 tricks 的首篇，不求大而全，力争小而精。

大家可能经常会有这样的需求，有很多结构相同的 xlsx 或者 csv 文件，需要合并成一个总文件，并且在总文件中需要保存原来的子文件名，一个例子就是合并一个人所有微博下的所有评论，每条微博的所有评论对应一个 csv 文件，文件名就是该条微博的 id，合并之后新增一列保存微博 id，这样查看总文件的时候能直观看到某一条评论属于哪一条微博。

下面的代码就是干这个的，只需要把代码放到文件夹中运行即可，不需要指定有哪些子文件，以及有哪些列名，运行自动合并。

只要某文件夹下所有的 csv 文件结构相同，在文件夹路径运行以下代码就能自动合并，输出结果在 all.csv ，结果 csv 在原有的 csv 结构上新增一列 origin_file_name，值为原来的 csv 文件名，保证了没有信息的衰减。

# -*- coding: utf-8 -*-# author:           inspurer(月小水长)# create_time:      2022/4/13 10:33# 运行环境           Python3.6+# github            https://github.com/inspurer# website           https://buyixiao.github.io/# 微信公众号         月小水长
import osimport pandas as pd# 最后合并的文件名result_csv = 'all.csv'all_cols = []for file in os.listdir('.'):    if file.endswith('.csv') and not file == result_csv:        df = pd.read_csv(file)        all_cols = df.columns.values.tolist()if len(all_cols) == 0:    raise Exception("当前目录下没有要合并的 csv 文件")all_cols.insert(0, 'origin_file_name')all_df = pd.DataFrame({col: [] for col in all_cols})
for file in os.listdir('.'):    if file.endswith('.csv') and not file == result_csv:        df = pd.read_csv(file)        df.insert(0, 'origin_file_name', [file for _ in range(df.shape[0])])        all_df = all_df.append(df, ignore_index=True)
all_df.to_csv(result_csv, index=False, encoding='utf-8')

https://buyixiao.github.io/blog/merge-csv-with-same-columns.html

代码可能经常修改，但是微信文章却不能，最新的修改会发布在上面这个博客，点击阅读原文直达，可以多关注这个博客，订阅 RSS 更新，会有更多开源作品直接发布在 buyixiao's blog。

数据分析利器 pandas 系列教程（五）：合并相同结构的 csv

点击上方 月小水长 并 设为星标，第一时间接收干货推送

点击上方月小水长并设为星标，第一时间接收干货推送