PythonCSV文件处理技巧_读取写入高效方案【技巧】

日期：2025-12-23 00:00 / 作者：冷漠man

Python处理CSV应按需选工具：小文件用csv模块（需显式指定encoding='utf-8-sig'和newline=''防乱码与空行），大文件或分析用pandas（传dtype、chunksize优化性能），混合使用csv预处理+DataFrame构造更高效。

Python处理CSV文件，核心在于用对工具、避开常见坑。pandas虽强，但小文件或纯文本操作时，csv模块更轻量、内存更友好；大文件或需分析时，pandas的向量化操作和自动类型推断才真正提效。

默认open()可能因系统默认编码（如Windows的gbk）导致中文乱码；csv.reader也不自动处理引号内换行符。稳妥做法是显式指定encoding和newline参数：

读取时用open(file, encoding='utf-8-sig', newline='')——utf-8-sig自动跳过BOM头，newline=''防止csv模块误判换行符
写入同理，必须加newline=''，否则Windows下会多出空行
若CSV含复杂字段（如含逗号、换行、引号），确保dialect参数一致，或直接用DictReader/DictWriter按列名操作，更直观

read_csv()默认低效：它逐行扫描推断数据类型，大文件很慢。关键优化点：

明确传入dtype参数（如{'user_id': 'int32', 'name': 'string'}），跳过类型猜测，节省50%以上时间
用chunksize分块读取处理，适合内存受限场景，例如for chunk in pd.read_csv('log.csv', chunksize=10000): process(chunk)
写入时设index=False避免多余索引列；如需保留时间精度，用date_format='%Y-%m-%d %H:%M:%S'

原始CSV常含脏数据（空行、注释行、不规范表头）。先用csv模块快速清洗，再交由pandas分析：

单纯写入结构化数据，原生csv.writer比pandas.to_csv快2–5倍，尤其在百万行级：

用csv.writer(f).writerows(data_list)批量写入，比循环调用to_csv()高效
若需格式化（如数字保留两位小数、日期转字符串），提前在Python中处理好再写，别依赖to_csv的formatters参数——它会拖慢速度
写入前确认文件路径目录存在，避免报错；可配合pathlib.Path(file).parent.mkdir(parents=True, exist_ok=True)自动建目录