我先假设题主问的大文件在1G~20G左右,这应该算常规的大文件。平常我在做机器学习模型时候我喜欢先在本机上做玩具模型,里面有个步骤就是经常要读取文件数据,也差不多这么一个数据量。
一般来说,Python读取大文件的方式可以使用原生的open函数或者pandas的read_csv函数都可以达到目的。
open函数
Python读取文件一般是用open函数读取,例如f=open(xx,"r")后f.read()就可以轻松读取到文本内容。
这里以读取txt大文件为例,简单介绍一下Python是如何读取大文件的,系统内存在8G左右,txt文件的大小为5G,实验环境win10+python3.6+pycharm2018,主要内容如下:
1.首先,按照最原始的方法读取txt文件,即用open函数直接打开txt文件,一次将所有数据读入到内存中,这里如果文件大于系统运行内存,会直接报Memery Error错误,测试代码如下,非常简单:
运行这个程序,读取花费时间大概在41s左右,如下:
之前使用Python读取超大CSV文件时,出现MemoryError错误,甚至死机。。。呕心沥血潜心研究后,发现使用pandas的read_csv模块通过分块读取,可以完美解决针对超大CSV文件进行数据分析处理时的内存不足问题,分享一下。
pandas 安装
Anaconda是一个开源的Python发行版本,其包含了conda、Python、numpy、pandas等180多个科学包及其依赖项。建议直接安装Anaconda2 或 Anaconda3 ,最好装64位。
下载地址如下:
https://www.anaconda.com/
read_csv官方文档链接:
http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table
从官方文档中我们注意到chunksize 、iterator两个参数,下面我们就这两个参数做详细介绍 。
慢慢处理!你说的宽泛。
使用while 循坏方法,分块读取文件,设置一个块的大小,第一个read是给while循环赋初始值,第二个read是接着,初始值后面继续读取文件。这种方法来处理大文件,这种方法读取快也可以预防一些错误。 读取和写入完成一定要记得关闭文件。