Python有什么办法可以让程序去遍历比电脑内存大的数据?

1

您好,很高兴在这里交流。

具体要看什么样的数据啦,如果是大数据量的Excel数据,Python有天然的数据处理库pandas。

它具备Excel表的一切功能,从多表拼接,合并,查找,替换,到数据透视表,无所不能,特别适合千万级数据记录的大数量的处理。

一切顺利,加油。

2

思路是拆分或分而治之。

比如利用磁盘存储做外排序。如果单台机器磁盘空间或者运算能力不足,可以使用分布式多机运算。

一般来说,把数据按一定规则分成多块,利用磁盘足以满足个人需求。这个需要根据实际需求来划分;比如内存只有1g,需要从长度为2^33的整数数组中找到最大的数,因为内存不足,不能直接在内存中完成,可以考虑“外排序”,将数组数据存为n个文件,从每个文件中找出最大的数,再从各个最大的数中找出最终的最大数,如果熟悉算法,此问题可以借用二叉堆来处理。

简单的处理思路,可以利用现成方案,比如能处理大数据的数据库或框架来完成(MongoDB,Cassandra,Hbase等)。

复杂的处理,可能需要特定算法和各种设施的配合。

3

可以采用分段式来对数据进行读取和分析,之后在进行整合。

我举一个简单的例子,我要复制一个大文件,我不能都将他们读取到内存中,于是我分段式进行读取和写入。


因为我也在学习python,如果未能解决您的问题,请勿见怪。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章