思路与选择更重要
我看过许多人一看到别人提问"python处理excel"之类的话题,立马就说出一大堆的库,结果很多初学者苦苦地编写Python代码处理数据,最后他们都会感觉太坑爹了。
如果我在这里列出各种处理方法,那么成千上百的字数都不够看。我觉得你更应该了解思路与工具的选择,不然方向错了,你就算拿着再好用的工具也发挥不了作用。
Python 与 Excel 的交互
Python中有许多库可以与Excel交互,比如 xlrd、xlwings等等,但是我要强调的是,这些库仅仅让你方便地与Excel打交道,比如,读写数据、设置格式。
Python批量处理Excel的话,有许多现成的库可以直接使用,下面我简单介绍一下,感兴趣的朋友可以尝试一下:
01
xlrd、xlwt
这是Python 2个非常基础的Excel读写库,其中xlrd专门用于读取Excel,xlwt专门用于写入Excel,支持常见的行列、单元格操作,安装的话,直接在cmd窗口输入命令“pip intsall xlrd xlwt”即可,官方自带有非常详细的入门教程文档和API接口,非常适合开发者学习:
这里以简单的读取Excel为,测试代码如下,基本思想先打开Excel,获取工作表,然后根据所需直接读取对应行列和单元格内容即可,非常简单:
1.读入操作
def load_data():
filename = u'投资企业.xls'
data = xlrd.open_workbook(filename)
table = data.sheet_by_name(u'Sheet1')
在有关大数据分析Python API的本教程中,我们将学习如何从远程网站检索数据以进行数据科学项目。像baidu,Twitter和Facebook之类的网站都通过其应用程序编程接口(API)向程序员提供某些数据。要使用API,你需要向远程Web服务器发出请求,然后检索所需的数据。
但是,为什么要使用API而不是可以下载的静态数据集呢?API在以下情况下很有用:
a.数据变化很快。股票价格数据就是一个例子。重新生成数据集并每分钟下载一次并没有实际意义-这会占用大量带宽,而且速度很慢。
b.您需要一小部分更大的数据。Reddit评论就是一个例子。如果您只想在Reddit上发表自己的评论该怎么办?下载整个Reddit数据库,然后仅过滤您自己的注释并没有多大意义。
c.涉及重复计算。Spotify的API可以告诉您音乐的流派。从理论上讲,您可以创建自己的分类器,并使用它对音乐进行分类,但您将永远不会拥有Spotify所拥有的数据。