<Python数据处理> Jacqueline Kazil Katharine Jarmul
xml库和lxml库
作为Python开发人员,处理xml数据让你可以深入探索和成长
Python中的数学库
decimal:定点运算和浮点运算
math: 可以使用C语言标准所定义的数学函数
sympy: 用于符号学的Python库
mpmath:用于任意精度实数和复数浮点数运算的Python库
sys.path和sys.argv
sys.path 给出Python寻找模块的位置
数据检查
如何获取数据 203页
美国政府数据
教育数据(http://datainventory.ed.gov/InventoryList )
选举结果(http://www.fec.gov/pubrec/electionresults.shtml )
人口普查数据(http://census.ire.org/ )
环境数据(https://www.epa.gov/enviro/about-data )
劳工统计数据(http://www.bls.gov/ )
美国数据集 (https://catalog.data.gov/dataset)
欧盟和英国
如果你对欧盟或英国的数据感兴趣,可以找到许多数据门户网站。
下面一些网站是由一些机构和开放数据爱好者创建的,如果你想寻
找特定的数据集,可以和网站所有者直接联系。
欧盟开放数据(http://publicdata.eu/ )
欧罗巴开放数据(http://open-data.europa.eu/ )
全天开放关联数据(http://latc-project.eu/ )
英国政府数据(https://data.gov.uk/ )
非洲
如果你对非洲国家的数据感兴趣,有许多项目正在采集数据并构建API,供开发人员使用。许多非洲国家也有自己的开放数据门户网站(<用谷歌一搜就可以找到>)。我们挑出了一些有用的区域性项目:
非洲开放数据(https://africaopendata.org/ )
南非代码(http://code4sa.org/ )
非洲代码(https://codeforafrica.org/ )
非洲的开放数据(http://opendataforafrica.org/ )
亚洲
如果你对亚洲国家和地区的数据感兴趣,它们大多数都有自己的开放数据网站。我们找出了几个令人印象深刻的数据集,以及一些机构发布的区域性数据:
开放城市项目(http://www.opencitiesproject.org/ )
开放尼泊尔(http://data.opennepal.net/ )
中国国家统计局(http://www.stats.gov.cn/english/ )
香港开放数据(https://opendatahk.com/ )
印尼政府开放数据(http://data.go.id/ )
欧盟以外的欧洲、中亚、印度、中东和俄罗斯
在欧盟之外,许多中亚、中欧和中东的国家也有自己的政府开放数据网站。我们给出了其中一些网站,但如果你知道你想研究的国家和地区并希望用母语来访问相关数据,语言技能是最重要的(<谷歌Chrome 浏览器会尝试自动翻译网页,所以即使语言不通也可以找到有用的数据>)。
俄罗斯政府数据网站(http://data.gov.ru/ )
PakReport——巴基斯坦开放数据和地图(http://pakreport.org/ )
印度开放数据(https://data.gov.in/ )
土耳其开放统计数据(http://www.turkstat.gov.tr/Start.do )
南美和加拿大
许多南美国家都有自己的开放数据网站,通过搜索很容易找到。加拿大也有针对统计数据的开放数据门户网站。我们给出了其中一些网站,同时建议你去网上搜索,寻找你感兴趣的特定部门或政府。
加拿大统计数据(http://www.rdc-cdr.ca/datasets-and-surveys )
加拿大开放数据(http://open.canada.ca/en )
巴西开放数据(http://dados.gov.br/ )
墨西哥开放数据(http://datos.gob.mx/ )
拉丁美洲开放数据(http://www.opendatalatinoamerica.org/ )
发展中的加勒比地区(https://www.developingcaribbean.org/#/ )
组织数据和非政府组织数据
无论是地方组织还是国际组织,都有大量跨州或跨国的数据集资源,比如气候变化数据、国际商贸数据和全球运输数据。如果政府并没有采集与你的主题相关的数据(关于宗教细节、吸毒、社区支持网络等的数据),或者政府数据不可靠,或者政府没有开放数据门户网站的话,你可以通过 NGO 或开放数据组织找到相关数据。下面列出了一些组织,但还有更多的组织在为数据的公开交换和访问而奋斗。
联合国开放数据(http://data.un.org/ )
联合国发展计划署数据(http://open.undp.org/ )
开放知识基金会(https://okfn.org/ )
世界银行数据(http://data.worldbank.org/ )
维基解密(https://wikileaks.org/ )
国际援助透明度数据集(http://www.iatiregistry.org/ )
DataHub(https://datahub.io/ )
人口资料局(http://www.prb.org/DataFinder.aspx )
教育数据
和大学数据世界各地的大学和研究生部都在不断地研究并发布数据集,从生物科学的进展到本土文化与周边生态栖息地的关联性,涵盖范围很广。很难想象教育领域还没有讨论过某一主题,所以大学是获取最新专题数据的好去处。大多数研究者都乐于听到有人对他们的课题感兴趣,所以我们建议你直接联系合适的部门或作者,以获取更多信息。如果你不知道从哪里开始,下面有几个不错的选择。
Lexis Nexis(http://www.lexisnexis.com/ )
谷歌学术搜索(https://scholar.google.com/ )
康奈尔大学 arXiv 项目(http://arxiv.org/ )
UCI 机器学习数据集(http://archive.ics.uci.edu/ml/ )
通用数据集倡议(http://www.commondataset.org/ )
医学数据
和科学数据与大学类似,科学和医学研究部门和组织也都拥有大量优质的数据资源。在科学研究中搜索是十分困难的,但不要气馁——如果你能找到用于研究的数据集,它们使用的研究术语往往并不相同。如果你想到某一个特定的研究者,我们建议直接联系他。下面列出了一些汇总的数据集:
开放科学数据云(https://www.opensciencedatacloud.org/publicdata/ )
开放科学目录(http://www.opensciencedirectory.net/ )
世界卫生组织数据(http://www.who.int/gho/database/en/ )
Broad 研究所开放数据(http://www.broadinstitute.org/scientificcommunity/data )
人类连接组项目(<神经通路映射>)(http://www.humanconnectomeproject.org/ )
UNC 精神病基因组协会(http://www.med.unc.edu/pgc/ )
社会科学数据集(http://3stages.org/idata/ )
CDC 医学数据(http://www.cdc.gov/nchs/fastats/ )
SQLite数据库的使用
团队三要素
仓库:Git
测试:unitest, nose, pytest
todo标记: #TODO
绘图
matploylib
Bokeh
seaborn
pygal 地图
爬虫
API应用编程接口
api 允许同公司服务器建立交互
自动化
配置文件.cfg
附录:
数据分析师:
Allen Downey 的《统计思维:程序员数学之概率统计(第 2 版)》很好地介绍了统计数学概念并且使用了 Python。Cathy O'Neill 和 Rachel Schutt 的《数据科学实战》提供了数据科学领域的深入分析。
scipy技术栈 Wes McKinney 编写了《利用 Python 进行数据分析》
优秀开发者:
Luciano Ramalho 的《流畅的Python》, 《Structureand Interpretation of Computer Programs》, 由 HaroldAbelson 和 Gerald Jay Sussman 编写(MIT 出版社)。