是否会编程是区别初级数据分析师和高级数据分析师的分水岭。在这里,我定位的是高级数据分析师,所以编程能力尤为重要,我把它放在了第一位。
有关数据分析的编程语言有Python和R语言。R语言倾向于统计分析、绘图等。统计学家或者学统计学的喜欢用R语言,而我推荐学习Python,因为Python是面向未来的语言,无论从流行度、可用性还是学习难度来讲,Python都是最好的入门语言。
当然,如果可以的话,再掌握一下R语言是最好不过的,学习嘛,永无止尽。
书籍推荐《Python编程:从入门到实践》 豆瓣评分:9.0
当然,只有Python基础肯定是不够的,既然是学习数据分析,肯定就要有数据才行,数据从哪里来,肯定是从互联网上来。互联网上的信息何其之多,必须要对其加以过滤处理,提取我们想要的信息。这就要用到Python爬虫,这也是学Python一个很重要的目的和作用。
学习Python爬虫肯定比学习Python基础要困难一下,但好在网上的学习资源十分丰富,努力学习必定会有收获的。
关于Python爬虫的书籍,目前我还没有较好的书籍推荐,如果说实在要推荐的话,我推荐三本书:
《Python网络数据采集》 豆瓣评分:7.7
《Python爬虫开发与项目实战》 豆瓣评分:8.1
《精通Scrapy网络爬虫》 这是十月份出的新书,豆瓣上还没有评分。
知乎里面有很多爬虫大神,没事多逛逛知乎总会有收获的。
关于编程能力,是一个很深的概念,需要靠大量的撸代码积累经验。先暂且说到这些。
学习数据分析,最难最重要的就是编程能力,熬过去了,后面的就稍微简单一些了。
既然是跟数据打交道,就免不了要使用数据库。
目前主要有四种数据库:
(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/diannao/)1:SQLite 是一个文件型轻量级数据库,它的处理速度很快,在数据量不是很大的情况下,可以使用SQLite。
2:MySQL 是一个应用极其广泛的关系型数据库,它是开源免费的,可以支持大型数据库,很多中小型企业都是用的MySQL。
3:MongoDB 是一个面向文档的非关系型数据库,它功能强大、灵活、易于拓展。
4:Redis 是一个使用ANSI C 编写的高性能key-value数据库,使用内存作为主存储器。
它们各有优点,可以灵活使用,如果说非要选一个的话,我建议使用MySQL,因为它使用最广泛。学习最主流的技术,可以在一定程度上发挥更大的作用。
关于SQL的学习资源:
购买书籍推荐《SQL基础教程》作者:MICK
豆瓣评分:9.0,好像这本书出了第二版了,建议购买最新版的。
前面说了那么多,都是为了数据分析做准备。数据分析就好比亲手做一顿美食,现在食材有了(通过Python爬虫采集),盛放美食的容器也有了(数据库)。现在就差开火做饭了,写到这感觉肚子饿了,哎呀,忍住。
(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/diannao/)对于数据分析,我还没有过多的涉足,总之,多看书,多做项目。
这里我推荐几本书(都是放在我购物车里还没有买的书)
学习数据分析必看的书单:
《Python数据分析基础》八月份的新书,豆瓣上还没有评分。
《利用Python进行数据分析》2013年的老书,豆瓣评分:8.5
《Python数据处理》六月份的新书,豆瓣上没有评分。
《用数据讲故事》 豆瓣评分:8.7
虽然我还没来得及看这几本书,但是我想认真看了之后,对于数据分析的理解肯定会更加深刻的。
现在美食做好了,但不能一股脑的装在碗里吧,美食讲究色香味俱全。所以要给它作一个漂亮的造型,呈现在客人面前。这就是数据可视化。
数据可视化需要借助工具,什么工具呢?那就是大名鼎鼎的tableau!
什么?你没有听说过tableau?现在听我说了也不迟,哈哈。
tableau是一款世界级的商业智能工具软件,tableau可以帮助我们快速的分析、可视化并分享信息。在福布斯2017年公布的《10大需求增长最快的职场技能》报告中,tableau高居第三,成为数据分析和可视化的职场必杀技。
说了这么多,咱们还是好好聊聊怎么学习tableau吧。tableau是一款收费软件,先看一下它的价格吧:
image
果然优秀的软件都是收费的,而且还贵的要死。
但是,tableau的良心之处在于:学生和教师可以免费使用tableau,只需要用我们的学生证信息去免费申请一个序列码,然后就可以下载激活该软件,有效期为1年,如果一年后还是学生的话,还可以用学生证再去申请一个序列号,然后再免费用一年。