写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。更准确地说,这是一份七周的互联网数据分析能力养成提纲。
我会按照提纲针对性的增加互联网侧的内容,比如网站分析,用户行为序列等。我也不想留于表面,而是系统性讲述。比如什么是产品埋点?在获得埋点数据后,怎么利用Python / Pandas的shift ( )函数将其清洗为用户行为session,进而计算出用户在各页面的停留时间,后续如何转换成统计宽表,如何以此建立用户标签等。
下面是各周的学习概述。
第一周:Excel学习掌握
如果Excel玩的顺溜,你可以略过这一周。不过介于我入行时也不会vlookup,所以有必要讲下。
重点是了解各种函数,包括但不限于sum,count,sumif,countif,find,if,left/right,时间转换等。
Excel函数不需要学全, 重要的是学会搜索 。即如何将遇到的问题在搜索引擎上描述清楚。
我认为掌握vlookup和数据透视表足够,是最具性价比的两个技巧。
学会vlookup,SQL中的join,Python中的merge很容易理解。
学会数据透视表,SQL中的group,Python中的pivot_table也是同理。
这两个搞定,基本10万条以内的数据统计没啥难度,80%的办公室白领都能秒杀。
Excel是熟能生巧,多找练习题。还有需要养成好习惯,不要合并单元格,不要过于花哨。表格按照原始数据(sheet1)、加工数据(sheet2),图表(sheet3)的类型管理。
下面是为了以后更好的基础而附加的学习任务:
- 了解单元格格式,后期的数据类型包括各类timestamp,date,string,int,bigint,char,factor,float等。
- 了解数组,以及怎么用(excel的数组挺难用),Python和R也会涉及到 list。
- 了解函数和参数,当进阶为编程型的数据分析师时,会让你更快的掌握。
- 了解中文编码,UTF8和ASCII,包括CSV的delimiter等,以后你会回来感谢我的。
这一周的内容我会拆分成两部分:函数篇和技巧篇。
这是一道练习题,我给你1000个身份证号码,告诉我里面有多少男女,各省市人口的分布,这些人的年龄和星座。如果能完成上述过程,那么这一周就直接略过吧。(身份证号码规律可以网上搜索)
第二周:数据可视化
数据分析界有一句经典名言,字不如表,表不如图。数据可视化是数据分析的主要方向之一。除掉数据挖掘这类高级分析,不少数据分析就是监控数据观察数据。
数据分析的最终都是要兜售自己的观点和结论的。兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。如果没人认同分析结果,那么分析也不会被改进和优化,不落地的数据分析价值又在哪里?
发表评论