片单|数据分析
记录数据分析的技巧
# 机器学习、深度学习就是统计学?
回望我自己学习统计学的过程,也不能说学的有多好吧,但是也还行,我在上大学之初就关注知乎上各类大佬的分享,知乎大佬也是知无不言,倾囊相授。我自己也想把可能会用到的点和内容整理一下,给各位知乎朋友们一点点自己的浅薄认识,很多地方存在这一定的主观认识,存在偏差,望大家海涵!
统计学一方面需要学习数学,数学是支撑整个理论的大厦,如果数学基础课没学好,后面有些问题可能一知半解,或者压根儿没理解。当然,统计学作为一门应用数学,应用范围及其广泛,涉及生活中的方方面面,从物质生产到资源分配,从经济时政到科学研究,从人文社科到自然科学,几乎所有需要数据,需要结果的地方都能看到统计学,统计学作为辅助工具旨在提高整体社会的运行效率。
统计学专业学生除了需掌握一定的理论外,参与社会实践更依赖的是计算机软件,对软件的熟练度直接影响实际解决问题的能力与速度,因此,要想学好统计学,必须抓好理论与计算机操作这两个方向,在如今信息时代尤其是大数据时代背景下,越来越需要掌握分析数据背景的人才。
统计学专业学生一般需要掌握以下几个方面:
1.数学基础:大学数学基础课高等数学与线性代数以及概率论是整个统计学的基础,也是后面理解专业课所必须熟练掌握的。
2.统计学主要包括统计学原理、多元统计分析,回归分析,时间序列分析,统计建模,非参数检验,抽样技术等核心方法论,以上这些方法是面对不同的数据特征所对应的方法。数据可以是分类型的(这时最常用的就是非参数方法和多元统计里面的聚类方法),可也是顺序型的(也是用的非参数),分类顺序型数据一般用于描述性统计,用于定性分析,旨在初步判断整体情况,而多元统计分析、回归分析、时间序列分析、抽样技术等等主要应用于定量数据分析,也是应用最为广泛的,是整个推断统计的核心内容。整个理论逻辑性强,理解难度大,应用范围广,也是后续学习以及考研重点考察的内容。
3.机器学习,机器学习是目前热门的方法,既是一些计算机算法的一个方向,也是统计门下最热门的一个分支,机器学习下的分类、聚类、回归、决策树、支持向量机(SVM)还只是传统的一些统计方法,而神经网络因为其强大学习能力和预测能力,往往独立出来,作为深度学习的内容重点讲述。
4深度学习,这个是专门对神经网络进行研究,并派生出各类算法:
感知机、CNN(卷积神经网络)、RNN(循环神经网络)、GNN(图神经网络)、LSTM(长短记忆模型)、生成对抗网络以及强化学习等算法,该类算法是目前人工智能(AI)的核心,也是时下最热门的方法,而实现这些算法主要也是最热门的编程语言Python,用的最为广泛的是Python里面的pytorch,keras, tensorflow等一些深度学习库,深度学习目前在语音识别、自动驾驶、文本分析、人脸图像识别,推荐算法等各种领域取得重大突破,而且已经在日常生活中起到越来越大的作用,如果想要汽油研究学习这个方向,需要进一步学习深造。
软件方面主要有以下几个
Python编程语言,Python由于其万能的编程特性,可以与其他编程语言进行交互,所以理论上更注重逻辑构建,Python在数据爬虫、数据收集、数据清洗金融量化、机器学习与深度学习方面有着得天独厚的优势,相关项目多,比赛多,函数库丰富且成熟,而且语言本身上手快,效率高,方便快捷,所见即所得,因此如果未来想从事数据挖掘、机器学习和深度学习方向的,Python是必备的基础
R语言搞统计建模,R语言是由优秀的统计学家和数学家以及计算机专家共同打造的语言,因为天然就适合做统计分析,R本身自带的一些经典数据集就特别适合去做科学研究,上述统计学的方方面面在R语言上都能体现,R语言在医学研究、社会学研究、生物学尤其是基因蛋白质方面有着大量的软件包可供选择。R语言的可视化作图功能,在所有主流的统计学软件、编程软件、办公软件(尤其是Excel)方面相比仍是独树一帜的,做出来的图片漂亮,信息量大,难度大,专业性强,适合进阶的学生学习(主要有基本绘图、ggplot2、lattice等),如果想学习,可以在我的主页里找到,R语言今年也向着机器学习发展,重点的数据处理和分析方法集成到了tidyverse上,在我的主页里也有,欢迎观看。
stata主要搞回归和量化,stata的优势在于,对于回归分析做出了极为细致的操作要求,采用的也是编程式操作,但也可以像SPSS、Excel手动操作。Stata我建议可以听听连玉君老师的课或者陈强老师的课,对于想做学术研究的人来说,stata体量小,方便快捷,工具箱多,可同时就行多种回归。对于回归,分成线性和非线性、低维度和高纬度等,以及各种不符合经典多元回归下的应对措施,包括最新的因果推论、DID方法也会涉及。
最后我谈谈对统计学和数学的理解就我目前所知道的,数学建模从本质上是在做抽象,在降维,在于可测,在于计算,即通过矩阵运算(线性变换、特征工程)就可以模拟出现实中的物体以及物体属性和功能;通过人工智能,可以模拟出人类的通识技能,认识,理解,运用,对一个模式进行识别,了解这些模式中内外的规律,根据这个规律泛化到其他领域,能用的就大量运用,不能用的就及时调整,调整到能用为止,调整的可以是模式,可以是架构,也可以是新的排列组合;深度学习本质上就从输入到输出的过程,计算机本质也是,但是所不同的是,计算机的输入输出,是人类有意识的通过编造程序,使得这个结果可行,而最终结果也是人类可控的,深度学习的困难在于,他从输入到输出的过程,是大量的线性或者非线性的函数,以及大量的求导和求偏导,类似人脑的神经缔结和脑电波脑信号的传播,因此叫神经网络。
我所讲所提到的远远不及自己动手去实践,毕竟实践是检验真理的唯一标准,我所知道的目前只有这些,也仅仅是粗略的谈论一下,如有错误,望指出!