分享

统计思维:程序员数学之概率统计

regan 2016-9-27 13:47:23 发表于 介绍解说 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 7523
本帖最后由 regan 于 2016-9-27 13:47 编辑


笔记地址:http://note.youdao.com/noteshare ... b1fd1d40ba8823ce341


第一章:程序员的统计思维
1)本书网址 www.oreilly.com/catalog/0636920020745www.oreilly.com.cn/index.php?func=book&isnb=978-7-115-31737-7
2)术语
经验之谈:个人随意收集的证据,而不是通过精心设计并经过研究得到的
直观效应:表示发生了某种有意思的事情的度量或汇总统计量
人为:由于偏差、测量错误或其他错误导致的直观效应
队列:一组被调查者
横断面研究:搜集群体在特定时间点的数据的研究
字段:数据库中组成记录的变量名称
纵贯研究:跟踪群体。随着时间推移对同一组人反复采集数据的研究
过采样:为了避免样本量过少,而增加某个子群体数量
总体:要研究的一组事务,通常是一群人,但这个术语也可以用于动物、蔬菜和矿产
原始数据:未经或只经过很少的检查、计算或解读而采集和编码的值
重编吗:通过对原始数据进行计算或其他逻辑处理得到的值
记录:数据库中关于一个人或其他对象的信息的集合
代表性:如果人群中的每一个成员都有同等的机会进入样本,那么这个样本就具有代表性
被调查者:参与调查的人
样本:总体的一个子集,用于搜集数据
统计显著:若一个直观效应不太可能是由随机因素引起的,就是统计显著的
汇总统计量:通过计算将一个数据集归结到一个数字或少量的几个数字,而这个数字能表示数据的某些特点
表:数据库中若干记录的集合

第二章:描述性统计量



第三章:累积分布函数

PMF的不足:如果处理的数据较少,PMF很合适;但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。
CDF(Cumulative Distribution Function):是值到其在百分等级的映射,cdf是一个越阶函数
条件分布:就是根据某个条件选择的数据子集的分布。
四分差(interquartile range):表示筒体分散情况的值,等于75和25百分等级之间的差。
百分位数(percentile):与百分等级相关联的数值
百分等级(percentile rank):分布中小于或等于给定的值在全部值中所占的百分比
放回(replacement):在抽样过程中,“有放回”表示对于每次抽样,总体都是不变的。“无放回”表示每个元素只能选择一次。
在抽样(resampling):根据由样本计算得到的分布重新生成新的随机样本的过程。

第四章:连续分布

指数分布(exponential distribution):观察一系列事件之间的间隔时间(interarrivel time),若事件在每个时间点发生的概率相同,那么间隔时间的分布
正态分布:也称为高斯分布,因其可以近似描述很多现象而成为最常用的分布。目前对正态分布的CDF还没有一种准确的表达,最常用的方式是误差函数(error function)表示,误差函数是一种特殊的函数,表示为erf(x)。
术语:
连续分布(continuous distribution):由连续函数描述的分布。
语料库(corpus):特定语言中用作样本的征文文本。
经验分布(empirical distribution):样本中值的分布。
误差函数(error function):一种特殊的数学函数,因源自误差度量研究而得名。
一次频词(hapaxlegomenon):表示语料库中只出现一次的词。
间隔时间(interarrival time):两个事件的时间间隔。
模型(model):一种有效的简化。
正态概率图(normal probability plot):一种统计图形,用于表示样本中排序后的值与其服从正态分布时的期望值之间的关系。
秩变换(rankit):元素的期望值,该元素位于服从正态分布的已排序列表中。







已有(1)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条