深入浅出数据分析 Head First Data Analysis

数据分析引言 分解数据

确定——分解——评估——决策
1. 了解问题
2. 确定问题
3. 数据分析总的来说就是分解问题和数据,使其成为更小的组成部分
4. 对在前两步了解到的情况作出各种结论
5. 把这些结论重新组合在一起,作出(建议)一个决策

你对外界的假设和你确信的观点就是你的 **心智模型**

实验 检验你的理论

1. 统计与分析最基本的原理之一就是 **比较法** ,它指出,数据只有通过相互比较才会有意义
2. 比较越多,分析结果越正确
3. 搜集观察数据往往是通过实验取得更有用数据的第一步
4. 观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法。而在试验中,则由你决定哪些人属于哪些群体。
5. 混杂因素 就是研究对象的个人差异,他们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
6. 控制组:一组体现现状的处理对象,未经过任何新的处理(也称对照组)。没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断。

最优化 寻找最大值

你能控制的变量受到约束条件的限制
决策变量是你能控制的因素
你希望最大化或最小化的对象就是目标,目标函数则可以帮助你找出最优化结果
任何最优化问题都有一些约束条件和一个目标函数

数据图形化 图形让你更精明

体现数据。创建优秀数据图形的第一要务就是促使客户谨慎思考并制定正确的决策,优秀的数据分析由始至终都离不开「用数据思考」
数据图形化的根本在于正确比较
散点图是探索性数据分析的奇妙工具,分析师喜欢用散点图发现因果关系,即一个变量影响另一个变量的关系。通常用散点图的 X 轴代表自变量(假想为原因的变量),用 Y 轴代表应变量(假想为结果的变量)

假设检验 假设并非如此

变量之间可以正相关,也可以负相关
现实世界中的各种原因呈网络关系,而非线性关系
假设检验的核心是证伪
请勿试图选出最合理的假设,只需剔除无法证实的假设——这就是假设检验的基础:证伪
选出看上去最可信的第一个假设的做法称为满意法
满意法的严重问题是,当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山,也往往视而不见。
证伪法则让人们对各种假设感觉更敏锐,从而防止掉入认知陷阱。
**进行假设检验时,要使用证伪法,回避满意法。**
诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。

贝叶斯统计 穿越第一关

条件概率即以一件事的发生为前提的另一件事发生概率。
基础概率谬误,即忽略事前数据并因此作出错误决策

主观概率 信念数字化

如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率。
主观概率是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前相同条件下发生过的事件的可靠数据的情况下。
贝叶斯规则是修正主观概率的好办法
使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率。

启发法 凭人类的天性做分析

启发法是从直觉走向最优化的桥梁
启发法:1.(心理学定义)用一种更便于理解的属性代替一种难解的、令人困惑的属性。2.(计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。

直方图 数字的形状

直方图不同区间之间的缺口即数据点之间的缺口

回归 预测

算法:为了完成某个计算而执行的任何过程。
回归线就是最准确地贯穿平均值图中的各个点的直线。
相关性即两种变量之间的线性关系,如果要呈现线性关系,散点图上的点就需要定制沿着直线分布。
相关系数 r 范围-1至1,0 表示无相关性,1和-1 表示两个变量完全相关。

误差 合理误差

用回归方程预测数据范围以外的数值称为外插法。
使用外插法,需要指定附加假设条件,明确表示不考虑数据集外发生的情况。
实际结果与预测结果之间的偏差叫做机会误差。
分割的根本目的是管理误差。将数据分拆为几个组称为分割。