第八十一章网络科学的统计思想 _《学医路漫漫》

结果，也会因为该结果发生的可能性太小，所以不可能有任何显示出这个结果的大规模的实验；如果p值介于前两者之间，他讨论了应该如何设计下一个实验，才能得到一个更好的结果。

区间估计值，确信总体参数的真值会落在所估计的区间里的概率，即置信区间

网络的幂律分布使得极端值出现的概率比较大，从而显著地影响了结果，导致“学生”t检验统计量的数值比正常情形下的数值更小（一般而言，大的t检验统计量对应着小的p值）。

需要将观测数据的散点图与纯随机分布所预期的情形进行比较--一种非参数检验，消除噪音

本征，收集到一个具有充分代表性的小样本，可以用来估计总体的特征

网络作为一个整体，可以分为几个相对独立的部分（这些层次之间还有一定的相似性，即是耦合关系的），其进一步的划分可能会有一定的重复。从数学原理上看，投入产出分析要求描述网络活动的矩阵必须存在唯一的逆矩阵，这意味着一旦获得了该矩阵，必须作为一个数学上“求逆矩阵”的去处。分类越细化，存在唯一的逆矩阵的概率越高，因为对现实的模拟程度不断加强

单一变量的影响是不牢靠的，只有在网络层次才能构建比较确定的相关性。网络的语言是概率，一定的路径需要序列的概率积累，这就在根本上否认了因果关系。多变量的影响，即贝叶斯公式运算的概率只有在宏观尺度才能被观测即频率。网络的众多参数永远不能确切地观测到，但它们彼此作用、互相影响

所有我们可以看到与接触到的东西，事实上只是真实世界的影子，而这个宇宙里真正能找到的真实事物，只能透过纯粹的理性来获得。概率网络的选择性表达是现实事物

在这个5000维的空间里，这些真实的数据并非分散分布，实际上趋向较低的维度空间。假设这些分散在三维空间的点，全都落在同一个平面甚至同一条线上（黎曼猜想？），这正是真实数据呈现的状态。每个临床研究病人的5000个观测值，不会毫无关联的呈分散状态，因为其中很多的测量值是彼此相关的。

医学研究上，数据的真正“维度”通常不会超过5。（网络的六度分隔，平均距离）

幂律分布和隐马尔科夫模型的相关性：通过寻找估计这个分布的中心趋势的方法确定独立层次（稳健性）：20世纪50年代耶鲁大学所做的一次试验，估计该校的毕业生10年后的收入情况。如果他们用平均值，那么收入是非常高的，因为有几个当时是千万富翁，但是，事实上，80%以上的毕业生平均收入均低于这个平均数

网络的辩证治疗，疾病的系统表达（充血性心脏衰竭不是一种普通的疾病。其病因不是一种简单的传染源，也不能通过阻断某种生化酶的通路而缓解。人体中荷尔蒙精巧地控制着心脏，调节其跳动的速度和收缩能力，以适应身体变化着的需求，但充血性心脏衰竭患者的心脏对这种调节的反应能力越来越差，患者的主要症状表现为心肌逐渐衰弱，心脏的肌肉变得越来越肥大、松弛。患者会因此而出现肺部和脚踝的水肿，轻微的运动都会导致他们呼吸困难。患者还会因进餐时胃部供血而造成的脑部供血不足而感到困倦和意识混乱。为保持体内平衡，病从的身体会自动调节以适应心脏能量输出的减少。对许多患者，调节心肌和其它肌肉变化的荷尔蒙会在某种稳定状态达到平衡。虽然就一般人来说，这样的荷尔蒙水平是不正常的。如果医生在治疗过程中使用了β肾上腺素收缩剂或钙离子隔断剂，结果可能使患者的情况变得更为复杂。肺部水肿是充血性心脏衰竭病人死亡人一个重要原因。现代医学依靠利尿剂这种药物可以使水肿得到缓解。然而，患者在使用了利尿剂后，为调节肾功能和心脏功能所导致的荷尔蒙的变化，又会因相互影响而造成新的难题）

当设计一项研究时，首先遇到的问题是要测量什么。在这个试验中的测量是多层次的，因此，其分布函数——这些函数的参数必须是可估计的，其构成也必须是多维的。

利维对中心极限定理的证明建立了一组更具有普遍意义的必要条件，这两个条件相当于有一组随机产生的一个接一个的数列：1.变异是有界的，因此个别值不可能是无穷大的，也不可能是无穷小的。2.下一个数字的最佳估计值必是它的前一个数值。利维称这样的数列为鞅，是隐马尔科夫模型的一个收敛，同时也是能量最低化的一个体现

病人的反应方式就是一个鞅。两个鞅之差仍然是鞅—线性系统

亚伯拉罕?棣莫弗将微积分引入概率计算

格利文科－坎泰利引理：可以通过增大观测值的数量，来使不那么美的经验分布函数（eionfunction）越来越接近真实的分布函数（傅里叶级数）

更加精确的测量反倒使模型预测值和实际观测值之间的差异变得更大，如同量子物理的不确定原理

概率分布是网络结构的低维投影

2统计是当今时代理解大规模数据的必要工具，其重要性不言而喻，其能够帮助我们从低维的复杂数据挖掘出我们人类能够理解的高维趋势。各种实验数据的处理也需要统计学方法，因此具体的设计就决定我们认知世界的层次（强调应用）。

作用的对象，多层次的耦合，总能够找到

第八十一章网络科学的统计思想 (2/5)