知识积累

sean's blog

《高维度思考法》【2/4】—“解决问题”的困境

发表于 2020-08-16 更新于 2020-08-27 分类于 Notes ，《高维度思考法》

“知”的困境

关于事实的“重写”比较简单，但是关于解释的“重写”则很难，因为很多时候，我们连特定的解释被深埋在闹钟这一“未知的已知”都毫无察觉。

“问题”源自事实和解释的乖离。事实本身不会变化，已固化的解释的维度也不会变化，但解释并不具备超越时间的普遍性。因此，当环境、场合（解释的范围）发生变化后，原来的解释不再适合当前环境下的事实，于是产生了乖离，即新的问题。

创新者会把顾客需求当做“事实”去理解，视图创造出不受现有解释所束缚的产品和服务，用最新的概念和技术重新解释。

“发现问题”和“解决问题”的悖论

要解决问题，必须要先定义问题（固定相关变量，设定边界、框架模型及流程），于是就会造成一个“封闭体系”。电脑只擅长在问题定义后的封闭体系工作，而非开放体系。

而每定义一个问题，就会造成一个“封闭体系”；

随着封闭体系内知识的积累和沉淀，解决问题变的愈发容易，发现问题却会变的难上加难。越是领域内的专家，越是难以跳出来。

“封闭体系”的困境

只要创造了固化的“封闭体系”，问题变的容易解决，在短期内容易发展，就容易导致下个问题的产生，而发展后形成的体系也容易退化，这就是封闭体系的困境。

“解决问题”的困境

上游（发现问题）	下游（解决问题）
创意和企划	执行和运营
处理不确定性高（混沌）的事物	处理有秩序的事物
组织和职责不明确	分工明确
创造性（资源无积累）	效率性（资源有积累）
重视“质”	重视“量”
属人（个人>组织）	不属人（组织>个人）

《高维度思考法》【1】—“知”与“无知”

发表于 2020-08-12 更新于 2020-08-13 分类于 Notes ，《高维度思考法》

“未知的未知”

列举楼下便利店里不出售的东西？

接下来你所列举的一切，都只是“已知的未知”……，我们叫它“狭义的未知”。而它那粗粗的边界，叫做“常识”。人们大多着眼于第二个外环内的事物，而“未知的未知”这一广义的未知才是更重要的。

“知”是事实和解释的组合

几个概念

“知”是事实和解释的集合体；
“知识”是“知”在利用时的外化形态；
“事实”是客观存在的、不因人而异的对象；
“解释”是主观的、因人而异的价值判断；

“事实并不存在，存在的只有解释。” —— 尼采

事实是零维的（不变），解释是N维的（多种可能性，因人而异），并且解释还有长度（范围）。

解释就是将事物“分”和“连”，“分”可以理解成分类，将事物提取出特征抽象化；“连”可以理解成将事物与其他事物建立连接、联系。

在做“分”的动作时，以前的“知”起到了“分辨率”的作用，能够决定分到多细。

想象和创造是指“知识的重构”

知识必须是可重现的，重现的方式大致有两种：

将其固化后，原样不动的重现使用；
将知识的解释部分打散，然后重新分和连；

上述第2条属于“思考”行为，因此，绝大多数创意都是既有想法的组合

“无知、未知”的思考框架

无知和未知是一个问题的两面，未知的主体是事物，无知的主体是人。因此接下来这两个词的使用将不会太严谨。

知和无知是非平等的对立概念，就像有和无，证明“无”的难度要远远大于证明“有”。

通过“维度”所见的三种无知

真正应该关注的问题恰恰是“解释的无知”，它所触及的本质性的问题远远高于前者；

事实的无知（零维）

我们常说的无知属于事实的无知，是最简单的，知道就是知道，不知道就是不知道。

维度的无知（多维）

属于解释的无知，指知道事实，但没有用于解释事实的框架、分类方法或视角。对事象的相关性、目的等毫无意识的无知。

“解释的无知的无知”是其再上层的元级，“以自我为中心看待问题”产生认知偏差，就是这种元级无知的展现。

范围的无知（一维）

“有范围的无知”多会在“对重要性的认识的不同”上造成问题。因为解释的深度不同，因认识范围就不同。同时，人的意见往往不是绝对正确的，也很少是绝对错误的。在这种状况下，讨论的矛头应直指“场合、场景”之分，其本质也是对尺度、解释范围的衡量。

“没有意识到偏见”

人类只会在某种解释下认识事实，而对于这一情况本身毫无察觉、没意识到自己已被某个解释所桎梏的状态，这要比“解释的无知”更加难以察觉，也很难处理，是通往发现问题的道路上的巨大障碍。

已知和未知的不可逆循环

“知”和“未知”扩张的边界

”科学一直在犯错。因为每解开一个问题的同时，就必定造成其他十个问题“——萧伯纳

① 正常的扩张及路径，随着“已知的已知”增长，“已知的未知“也不断的增长，增长的更快；

② 误以为自己变聪明了—— 随着“已知的已知”增长，“已知的未知”并未随之扩张。

“未知”和“知”的循环

从“未知”到“知”不可逆；
“未知”-“知”-“未知”-“知”是一个螺旋式发展的循环。

无知的两种视角

“元认知”是基于“无知之知”的意识的原点

“如果我是最有智慧的人，说明‘我对于自己多么无知有所自觉’。”——苏格拉底

被苏格拉底视为问题的并非“无知（Ignorance）”，而是“无知的无知（Meta-Ignorance）”。

“无知之知”是从元级，即站在俯瞰自身的视角来认识自己的无知，是认知启动的第零步。

用无知重置所有知识

“我完全不会依赖知识和经验，而是会以一无所知的空白状态去面对。”——彼得德鲁克

“忘却”很重要。忘记曾经学到的东西，有意识地营造近于无知的状态。这并非自然的无知，而是由大脑的功能所实现的“智慧型无知”。在这种状态下思考，因为知识并不是不可或缺的，所以自然就能忘记。

线性回归和逻辑回归

发表于 2020-07-28 更新于 2020-08-11 分类于 Machine Learning ， Algorithm

线性回归 Linear Regression

确定两种或两种以上变量间相互依赖的定量关系。

$y=\theta_0+\theta_1x_1+....+\theta_nx_n$

损失函数 Loss Function

找到最好的$\theta$

$J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

最小化损失函数

梯度下降

$\theta_1:=\theta_1 - \alpha \frac{\partial J(\theta_1,...,\theta_n)}{\partial \theta_1} \\ \alpha 是学习率 \quad learning \; rate$

过拟合与正则化

为了防止过拟合，可以通过正则化，将$\theta$放入损失函数，通常过拟合时部分$\theta$会过大。

$L2正则化：\quad J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda \sum_{j=1}^n \theta^2]$

逻辑回归 Logistic Regression

逻辑回归处理的是一个分类方法，寻找判定边界（decision boundary）

sigmoid函数

能把x映射到（0，1），可用于分类

$y=\frac{1}{1+e^{-x}}$

损失函数

单样本分错的损失

$Cost(h_\theta(x),y)= \begin{cases} -log(h_\theta(x)) \quad if \; y=1 \\ -log(1-h_\theta(x)) \quad if \; y=0 \end{cases}$

损失函数

$J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),y^{(i)}) \\ =-\frac{1}{m}[\sum_{i=1}^my^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)}))]$

矩阵形式

$J(\theta) = \frac{1}{m}\big((\,log\,(g(X\theta))^Ty+(\,log\,(1-g(X\theta))^T(1-y)\big)$

正则化

$J'(\theta)=J(\theta)+\frac{\lambda}{2m} \sum_{j=1}^n \theta^2$

LR的优势

LR能以概率的形式输出结果，而非只是0、1判定，可以做ranking model；
LR的可解释性强，可控度高；
训练快，feature engineering之后效果好；

LR的应用

CTR预估/推荐系统的learning to rank/各种分类场景；

参考文献

【1】周志华.机器学习.清华大学出版社.P

数理统计与参数估计

发表于 2020-07-21 更新于 2020-08-11 分类于 Math

数理统计与参数估计

常用概念

期望

$离散型：E(X)=\sum_ix_ip_i \\ 连续性：E(X)=\int_{-\infty}^{+\infty}xf(x)dx$

期望的性质

$E(kX)=kE(X) \\ E(X+Y)=E(X)+E(Y) \\ 若X和Y相互独立：E(XY)=E(X)E(Y)$

方差

$Var(X)=E\{ [X-E(X)]^2\}=E(X^2)-E^2(X)$

方差的性质

$Var(C)=0 \\ Var(X+C)=Var(X) \\ Var(kX)=k^2Var(X) 若X和Y相互独立：Var(X+Y)=Var(X)+Var(Y)$

协方差

$Cov(X,Y)=E\{ [X-E(X)][Y-E(Y)]\}$

协方差的性质

$Cov(X,Y)=Cov(Y,X)=E(XY)-E(X)E(Y) \\ Cov(aX+b,cY+d)=acCov(X,Y) \\ Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) \\$

协方差的上界

$若Var(X)=\sigma_1^2,Var(Y)=\sigma_2^2 \\ 则 |Cov(X,Y)| \leqslant \sigma_1 \sigma_2, \quad 当且晋档X和Y之间有线性关系时，等号成立$

Pearson相关系数

$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \\ -1 \leqslant \rho_{XY} \leqslant 1$

协方差应用

通过相关系数矩阵来优化特征数量（筛选特征）
不相关不一定相互独立（可能存在非线性关系），但对于二维正态随机变量，X和Y不相关等价于X与Y相互独立；

距

k阶原点矩

$E（X^k)$

k阶中心距

$E\{ [X-E(X)]^k\}$

重要的定理与不等式

Jensen不等式(若f为凸函数)

$f(\theta x+(1-\theta)y) \leqslant \theta f(x)+(1-\theta)f（y)$

扩展

$若\quad \theta_1,...,\theta_k \geqslant 0,\theta_1+...+\theta_k=1 \\ 则\quad f(\theta_1x_1+...+\theta_kx_k) \leqslant \theta_1f(x_1)+...+\theta_kf(x_k)$

连续情况

$若\quad p(x) \geqslant 0 \quad on \quad S \in \bold{dom} f, \quad \int_Sp(x)dx=1 \\ 则 \quad f(\int_Sp(x)xdx) \leqslant \int_Sf(x)p(x)dx$

切比雪夫不等式

$设随机变量X的期望为\mu,方差为\sigma^2,对于任意正数\epsilon,有： \\ P\{|X-\mu| \geqslant \epsilon\} \leqslant \frac{\sigma ^2}{\epsilon^2}$

切比雪夫不等式说明，X的方差越小，X的取值月集中在期望附近

大数定理

$设随机变量X_1,X_2,...,X_n相互独立，并且具有相同的期望\mu和方差\sigma^2，则对于任意正数\epsilon,有： \\ \lim_{n \to \infty}P\{ |Y_n-\mu| < \epsilon\} =1$

计算Y的期望和方差，带入切比雪夫不等式，通过夹逼定理即可证明。

中心极限定理 Central Limit Theorem

$设随机变量X_1,X_2,...,X_n相互独立，服从同一分布，并且具有相同的期望\mu和方差\sigma^2，则随机变量 \\ Y_n= \frac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}的分布收敛到标准正态分布$

正态分布的应用

实际问题中，很多随机现象可以看做许多因素的独立影响的综合反应（取和），往往近似的服从正态分布：

城市的耗电量：大量独立用户耗电量的和；
测量误差：各种微小误差的总和（如果是乘性误差需要先取对数）；
线性回归中，将使用该定理论证最小二乘法的合理性；

用样本估计参数

矩估计

简单粗暴的通过样本分布估计总体分布；

极大似然估计

机器学习算法概况

发表于 2020-07-16 更新于 2020-08-11 分类于 Machine Learning ， Algorithm

“知”的困境

“发现问题”和“解决问题”的悖论

“封闭体系”的困境

“解决问题”的困境

“未知的未知”

“知”是事实和解释的组合

几个概念

想象和创造是指“知识的重构”

“无知、未知”的思考框架

通过“维度”所见的三种无知

事实的无知（零维）

维度的无知（多维）

范围的无知（一维）

“没有意识到偏见”

已知和未知的不可逆循环

“知”和“未知”扩张的边界

“未知”和“知”的循环

无知的两种视角

“元认知”是基于“无知之知”的意识的原点

用无知重置所有知识

线性回归 Linear Regression

损失函数 Loss Function

最小化损失函数

梯度下降

过拟合与正则化

逻辑回归 Logistic Regression

sigmoid函数

损失函数

单样本分错的损失

损失函数

正则化

LR的优势

LR的应用

参考文献

数理统计与参数估计

常用概念

期望

期望的性质

方差

方差的性质

协方差

协方差的性质

协方差的上界

Pearson相关系数

协方差应用

距

k阶原点矩

k阶中心距

重要的定理与不等式

Jensen不等式(若f为凸函数)

扩展

连续情况

切比雪夫不等式

大数定理

中心极限定理 Central Limit Theorem

正态分布的应用

用样本估计参数

矩估计

极大似然估计

机器学习算法概况

算法图谱

算法选择路径