高等数学常用工具

发表于 2020-07-15 更新于 2020-08-11 分类于 Math

高等数学常用工具

夹逼定理

$当x \in U(x_0,r)时，有g(x)\leqslant f(x) \leqslant h(x)成立，并且\lim_{x \to x_0}g(x)=A，\lim_{x \to x_0}h(x)=A，那么 \\ \lim_{x \to x_0}f(x)=A$

导数

导数是曲线的斜率，表征曲线变化的快慢；

二阶导数表征曲线的凸凹性，体现斜率变化的快慢；

泰勒公式（Taylor）

$f(x) = f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x) \\ 当x_0=0时，即为麦克劳林公式(Maclaurin) \\ f(x) = f(0)+f'(0)x+\frac{f''(0)}{2!}x^2+...+\frac{f^{(n)}(0)}{n!}x^n+o(x^n)$

支持向量机SVM（Support Vector Machine）

发表于 2020-07-14 更新于 2020-08-11 分类于 Machine Learning ， Algorithm

支持向量机SVM（Support Vector Machine）

SVM寻找区分两类的超平面（hyper plane），使边际（margin）最大。

准备知识

向量的点乘（向量的积）

$\vec{a} \cdot \vec{b} = |\vec{a}| \cdot |\vec{b}| \cdot cos\theta$

几何意义：向量a在向量b方向上的投影与向量b的模的乘积

如果$\vec{a} $和 $\vec{b}$垂直，$\vec{a} \cdot \vec{b} =0$；
如果$\vec{a}$ 和 $\vec{b}$平行，$\vec{a} \cdot \vec{b} =\pm |\vec{a}| \cdot |\vec{b}|$；

超平面的法向量

若超平面方程为:$ \quad \omega ^Tx+b=0, \quad$ 则他的法向量就是$ \omega$
证明：设$x_1,x_2$是超平面上的两点，则

$\quad \omega ^Tx_1+b=0, \quad \omega ^Tx_2+b=0, \quad$

$（x_2-x_1）$是超平面上的向量，由上式可知$\quad \omega ^T（x_1-x_2)=0 \quad$ ,可知向量$\omega$与超平面内任意向量垂直，$\omega$即为超平面的法向量

点到超平面的距离

$d = \frac{|\omega \cdot x +b|}{||\omega||}$

点x到超平面S：$\omega \cdot x+b=0$的距离d的计算过程：

设点x在平面S上的投影为y,则$\omega \cdot y+b=0$
由于向量$\vec{xy}$与S平面的法向量$\omega$平行，所以:

$|\omega \cdot \vec{xy}|=|\omega| \cdot| \vec{xy}|=||\omega||d \\ 又 \omega \cdot \vec{xy}=\sum_{i=1}\omega_i(x_i-y_i)=\sum_{i=1}\omega_ix-\sum_{i=1}\omega_iy=\omega \cdot x+b \\ 所以d = \frac{|\omega \cdot x +b|}{||\omega||}$

线性可区分（linear separable）

线性不可区分（linear inseparable）

超平面可以定义为：

$W \cdot X+b=0 \\ W=\{ w_1,w_2,...,w_n \}$

SVM的优点

线性可分的情况：

训练好的模型的算法复杂度是由支持向量的个数决定的，而不是有数据的维度决定的。所以SVM不太容易产生过拟合。
SVM训练出来的模型完全依赖于支持向量，即使训练集里面所有非支持向量的点都被去除，重复训练过程，结果仍然会得到完全一样的模型。
一个SVM如果训练得出的支持向量个数比较小，SVM训练出的模型比较容易被泛化。

线性不可分的情况：

利用一个非线性的映射把原数据集中的向量点转化到一个更高维度的空间中；
在这个高维度的空间中找一个线性的超平面来根据线性可分情况处理。

SVM的缺点

最邻近规则分类KNN（K-Nearest Neighbor）

发表于 2020-07-13 更新于 2020-08-11 分类于 Machine Learning ， Algorithm

最邻近规则分类KNN（K-Nearest Neighbor）

如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

分类算法
lazy learning

准备知识

距离计算方式

欧几里得距离（Euclidean Distance）

$E(x,y)=\sqrt{\sum_{i=0}^n(x_i-y_i)^2}$

余弦值（cos）

曼哈顿距离（Manhattan Distance）

算法流程

总体来说，KNN分类算法包括以下4个步骤：

准备数据，对数据进行预处理。
计算测试样本点（也就是待分类点）到其他每个样本点的距离。
对每个距离进行排序，然后选择出距离最小的K个点。
对K个点所属的类别进行比较，根据少数服从多数的原则，将测试样本点归入在K个点中占比最高的那一类。

关键问题

K的取值

KNN的优势

简单易于理解
lazy learning，无需参数估计，无需训练

KNN的劣势

需要大量的空间存储所有已知实例；
算法复杂度高，需要在内存中计算并比较所有的距离；
当样本分布不平衡式，某一类样本数量占主导时，容易被误归类；

改进算法

目前对KNN算法改进的方向主要可以分为4类：

是寻求更接近于实际的距离函数以取代标准的欧氏距离，典型的工作包括 WAKNN、VDM ；
是搜索更加合理的K值以取代指定大小的K值典型的工作包括SNNB、 DKNAW ；
是运用更加精确的概率估测方法去取代简单的投票机制，典型的工作包括 KNNDW、LWNB、 ICLNB ；
是建立高效的索引，以提高KNN算法的运行效率，代表性的研究工作包括 KDTree、 NBTree。还有部分研究工作综合了以上的多种改进方法。

Sklearn应用

决策树（Decision tree）

发表于 2020-07-10 更新于 2020-08-11 分类于 Machine Learning ， algorithm

决策树 Decision tree

决策树是一个类似于流程图的树结构：

每个内部结点表示在一个属性上的测试；
每个分支代表一个属性输出；
每个树叶结点代表类或类分布。

准备知识

熵

香农提出了信息熵（entropy）的概念，信息量的度量就等于不确定性的大小，不确定性越大，熵越大。

$Ent(D)=-\sum_ip(x_i)\log_2{p(x_i)}$

决策树算法

属性结点不同的顺序决定了算法不同的复杂度。因选定属性的度量方法不同，产生了不同的算法；

ID3

信息增益（Information Gain）最大的属性作为最先的结点，代表这个属性包含了最多的信息。每确定一个结点后，在这个结点各分类的数据中，重新计算下一个结点。

$Gain(D,A) = Ent(D)-Ent_{A}(D) \\ =Ent(D)-\sum_{\nu=1}^V \frac{|D^\nu|}{|D|}Ent(D^\nu) \\ Ent(D)是不考虑任何属性，总数据标记的信息熵 \\ Ent_{A}(D)是以某一属性计算全概率的信息熵,A有V个可能的取值$

C4.5

ID3算法存在一个问题，就是越细小的分割分类错误率越小，所以ID3会越分越细，形成过拟合。

$即 \quad Ent(D^\nu) \to 1 , \quad 亦即\quad Ent_A(D) \to 1$

C4.5对ID3进行了改进，优化项要除以分割太细的代价，这个比值叫做信息增益率，并以此作为选择属性结点顺序的标准。

$Gain\_ratio(D,A)=\frac {Gain(D,A)}{IV(A)} \\ IV(A)=-\sum_{\nu=1}^V \frac{|D^\nu|}{|D|} \log_2 \frac{|D^\nu|}{|D|} \\ 属性A可能取值越多，IV(A)的值通常越大$

CART（Classification and Regression Tree）

使用基尼指数来选择划分属性

$Gini(D)=\sum_{k=1}^{|y|} \sum_{k' \neq k}p_{k'}p_k=1-\sum_{k=1}^{|y|}p_k^2$

直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，其纯度越高。

属性A的基尼系数

$Gini\_index(D,A) = \sum_{\nu=1}^V \frac{|D^\nu|}{|D|}Gini(D^\nu)$

剪枝（pruning)

构建树可能需要剪枝，解决过拟合问题

预剪枝（prepruning）：在树生长过程中设定指标，达到指标就停止生长。容易产生”视界局限“，丢失有效信息。
后剪枝（post pruning）：树充分生长，再对相邻的叶结点进行合并。计算量代价大。

连续值处理

所有属性必须是离散值，如果是连续值通过设定阈值创建离散值。

决策树的优点

直观，便于理解；
小规模数据集有效。

决策树的缺点

处理连续变量不好设定阈值；
属性类别较多时，错误增加的比较快；
可规模性一般。

你真的理解私域流量了么？

发表于 2019-08-25 更新于 2019-09-03 分类于产品运营

不知道从什么时候开始，“私域流量”成为了产品界特别火的概念，张嘴不谈私域流量仿佛就low出了朋友圈。可仔细思考一下，又说不清到底nb在哪，于是这么一个概念就被越炒越神秘，越神秘越显得nb。本文我们就来扒一扒它到底是个什么东西。

到底什么是私域流量

中国文化之博大精深，咬文嚼字是理解概念的好习惯。

“私”，表示是自己的，是所有权的体现；
“域”，是区域，表示一个范围或者载体；
“流”，形容一种外静内动的状态，外部整体看来是静止的，内部实际却在不断新陈代谢；
“量”，表示一定的规模和程度；

把4个字合起来解释就是“自己在某个载体上运营的、一定规模的潜在客户群体”。还是太绕？那就想想你的手机通讯录，这就是一个大家都有的私域流量，因为它完全符合上述的定义。

发现了没有，私域流量不就是维护自己的人际关系么，多么原始的行为。这么广义的分析下来，它不但早于互联网，甚至可能早于商业的产生。老瓶装新酒罢了，没什么可神秘的。

流量平台——公域流量的诞生

大家知道，社会分工是可以极大提高生产力的，并能降低成本。专业的人干专业的事是现代组织关系中最基本的逻辑。

随着互联网的出现，流量的流通和复用成为了可能。因此，像淘宝、百度、微博等大量的专业流量平台不断涌现，他们主要的工作就是利用互联网红利期，将大量的人群低成本的拢入自己的平台，然后再将流量导给那些需要的商家。

从专业分工上来讲，这种流量获取的效率和成本都要比任何商家自己获取流量更有优势。而商家也渐渐感觉到，自己的流量不再局限于直接获取和维护，从流量平台上间接获取更加省时省力还省钱。于是，流量平台大行其道，“公域流量”的运作模式释放出了巨大的生产力，直接导致了几乎所有的商家把“平台推广”作为了主要流量获取途径，甚至是首选。

物极必反——私域重新萌发

私域和公域本是两种获客的方式方法，并无绝对的好坏优劣。近几年公域流量的模式不断经受着前所未有的挑战：

流量红利不再，新平台（头条、抖音、小红书…）的不断涌现，使得流量平台市场从蓝海变成了红海。寡头市场变成了竞争市场，那些发发优惠券就效果奇佳的时代一去不复返。
C的认知也在不断提升，互联网信息轰炸的这几年，C已经从小白兔被磨成了羊毛党，什么幺蛾子没见过，没点干货干脆都懒得看一眼。
…

一系列原因导致的结果只有一个，流量成本不断变高，流量收益不断遍低。更惨的是，这些结果正不断的向商家传递着…现在商家做个市场推广得拿半条老命去换，不成功便成仁。

如今，再去比较公域流量和私域流量的ROI，孰优孰劣就不好说了。与其说私域流量是新生事物，不如说其是重新萌发。

私域流量中隐藏的终极秘密

想获得答案首先要抓住它的特点，而所谓的特点是在与其他概念对比中发现的那些不同。本文开头对每个字的拆解，其实已经概括了大部分它的特点。

最大的不同还是公私之间的不同——“所有权”。公域流量的所有权是流量平台，商家使用时要定时定地点定价钱，再用再付费。而私域流量的所有权是自己，随时用，随地用，重复用，不花钱，听起来好像是有那么点美好！！！

再概括一下，上面讲的其实就是一个词——“触发”。当流量属于自己的时候，你就可以随时随地的捅他们一下，然后告诉他们“这有个东西不错”。

之前看过一个帖子，提到了Fogg模型：一次行为的发生需要具备三个要素，缺一不可。这三个要素是：动机，成本，触发点。

作为购买行为来讲，在公域是这么发生的：小王想买一个吹风机（动机），他进入淘宝搜索吹风机，看见了商家的促销广告（触发点），点进去看了一下价格，感觉可以买就下单了（成本）。
三要素的顺序是：动机——触发点——成本

而在私域是这么发生的：小王被商家拉进了群，商家发了一个吹风机的介绍和链接（触发点），小王想到自己恰巧可能需要更换一个吹风机（动机），点进去看了一下价格，感觉可以买就下单了（成本）。
三要素的顺序是：触发点——动机——成本

看到差别了么，商家可以通过私域流量主动触发来引导流量实现购买行为，而且，而且，而且，随时随地无成本。

这就是私域流量的终极秘密：把变现的源泉从找到新流量，转移到挖掘老流量。

私域流量怎么玩？

本文不是实操帖，我始终认为运营没有一招鲜吃遍天，不同业务不同场景不同用户一定是没有标准玩法的。但还是有一些基本的sense可以分享一下：

做私域流量不是摒弃公域流量，两者最好能相辅相成，私域的来源也可以是公域；
选择好的载体很重要，要将“方便触发”作为最本质、最核心的要求；
要做精细化运营，将流量标签化、场景化，不要因为取悦了一部分人而恶心到了其他人。
适当做好分层运营，同一类流量的内部也存在不同层次，也存在转化，也要做成漏斗，可以通过多个缓冲区承接。
要用心来运营人心，随时随地无成本都是假的，流量流失是最大的成本。

高等数学常用工具

夹逼定理

导数

泰勒公式（Taylor）

支持向量机SVM（Support Vector Machine）

准备知识

向量的点乘（向量的积）

超平面的法向量

点到超平面的距离

最邻近规则分类KNN（K-Nearest Neighbor）

准备知识

距离计算方式

欧几里得距离（Euclidean Distance）

余弦值（cos）

相关度（correlation）

曼哈顿距离（Manhattan Distance）

算法流程

关键问题

K的取值

KNN的优势

KNN的劣势

改进算法

Sklearn应用

决策树 Decision tree

准备知识

熵

决策树算法

ID3

C4.5

CART（Classification and Regression Tree）

剪枝（pruning)

连续值处理

决策树的优点

决策树的缺点

到底什么是私域流量

流量平台——公域流量的诞生

物极必反——私域重新萌发

私域流量中隐藏的终极秘密

私域流量怎么玩？