高等数学常用工具
夹逼定理
导数
导数是曲线的斜率,表征曲线变化的快慢;
二阶导数表征曲线的凸凹性,体现斜率变化的快慢;
SVM寻找区分两类的超平面(hyper plane),使边际(margin)最大。
几何意义:向量a在向量b方向上的投影与向量b的模的乘积
若超平面方程为:$ \quad \omega ^Tx+b=0, \quad$ 则他的法向量就是$ \omega$
证明:设$x_1,x_2$是超平面上的两点,则
$(x_2-x_1)$是超平面上的向量,由上式可知$\quad \omega ^T(x_1-x_2)=0 \quad$ ,可知向量$\omega$与超平面内任意向量垂直,$\omega$即为超平面的法向量
点x到超平面S:$\omega \cdot x+b=0$的距离d的计算过程:
线性可区分(linear separable)
线性不可区分(linear inseparable)
超平面可以定义为:
SVM的优点
线性可分的情况:
线性不可分的情况:
SVM的缺点
如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
总体来说,KNN分类算法包括以下4个步骤:
准备数据,对数据进行预处理 。
计算测试样本点(也就是待分类点)到其他每个样本点的距离 。
对每个距离进行排序,然后选择出距离最小的K个点 。
对K个点所属的类别进行比较,根据少数服从多数的原则,将测试样本点归入在K个点中占比最高的那一类 。
目前对KNN算法改进的方向主要可以分为4类:
是寻求更接近于实际的距离函数以取代标准的欧氏距离,典型的工作包括 WAKNN、VDM ;
是搜索更加合理的K值以取代指定大小的K值典型的工作包括SNNB、 DKNAW ;
是运用更加精确的概率估测方法去取代简单的投票机制,典型的工作包括 KNNDW、LWNB、 ICLNB ;
是建立高效的索引,以提高KNN算法的运行效率,代表性的研究工作包括 KDTree、 NBTree。还有部分研究工作综合了以上的多种改进方法 。
决策树是一个类似于流程图的树结构:
香农提出了信息熵(entropy)的概念,信息量的度量就等于不确定性的大小,不确定性越大,熵越大。
属性结点不同的顺序决定了算法不同的复杂度。因选定属性的度量方法不同,产生了不同的算法;
信息增益(Information Gain)最大的属性作为最先的结点,代表这个属性包含了最多的信息。每确定一个结点后,在这个结点各分类的数据中,重新计算下一个结点。
ID3算法存在一个问题,就是越细小的分割分类错误率越小,所以ID3会越分越细,形成过拟合。
C4.5对ID3进行了改进,优化项要除以分割太细的代价,这个比值叫做信息增益率,并以此作为选择属性结点顺序的标准。
使用基尼指数来选择划分属性
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,其纯度越高。
属性A的基尼系数
构建树可能需要剪枝,解决过拟合问题
所有属性必须是离散值,如果是连续值通过设定阈值创建离散值。
不知道从什么时候开始,“私域流量”成为了产品界特别火的概念,张嘴不谈私域流量仿佛就low出了朋友圈。可仔细思考一下,又说不清到底nb在哪,于是这么一个概念就被越炒越神秘,越神秘越显得nb。本文我们就来扒一扒它到底是个什么东西。
中国文化之博大精深,咬文嚼字是理解概念的好习惯。
把4个字合起来解释就是“自己在某个载体上运营的、一定规模的潜在客户群体”。还是太绕?那就想想你的手机通讯录,这就是一个大家都有的私域流量,因为它完全符合上述的定义。
发现了没有,私域流量不就是维护自己的人际关系么,多么原始的行为。这么广义的分析下来,它不但早于互联网,甚至可能早于商业的产生。老瓶装新酒罢了,没什么可神秘的。
大家知道,社会分工是可以极大提高生产力的,并能降低成本。专业的人干专业的事是现代组织关系中最基本的逻辑。
随着互联网的出现,流量的流通和复用成为了可能。因此,像淘宝、百度、微博等大量的专业流量平台不断涌现,他们主要的工作就是利用互联网红利期,将大量的人群低成本的拢入自己的平台,然后再将流量导给那些需要的商家。
从专业分工上来讲,这种流量获取的效率和成本都要比任何商家自己获取流量更有优势。而商家也渐渐感觉到,自己的流量不再局限于直接获取和维护,从流量平台上间接获取更加省时省力还省钱。于是,流量平台大行其道,“公域流量”的运作模式释放出了巨大的生产力,直接导致了几乎所有的商家把“平台推广”作为了主要流量获取途径,甚至是首选。
私域和公域本是两种获客的方式方法,并无绝对的好坏优劣。近几年公域流量的模式不断经受着前所未有的挑战:
一系列原因导致的结果只有一个,流量成本不断变高,流量收益不断遍低。更惨的是,这些结果正不断的向商家传递着…现在商家做个市场推广得拿半条老命去换,不成功便成仁。
如今,再去比较公域流量和私域流量的ROI,孰优孰劣就不好说了。与其说私域流量是新生事物,不如说其是重新萌发。
想获得答案首先要抓住它的特点,而所谓的特点是在与其他概念对比中发现的那些不同。本文开头对每个字的拆解,其实已经概括了大部分它的特点。
最大的不同还是公私之间的不同——“所有权”。公域流量的所有权是流量平台,商家使用时要定时定地点定价钱,再用再付费。而私域流量的所有权是自己,随时用,随地用,重复用,不花钱,听起来好像是有那么点美好!!!
再概括一下,上面讲的其实就是一个词——“触发”。当流量属于自己的时候,你就可以随时随地的捅他们一下,然后告诉他们“这有个东西不错”。
之前看过一个帖子,提到了Fogg模型:一次行为的发生需要具备三个要素,缺一不可。这三个要素是:动机,成本,触发点。
作为购买行为来讲,在公域是这么发生的:小王想买一个吹风机(动机),他进入淘宝搜索吹风机,看见了商家的促销广告(触发点),点进去看了一下价格,感觉可以买就下单了(成本)。
三要素的顺序是:动机——触发点——成本
而在私域是这么发生的:小王被商家拉进了群,商家发了一个吹风机的介绍和链接(触发点),小王想到自己恰巧可能需要更换一个吹风机(动机),点进去看了一下价格,感觉可以买就下单了(成本)。
三要素的顺序是:触发点——动机——成本
看到差别了么,商家可以通过私域流量主动触发来引导流量实现购买行为,而且,而且,而且,随时随地无成本。
这就是私域流量的终极秘密:把变现的源泉从找到新流量,转移到挖掘老流量。
本文不是实操帖,我始终认为运营没有一招鲜吃遍天,不同业务不同场景不同用户一定是没有标准玩法的。但还是有一些基本的sense可以分享一下: