我的1999_东人_第七百九十七章敲打- 笔趣阁

　　第七百九十七章敲打 (第2/2页)

众就是29.2%’，或者‘15岁及以下观众一定超过20%’。

    这样非常肯定的的话，大家就可能会挑战这个结论。

    因为，统计是有随机性的，也是有误差的。

    仅仅上千人的数据得不到这样准确的结论。

    统计除了要求数据量必须充分之外，还要求采样的数据必须有代表性。

    有些时候不是数据量足够大，同阶级过就一定准确。

    一个很简单的例子，一个爱情影片和一个战争影片，它的受众并不相同。

    所以如果我们只采集爱情影片上映当月的观影人群，就不具有普遍的代表性。

    那么怎么避免这种情况，获得准确的结论呢？

    19世纪的俄国数学家切比雪夫对这个问题给出了他的结论，即切比雪夫不等式。

    P|≥ε)≤Var/ε^2。

    这个公式的含义是，当样本数足够多时，一个随机变量和他的数学期望值之间的误差，可以任意小。

    把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。

    随机变量就是：观察到的各个年龄段观众的比例。

    数学期望值就是：真实情况下所有看电影观众中不同年龄段的比例。

    当我们把样本数据带入后，大致可以得出以下结论。

    15岁以下观众占20%，16~25岁占27%，26~40岁占24%，40岁以上占29%，误差小于5%。

    但如果我们要将四个年龄段观众的准确率，提高到小数点后一位数，那么我们大致需要10倍的数据，即两万个左右的样本。

    如果我们把这个问题放大。

    我们想知道一部电影在全世界的观影人群年龄分布，而且必须具体到更细致的年龄段人数。

    比如18~20岁，21~24岁等等。

    又或者更具体的地域。

    华夏、东瀛、南韩等等。

    在一个更大，更详细的范围内，为了获得更准确的结果，我们需要的数据量，将千百倍的提升。

    当我们获得了超级数据。

    普通的计算机已经很难完成计算。

    而且就算能完成，也需要大量的时间。

    时间就是金钱，在商业上，这显然是不可接受的。

    因此。

    为了尽可能在短时间内得到结果，我们要一台或几台超级计算机来计算。

    但动用超级计算机的费用非常昂贵。

    想要了解电影院观众年龄的企业，显然不愿意在这个问题上花费这么大的代价。

    那么怎么办呢？”

    徐良cao作了一下电脑。

    背后的投影屏上显示出三个硕大的楷体。

    云计算。

    “云计算，‘云’就是互联网，‘计算’则是字面意思。

    目前的云计算是一种分布式计算，指的是通过网络“云”，将巨大的数据计算处理程序，分解成无数个小程序。

    然后，通过多部服务器组成的系统，进行处理和分析这些小程序，得到结果后返回给用户。

    整个计算过程只需要几秒钟。

    也就是说，云计算把一个原本需要动用超级计算机，需要几天，甚至十几天时间才能计算出来的问题。

    变成了只需要几秒钟，花费几万块，最多十几万块便能得出的准确数据。

    大大减少了支出，提高了效率，得到了更准确的结果。

    也许有人觉得统计电影观众年龄分布，没什么太大的价值。

    但如果变成一家餐饮企业统计饮料产品的受众年龄分布呢？

    只要有了准确的数据，餐饮企业就可以针对不同年龄段人群，开发更有针对性的广告和服务，从而提升自己的销量。

    这一点已经被康师傅公司运用到了实际的经营中。

    根据盘古公司大数据调查，康师傅公司发现旗下‘健力宝’运动饮料产品最大的受众是15岁~25岁之间的青少年人群。

    其中男性占比41%，女性占比59%。

    然后又通过线下抽样调查，网上问卷调查等多个渠道得出数据，并用数据驱动的方法，计算出这部分人群感兴趣的明星，喜欢的电视剧类型等等数据。

    综合这些相互交叉的大数据，制定了详细的广告宣传方案和宣发渠道。

    短短一个季度的时间，康师傅的销售额便增加了22%，净利润增加了14.8%。

    同样的方法，我们可以运用到汽车、餐饮、娱乐等所有消费品领域。

    毫无疑问，这将形成巨大的商业变革。

    原本粗放的广告投放和宣发方式，将变得更细致，更有针对性。

    原本口味统一的产品，将根据全国各个省份消费群体的口味和消费习惯，开发出更符合本地特色的产品。

    消费者将成为真正的主体。

    可以肯定的说，以后所有拒绝大数据的消费品公司，基本都不会存活太久。”