只有了解清楚一件事情,才能有效去分析,从来设定解决方案
1:大数据大致分为两种类型 ,征信类和个人类。
征信类大数据必须接入央行征信中心,所有从事金融行业的公司数据必须接入,接入后可以在线查询某个人所有金融拆借情况等等,便于评估个人信用。
个人类,比如:支付宝、淘宝、美团、微信等APP的交易数据、用户习惯、行为轨迹;目前个人类大数据来源支付工具,例如支*宝和*信,这几年两家公司大力发展线下支付,其中很重要的一点用来采集用户大数据,大数据的价值不可估量。
2:除了征信类大数据强制接入征信中心,个人类的大数据属于企业的用户数据,是否互通完成自主决定。**目前市场格局来看,基本被腾*、阿**巴、今**条等互联网巨头占据,个**数据的应用主要体现在企业分析、企业与企业之间协议互通,资源互换;典型案例:淘宝与今日头条,用户在淘宝搜索相关产品,然后再打开今日头条,系统立马推送,在没有登录账号的情况下也是如此,除了帐号以外,设备机器码也是一个重要的指标。
这里有几个常识需要解释一下:
(1):企业之间数据互通属于商业行为,包含详细的规则、协议,只允许互相访问协议内数据;数据是存储在各自的服务器上,只有访问权;访问得到的数据不能私自分享给第三方公司;每次查询必须访问服务器,并且每一次访问记录是有日志文件的,所以目前的查号软件数据来源暂且不清楚,但不管通过哪一方访问,数据库日志一定有访问记录,并且日志一定接入稽查系统。
(2):根据协议的不同,互相访问,显示的模式也不同;
案例1:淘宝与今日头条,淘宝APP的标签是购物类,那么在淘宝看了以后,今日头条获取的数据是“关健词”,匹配的推送是“与关健词相关的购物资读”,这是因为淘宝APP的标签是购物类,所以根据标签推送相关属性的资讯。
案例2:企业之间访问协议规则,访问得到的结果只是一组代码,双方服务器能够识别的代码,并没有清单,可能只有一个结果,但能够满足业务需求。这是目前**常见的方式,
3:大数据是如何为用户打上标签。
大数据范围很广,讲一些我所知道的,主要来自两个方面,
其一,根据用户**的APP标签、行为轨迹、习惯。
其二,根据用户支付场景标签。
**核心的来自支付场景标签,打个比方,这位用户用支付宝支付水电费,经常在洗车店、停车场、婴儿用品店付款,那么系统会打上以上标签:有固定住所、有车一族、已婚并有子女,这才是真正的标签,根据消费金额大小,还能进行更精细的打标签。并不是在网上看了产品,过两天买**会有这个标签,标签的形成是多个渠道多个模型核实后形成;比如用户在线上频繁消费母婴类产品(母婴属于标签属性很强的产品,普通人不会频繁交集),但是在线下消费场景从来没有和这类标签有过交集,这很容易引起稽查系统怀疑,特别母女婴、汽车等属性很强的产品,线下和线上一定会无意间有过类似标签交集。线下支付场景获得的标签更准确,所以提前浏览打标签并不是**的,大数据获取标签的渠道非常之多,哪个渠道信息真实度高,便采用哪个渠道。
大数据核心有三点:基础数据、算法、算力,基本数据是固定的,先进的算法能以更小的计算机消耗算出更优的结果。算法一直是各个公司的机密,今日头条此前由首席算法架构师曹欢欢 二十公布了算法,有兴趣可以看下,干货很多,链接https://blog.cSDn.net/tMb8Z9Vdm66wH68VX1/article/details/79453128
|