找回密码
 立即注册
搜索
热搜: 淘宝 补单 抖音
查看: 959|回复: 0

淘宝内部反作弊算法流出

[复制链接]

11

主题

31

回帖

73

积分

注册会员

积分
73
发表于 2024-6-3 15:55:53 | 显示全部楼层 |阅读模式
一、淘宝反**体系结构


淘宝反**体系结构可以从数据、算法、和系统三个维度来解释


数据:主要是将识别的**数据汇总到买家、宝贝、订单和卖家四个维度并全量提供给了数据平台供各业务方使用,即可用作算法训练样本的特征,也方便系统查询和监控**数据的趋势变化情况;

算法:覆盖了包括账号网、交易网、资金网和物流网四网合一的大数据,彻底打通了售前、售中、售后全链路业务,可以多方位识别各种**行为;

系统:主要是建立在数据层基础之上的一套包含监控预警、在线分析和风险运营系统,能快速高效地窥视SD行踪并及时阻断其获利点;



二、淘宝反**算法


淘宝反**算法体系是伴随着淘宝平台而不断优化和完善的,早期**的形式非常简单,比如频繁修改商品上下架时间来获取有利的商品排名,这种**手段往往经过简单的分析处理**可以制定相关的规则来处理,随着平台业务场景的多元化,**手段也随着变化多样,但大部分集中在商品基础信息层面上的**,比如类目错放、标题词滥用、夸大宣传、低价炒信、广告商品、重复铺货、**流量和查询词等等,或者机器SD模式。


道高一尺魔高一丈,无论SD手法多么诡计多端,淘宝反**算法体系都能快速响应。其中**重要的**是实现了一套覆盖全链路(售前、售中、售后)大数据(账号网、交易网、资金网、物流网)的实时分析处理能力,因此任何一条隐蔽性强的“精**”**路径都可以被海量大数据从多个点来进行算法建模和交叉分析,从而能快速地识别并控制住风险。




首先整个反**算法框架融合了“账号网、交易网、资金网、物流网”四网大数据,并覆盖了电商“购物前-购物中-购物后”多个业务环节,算法模型是一种流式计算框架,数据日志经过实时和离线两大计算模块后会加工成一些交易属性特征作为识别算法的基础,其中实时计算主要是对一些异常的在线数据(比如商品销量异常或者卖家信誉增长异常)进行快速分析并转化为相应的特征,而离线计算是对全链路数据的特征加工和处理,结合在线和离线的计算可以将行为变化的长期和短期因素的影响在模型计算中综合考虑,从而进一步提高识别的时效性和精度。


淘宝反**算法框架主要覆盖了阿里电商两大场景:日常反**和大促反**。算法主要是以大规模图挖掘(Graph Mining)和在线学习(online learning)为核心,在线学习可以对一些规则性的算法做到实时更新模型用来防范“试探性”地**手段,主要是基于规则的的模型(决策树和LR逻辑回归模型),根据一些交易特征建立强规则来进行识别计算,对那种明显的商品**模式的识别非常高效。


而大规模图挖掘则是通过跳出行为“局部性”的方法考虑行为的“全局性”来深挖“精**”类型的**手段。比如概率图模型对用户行为路径进行时间序列建模(假设正常用户的行为轨迹的时间序列是服从某种概率分布,异常的行为轨迹在某些点上服从其他概率分布),对那种机器SD或者固定模式SD能非常有效地识别;图标签传播模型可以来做团伙SD的识别,对炒信平台隐蔽性高组织性强的“精**”模式的识别非常高效准确。为了进一步验证算法模型的精准性,反**体系也增加了实时干预模块来做交叉验证和分析,主要包括专家知识、人工举报、异常监控和人工评测,这些外部数据源加工处理后可以作为验证数据动态帮助模型进一步优化。


大规模图搜索技术在反**中的应用主要体现在下面四类核心算法:

标签图模型:在大规模属性图结构上做社区和团伙挖掘;和以往的分类等机器学习算法不同的是,在属性图上有效地利用标签传播算法分析用户的行为可以挖掘出很多其他算法识别不到的同机团伙和协同炒作团伙;

概率图模型:在大规模图结构上挖掘变量之间的关系;利用概率图模型可以有效分析用户信息的风险程度(比如预防用户地址泄密)和用户购物行为链路之间的关联(比如识别账号异常行为)

数据流图模型:在大规模数据流上挖掘频繁子图,利用数据流挖掘我们在资金流网络中**发现了由“僵尸账号”通过炒信行为产生的“坍缩网络”,同时构建了一套“转账首活网络”能有效识别这些炒信用户,准确率达到了99.9%;

大规模图链接模型:在大规模图数据基础上做排序和权重挖掘,通过这种图链接方法我们有效地发现了重复运单和虚假运单的行为;我们的图算法能并行处理1亿以上节点5亿条边的图数据。在 3千万个节点,2.2亿条边的图数据上调用图链接算法时间仅需要14分钟。同时整个算法框架也包含了实时计算模块,使得对时效性要求高的业务场景下(比如双11)部分算法识别可以实现0秒延迟并可以每15分钟动态调整并跟新所有其他的模型。


三、大数据全链路反**示例


淘宝反****核心的部分**是搭建了一个将“账号网、交易网、资金网、物流网”四网合一的全链路大数据的天罗地网,做到全方位无死角的监控和识别任一种**行为


账号网:主要是从各种**信息或登陆信息中来全方位真实了解账号的真实性和平台特性,通过挖掘用户行为的变化情况来有效发现账号行为的异常性(见图3);




交易网:主要通过挖掘用户具体的购买行为路径来**是否有异常,这涉及到“售前”(搜索词,点击浏览,详情页等)-“售中”(收藏夹,购物车,支付等)-“售后”(物流,评论,退货等)




资金网:主要是通过挖掘资金流的行为来识别一些异常交易或者洗钱,**,**等高危行为




物流网:主要是通过挖掘交易和物流环节的关联性来识别一些虚假运单和KB等**行为




四、总结


淘宝反**体系已经建立并完善了一套完整的包括“账号网”、“交易网”、“资金网”、“物流网”的大数据分析体系,和覆盖“售前”、“售中”和“售后”的电商全链路的在线学习(Online Learning)和大规模图挖掘(Graph Mining)算法识别系统。同时还建立了完整的“平台化”风险管控系统-“虫洞”,通过系统监控预警以及在线分析的方式将模型算法和人工运营有效结合起来,不仅能高效识别**行为并进行了有效地干预,同时还可以有效控制各种风险。经过日常和大促的洗礼,淘宝反**算法体系无论在准确率、覆盖率、反弹率上都能经受任何形式的考验。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋| 电商在线-淘江湖淘宝卖家论坛 ( 湘ICP备2021012076号|湘ICP备2021012076号 )

GMT+8, 2024-9-21 01:44 Powered by Discuz! X3.5

快速回复 返回顶部 返回列表