摘要:在涉烟违法犯罪活动手法不断更新换代、日趋智能化、隐蔽化的背景下,如何突破常规监管手段瓶颈,挖掘和利用好内部监督线索和社会举报信息等情报资源,在整网集群打击地下环节化上下足功夫成为刻不容缓的问题。方法是以数据为基础,整合应用、探索涉烟情报资源集中采集和有效研判,创新构建“数据生态 + 智能研判 + 精准打击”实战体系。结果是:基于数据中台建设、AI 模型开发、多场景应用的全流程整合,总结提炼了案件串并、要素归集、专案打击等 3 种全新战法,结合典型案例分析了理论支撑下的新型实战体系开展实战。结论表明:该体系下的情报响应效率提高至 60%以上,案件破获时长缩短 40%~50%,切实提高了监管效能。
关键词:涉烟情报;数据中台;智能研判;精准打击;区块链存证
一、引言
由于数字经济和国家治理方式不断发展完善,涉烟违法犯罪行为的发展日趋复杂,手段愈发高明,而且正朝着更加“高级”的方向演进变化。目前的涉烟违法犯罪主要有以下几个特点:第一,作案环节更加环环相扣。第二,作案手法更加趋向于专业。第三,证据呈现形式更加多样。第四,行为方式更加隐蔽,借助暗网、比特币等新型手段逃避打击。第五,社会危害性和打击难度越来越大。第六,逐步形成了体系庞大的犯罪产业链条,通过控制庞大的犯罪利益链维持和引导整个网络型团伙式犯罪。
(一)产业链条跨区域化
犯罪链条横贯于产、供、销各个环节,形成了“产供销”一体的犯罪网络。非法生产的窝点分散于监管盲区较多的偏远地区,利用西南山区的废弃厂棚、华北地区的空闲农房,经改装货车、冷链车等车辆通过高速公路、乡村道路等多条线路运输至浙江等地,并通过市内小卖部或电商平台等渠道进行销售。某地市海关查获了价值约 2.4 亿的假烟产品,案件涉及浙江、安徽、上海和江苏等地。其查获假烟案件的真假比由以往的 7:3 变为 3:7,造假窝点均处于销售网点附近,在浙江省内存在内环式产业集群,假烟产制销售一条龙作业,非法获得利润 1.2 亿元。
(二)犯罪手段技术化
不法分子利用暗网交易、虚拟货币结算、加密通信等各类逃避打击的技术开展活动,“丝绸之路”“黑市绿洲”等暗网平台是烟草案件的重点。2023 年监测到暗网涉烟交易频次较 2022 年同比增长 35%以上。涉烟交易过程中使用的浏览器主要是 Tor 浏览器,使用的通讯软件主要是 Signal、Telegram 等,资金结算主要用比特币、门罗币等虚拟货币完成,难以采取技术手段实施针对性的技战法加以有效打击。
(三)证据获取碎片化
电子数据占涉烟案件证据比例超过 75%,散落于互联网社交平台、交易平台、物流运输等多个异质异构场景。以网络售假案件为例,交易信息分布于微信小程序、二手交易平台,物流信息分散于 17 家快递系统,通信信息存于加密 APP 中。依靠传统的手工方式整理耗时长达 20 个工作日,证据很有可能在此过程中出现灭失的情况。
(四)危害后果扩散化
假烟泛滥造成的国家税款流失超过 200 亿元,相当于 150 万箱正规卷烟的税收收入;假烟焦油含量超出正常值 40%,一氧化碳超出正常值 60%,一旦抽食极容易造成身体的各种不适,危害身体健康;非法电子烟冲击正常烟草经营,2023 年无资质电子烟企业超过 500 家,未成年人购买涉烟案件同比增加 25%以上。
针对新的犯罪挑战,传统的依靠人工排查、举报线索的监管方式已经不能满足需求。人工排查的地域有限,人员不多,每日平均只能查到不到 200 条数据;依靠群众举报线索的数量较少,占比不到 30%。本文尝试从基于数据的监管模式出发,以数据为核心推动监管转型,形成以“数据生态 + 智能研判 + 精准打击”为核心的涉烟情报体系建设,在大数据分析下发挥对涉烟情报的深挖实效,并在此基础上为行业内监管提供新思路。
二、涉烟情报数据资源整合路径
(一)构建 “四库一中心” 数据生态体系
案件特征数据库。全维度案件要素结构化管理收集过去 10 年约 2.3 万起烟草案件的数据,建立起具有三大特点的数据库,构建了涉烟犯罪“数字档案库”。
(1)时空特征。借助 GIS 地理信息系统生成案发地热力图,并应用 Kernel 密度估计算法,呈现出不同的案发时间段和地点分布的特点。经过数据分析,可以得出,在年度的 12 月至下一年度 2 月期间发生案件的频率比季度均值高出 25%,因为此时正值春节前期市场需求旺盛;高速公路服务区、城乡结合部的物流园区等节点案件密度相当于一般区域的 3.2 倍,因此制定“节假日重点防控”和“物流节点精准布控”的防控措施。
(2)行为特征。收集 86 种作案手法建立标签库,采用自然语言处理技术进行案件文书语义解析,自动为案件贴上“伪装运输(占比 38%)”、“虚假电商引流(占比 22%)”、“跨境走私(占比 15%)”等标签;使用 TF - IDF 算法算出案件手法与历史案件手法相似度,在 30 秒内可找到相似案件供参考。比如有一种新类型的“直播带货伪装售假”案件,该案件匹配到“虚假电商引流”的标签后,快速查找到了 2022 年在广东发生过的类似案件,并调取了当地办案民警当年采取的侦查措施,研判用时减少 40%。
(3)关联特征。采用 Neo4j 图数据库搭建人员、设备、案件之间的关联网图,其中人员有 21000 人、作案工具 18000 件、案件共涉及 23000 起,所画出的边分别用“参与”“使用”“关联”来表示联系。根据 PageRank 算法找出图的核心成员。通过对某个跨省团伙案的研究发现,在大量货运、运输案件节点中,出现了 1 个关联度很高的物流司机(物流节点权重达到 0.87),并且其频繁地与 3 个制造窝点产生密切的往来,从该图中可直接得出此人是该案的大链主,以此作为突破口快速侦破案件。
该数据库可以进行案件相似度的智能匹配,运用余弦相似度算法来计算案件特征向量,在 3 秒之内就可以检索到 TOP10 相似案件,为侦查提供历史案件的参考。据统计,在协助公安机关破获 2023 年的重复作案的案件中,70%的案件是通过上述功能快速确定出了有价值的线索。
主体档案知识库。动态风险画像精准识别重点对象累积起来的 230 万涉烟市场主体数据资源经过整合之后,形成了三层立体画像,做到精准监管的“一主体一档案”。
(1)基础画像。融合企业注册信息、企业信用评价、经营资质等 128 项静态数据为市场主体打造“数字身份证”,通过 OCR 技术自动识别烟草专卖零售许可证并及时同步认领更新,自动抓取符合条件的无资质经营主体 3.2 万户,并快速启动预警程序。
(2)动态画像。连接菜鸟或顺丰物流平台及工行、农行等银行系统,可实时查看物流频次(单日出现 5 倍以上的订单量变化),以及大额资金流(超过 5 万元的大额转账)等共 18 项动态指标,形成经营主体经营行为的时间序列模型,利用滑动窗口算法检测异常波动。发现该零售户平时周均订单量只有 20 件左右,但突然增加到 85 件,其资金流动、大额流水都与经营业务不符,系统直接判定为“高风险”。
(3)风险画像。采用 XGBoost 算法建立风险评分模型,结合基础画像(40%)、动态画像(50%)和历史违法记录(10%)自动产生 0—100 分的风险值,将分数大于等于 80 分设置成红色预警,由相关人员 48 小时内负责核查,将分数在 60~79 分设置成黄色预警,作为每月的重点关注对象。比如 2023 年某某零售户就是由于该户连续 3 个月风险评分为 85 分以上,经过排查后发现其真实情况是为假烟分销窝点,在此窝点查获假烟 2.3 万条,其假烟销售金额达到了每月销假率超过 50 万元。
物流追踪数据库。全链路包裹溯源技术突破通过对接 17 家主要的快递企业的数据接口、处理日均约 1200 万条的运单信息、建立“包裹 - 网点 - 分拨中心 - 发件人”的逆向追溯模型以及实现在全国范围内使用单码进行“一码溯源”。
(1)OCR 智能识别。基于 PaddleOCR 深度学习框架分析运单图片,经过对带字运单的手写体、模糊字体等做数据增强的训练后,可得到正确率高达 98%的字段识别,从而能够自动把运单信息转为文字并提取出来(收件人、发件人、货物名称、重量、体积等 21 项),提高人工效率达 10 倍以上。
(2)运单号关联分析。运用图数据库将运单号与中转网点、运输车辆和收件地址等关联起来建立运输网络图谱。某起案件中,发现存在 30 天以内同名发件人向 12 个不同虚假收件地址寄送 12 包、包裹合计仅以 2.5~3.5kg(系假烟常见包装重量)的可疑物邮作为一次货运业务量,并经由该公司虚假收件地址累积下来形成的可疑运单号被判定为“可疑发件人”。经调查核实确认为一个非法物流中转站,并从其站点查处待运输假烟共计 58 万包。
这个模型溯源准确率达到 89%,把以往 72 小时的溯源人工耗时缩减到 2 小时,2023 年通过该模型协助破获的物流环节案件数量占比达到整个案件数的 90%,是查获运输物流的一个强有力的“千里眼”。
三、智能研判技术应用
(一)AI 驱动的情报分析模型
时空碰撞算法:多维度轨迹关联识别融合涉案人员手机信令的日均 3000 万个定位点、物流车辆的 GPS 轨迹及资金交易的时间空间戳,形成“人、车、钱”的三维时空碰撞模型,实现轨迹交叉分析。
(1)轨迹匹配。采用 DTW 算法计算轨迹与线路的相似度,在相同算法条件下当相似度≥0.75 时认为二者“轨迹重合”,识别准确率达到 92%。某边境专案显示,在某一时间段内三名涉案人员的轨迹分别与五辆车物流车辆轨迹产生三处重合区域均位于边境无人区内并触发一级最高级预警。
(2)时空关联。所谓“时空碰撞”是指当人的位置、车辆的停靠位置或资金交易地的时间及距离间隔在 1 小时以内,且距离不超过 500 米。2023 年发生的一起走私案,采用这个办法共锁定了 3 处中转仓库,查扣走私卷烟 15 万条,案值超过 8000 万元,比以前人工的方式查得快 6 倍。
知识图谱构建。五维关联网络可视化运用 Neo4j 图数据库构建“人员 - 物品 - 事件 - 地点 - 时间”五维关联图谱,实现案件要素的可视化关联分析,形成犯罪网络“全景图”。
(1)节点属性。人员节点存放人员的信息,包括是否为违法犯罪人员以及以前是否有过涉案的历史;物品节点包括假烟的品牌、制假设备(如:制假设备有无报关手续、产地是哪里);事件节点主要包括交易的时间、手段和涉案金额;地点节点经纬度、区域类型(如:仓库或者零售点等);时间点要具体到分。
(2)关系建模。通过“参与”“运输”“交易”“生产”等 12 种关系边,清晰呈现犯罪网络结构。某跨区域案件中,图谱显示某物流司机(人员节点)与 3 个假烟窝点(地点节点)存在“每日 3 次运输”关联,且运输车辆(物品节点)与案件(事件节点)的作案工具匹配,迅速锁定其为关键链条节点,为全链条打击提供突破口。
(二)区块链存证技术应用
电子证据全流程固化利用 Hyperledger Fabric 构建移动端存证 APP,把现场证据做到“采集即上链”,杜绝电子证据被篡改以及取证难的问题。
(1)证据采集。执法人员使用 APP 拍摄的现场照片和录制的音视频以及采集的语音,在 App 里自动生成时间戳(精确到毫秒)、地点(经度纬度误差≤5 米)及执行人的信息,形成为经办行政案件使用的关键证据元数据。
(2)上链固化。运用 SHA - 256 哈希对证据数据进行加密,并通过共识机制发送到区块链节点上,每个区块都包含有本区块的哈希值和上一个区块的哈希值,而下一区块需要采用上一个区块的哈希值为输入数据,则该证据上链形成了证据链,该证据链条不可篡改。以某行政诉讼案为例,在使用区块链存证后,该院接收证据并认定的时间从以前的两周减为四天,司法采信效率提高了七成多,当天立案的 16 件新收案件采用该方式实现全覆盖。
四、实战场景应用案例
(一)“蜂群式” 定向打击模式、跨区域协同作战典范案例背景
按照 2023 年浙闽两地烟草部门对数据的研判,某物流园区有大量单日异常包裹的流动量,每天都要达到正常情况下的 3 倍以上,且出现一批大量密集流入这一物流园的异常包裹,并且总重集中于 2.5—3.5kg 左右。再结合资金流进行比对,确定有 6 个“小额多频”收款账户,单日超过 200 笔的收款,且单笔都是 500—1000 元,该地很可能存在跨区域的假烟网络。
实施过程。一是可疑包裹筛查。基于物流追踪数据库筛选分析了近 1.2 万件可疑包裹,采取重定量匹配(重 2.5~3.5kg)和地址量化匹配(收件地址均是便利店、杂货铺等)、和发件人判定(3 个发件人配 12 个虚假地址),将目标包裹锁定到 8700 个,降查范围到 75 个网点。 二是资金链穿透分析。反洗钱系统分析显示,收款账户的资金被经过了 5 层虚拟货币混币器洗白之后,流向了某境外交易所,我们通过区块链浏览器追踪资金流向,发现了接收洗白过来的资金的核心账户有 3 个,以及对应的操盘手,也就是该贸易公司的法定代表人。三是同步收网行动。组建三省五市联合指挥中心,采用 LBS 围栏方式,对 12 个重点目标(2 个生产窝点、5 个中转站、5 个零售终端)施行半径 500 米动态巡查管控,并安排无人机空中巡逻、地面警力布控;依靠可视化指挥平台,多部门行动时差控制在 15 分钟之内,确保了全市 18 个行动小组同步收网。
实战成效。这次行动查获假烟 38 万条,案值 2 亿以上,摧毁生产窝点 2 处,捣毁物流中转站 5 处,捣毁销售终端 17 处,抓获犯罪嫌疑人 23 名,从线索发现到收网仅用了 14 天时间,比以往传统的跨区域案件整整少用时了 36 天。实现了对整个犯罪链条的“全环节斩断”。
(二)涉烟舆情监测系统,网络空间精准预警技术架构
借助 NLP 技术来建立暗语识别模型,完成涉烟暗语“精准捕捉”的三个主要工作流程如下:
词库建设。收录“茶叶桶”“电子礼盒”“外贸原单”等 132 种涉烟暗语,利用 Word2Vec 进行词向量训练,借助于语义相关、上下文文意相关性进行动态增词,并补充 2023 年新出现的“国宾礼品”“定制茶礼”等新型涉烟暗语 23 条。
语义分析:使用 BERT 预训练模型去识别文档中存在的一些潜藏的相关性,“量大从优,支持批发”与“非烟草制品”关联在一起,用注意力机制辨别是否属于疑似售假信息,并且准确率达到了 91%。
实时监测。对接抖音、微信、快手等各平台 API 接入,每日加工处理上万条社交信息;建立三级预警模式(红、黄、蓝),红色预警信息发布后 1 小时内响应处理。
应用成果。今年第一季度,核查到新型的暗语“茶烟套装”、“外贸尾货香烟”,确认是掩护走私烟销售的话术,具体查获 37 个涉烟抖音账号和 21 条涉烟微信朋友圈。从“线索研判 - 证据固定 - 联合查处”全流程 72 小时之内,就实现账号封停、线下查处,堵塞了网络上涉及的 21 条销售途径,牵涉到了 5 万余名潜在消费者,并将潜在消费者的卷烟需求也进行了彻底的遏制,实现了对网络售假的“早发现、早打击、早阻断”。
五、实施建议与展望
(一)人才梯队建设:打造专业化情报队伍
打造“分析师资格认证体系”,开展三级分析师人才培养,在人才培养上建立起“金字塔型”的能力结构。
初级分析师(数据工程师)。要会做数据清洗(用 Python Pandas)、会做报表可视化工具(Tableau)、会做数据库(会 SQL)。岗位职责:开展基础数据处理、报表生成工作。达到国家局初级数据分析师认证(通过率为 65%)。
中级分析师(算法工程师)。熟悉 Python/R 编程,熟悉机器学习(随机森林、LSTM)、熟悉图数据库(Neo4j)操作;能独立完成模型训练以及情报分析相关工作;要求具有 3 年以上项目实战经验,获得中级(机率小于 40%)认证者优先。
高级分析师(情报专家)。具备战略研判能力,在大要案处置方面能够组织跨部门、跨系统联合研判和布控指挥;同时要亲自参研并经手过 10 起以上的大要案,并取得通过率仅为 20% 的高级认证。
根据指导意见,建议省级研判中心配备 1.5 人/百万人口的专业人员,并要求在 2025 年底前达到每个省份至少有 20 名高级分析师,50 名中级分析师的人才储备量,在此基础上经常性地组织开展数据建模大赛、案例复盘研讨会等业务,每年要组织不低于 4 次,来不断地锻炼和提升团队的实战能力,把研判中心培育成为“懂业务、精技术、会研判”的团队。
(二)技术迭代方向:前沿技术融合创新
涉烟犯罪预测模型。采用 LSTM 时间序列法,将过去 3 年以上的全部案件数据、节日影响因素(节假日期间)等 12 项因素为输入项预测未来 3—6 个月作案高发区和作案手法,同时实验发现该模型应用于 2024 年的测试集(“春节前物流环节案件”)的预测准确率达到了 82%,并据此提出了针对性的节日重点时期、提前专项检查的相关性措施建议。
元宇宙技术应用。建设虚拟仓库和物流园区的数字孪生模型,运用 Unity3D 技术实现以 1:1 场景还原,利用 VR 设备进入虚拟场景开展案发情景模式还原或刑事侦查方案推演,例如虚拟仓库内不同布控点位或不同人员路线设置下对隐蔽性犯罪的识别效果检验,据此确定最佳的摄像头点位及人员行进路线,尽可能发挥和提升其发现隐蔽性犯罪的作用,预计于 2025 年前建成第一批应用场景试点。
(三)制度保障措施
数据安全与合规管理出台《涉烟数据安全管理办法》,分级分类,构筑“数据安全防护网”。
一级数据(核心敏感数据)。包括个人信息、银行账户、密钥、密谈的聊天记录等内容都做到“数据不出域”进行联邦学习,并且杜绝明文传输的情况,同时使用指纹加动态口令进行二次认证的方式才能被访问。
二级数据(重要业务数据)。对于包含有物流面单、电子烟 IMEI、市场主体信息等这些敏感的信息,在实施脱敏操作之后才能够被调用或者看到相关信息,而且需要经过部门负责人的审批后才能够开展查看工作。
三级数据(一般业务数据)。包含舆情公开以及案件统计报表,设定角色权限(只有县级局能查本局数据),记录操作日志(保留五年)。
四级数据(共享数据)。包含行业报告,政策文件,开放的基础查询,支撑业务分析,不用审批登记使用用途。
制定数据泄露应急预案,在发生数据泄密后按“监测发现(10 分钟内报警)- 风险评估(30 分钟内定级)- 处置修复(2 小时内止损)- 复盘改进(24 小时内报告)”工作流程进行应急处置,组织开展应急演练 3 次,实现 2023 年数据安全事件应急响应效率提高 50%。
结论:
涉烟情报数据实战应用已经成为一线实战的重要武器,已经形成“数据生态+智能研判+精准打击”的新模式,实现了从被动响应到主动出击的转变;其中,公安部 110 部试点工作在 2018 年以来取得较为良好的试点效果,情报响应快(60%以上)、案件侦破周期短(40%-50%)均取得了良好的试点成效,为推动全国立体化大情报工作提供了宝贵的思路和可参考的方向。
借助技术赋能,借助不断发展的 AI 技术,不断完善数据治理体系,努力克服多源数据融合效率低、模型泛化能力差等难题;将 AI 技术与业务场景深度融合,进一步实现由“事后打击”到“事前预防”的突破;进一步加强跨部门协同工作机制创新,构建起“数据共享、线索共研、打击共通”的大监管格局。最终形成“数据感知 - 智能研判 - 精准处置 - 效能评估”全链条闭环,并利用大数据助推监管现代化发展,帮助筑牢烟草市场秩序、保障国家税收和维护消费者利益的安全网,在新时代背景下凸显数据监管的绝对核心价值。
参考文献:
[1]国家局. 2022 年全国烟草专卖管理报告 [R]. 北京:国家烟草专卖局,2023.
[2]陈庆,王磊,李洋。基于知识图谱的涉烟犯罪情报分析研究 [J]. 情报杂志,2022 (5): 45 - 51.
[3]李航。统计学习方法 [M]. 北京:清华大学出版社,2019.
[4]中国信通院。区块链白皮书(2023 年)[Z]. 北京:中国信息通信研究院,2023.
[5]陈兵.AI 时代,如何打破“数据孤岛”释放数据效能?[EB/OL].http://m.toutiao.com/group/7372801028347019815/, 2024 - 05 - 25.
非特殊说明,本文由优美尚品主题原创或收集发布,欢迎转载
发表评论