从用户画像实现角度看数据隐私问题|通用区块链行业研究

万向区块链董事长兼总经理冯晓博士曾表示，无论是元宇宙、区块链还是Web3.0，都是在说一件事，那就是数字时代人类社会的去中心化趋势。因此，无论是在元宇宙，还是在Web3.0时代，个人数据都成为了个人资产，个人数据的隐私成为了“新世界”中的核心问题。本文将从“用户画像”的角度探讨数据隐私问题，希望能为大家思考元宇宙或Web3.0的隐私保护问题提供一个思路作者：万向区块链首席经济学家办公室王普宇本文点评：万向区块链首席经济学家邹传伟
什么是用户画像？
用户画像最早是由交互设计之父艾兰库伯提出的。用户信息围绕四个元素进行标记：人、时间、地点和事件(如图1所示)。然后根据标签，收集用户的社交属性、消费习惯、偏好特征等多个维度的数据，并对这些特征进行分析统计，挖掘潜在价值信息，从而抽象出用户的整体信息。
图1:个人信息的四个要素
用户画像是一把双刃剑，方便了用户的生活，但同时也侵犯了用户的隐私。例如，当用户使用支付宝扫描二维码完成交易支付时，大数据分析工具会捕捉用户的消费金额、地点、时间等行为数据。并且随着数据标签的积累和数据量的增加，个人信息的四个要素会连接起来，形成一个完整的用户画像。平台可以分析用户的行为，实现精准营销。
用户画像标签是如何设计的？
目前标签市场有四种标签框架，分别是：(1)基于营销触点的用户标签体系；识别用户的付费流程和付费意愿阶段，为营销提供明确的机会。比如阿里体系的标签框架AIPL，将用户对品牌的认知阶段分为感知、兴趣、购买、忠诚四个阶段，然后根据四个阶段的营销动作制定细分标签。(2)基于增长漏斗的AARRR模型；这种模式也被称为海盗模式，是由美国一家著名风险投资机构的创始人戴夫麦克卢尔(Dave Macclure)提出的。由五个词的首字母组成：获取、激活、留存、收益、Refer(刷新、提升生活、保持、创收、分享)。它识别用户的成长状态，针对不同生命周期的用户实施不同的成长策略。利用该模型，广告主可以针对每个模块客户实施差异化的营销策略，提高转化率。(3)基于用户价值的层次模型；如RFM模型、ARGO模型、用户忠诚度和用户生命周期模型等。RFM模型广泛应用于传统销售行业。RFM分别代表最近的消费、频率消费的频率和货币消费的金额。每个维度分为高、中、低三种情况，用八个重要(价值、发展、留存)和一般(价值、发展、留存)要素构建四个象限。将用户直观地划分为八个不同的层次，对用户分层识别用户的价值，对不同价值分层的用户实施不同的运营策略。(4)基于用户偏好的模型；基于用户对产品功能或商品偏好的差异化，提供营销人员的信息，提供个性化服务，如购房目的、区域位置、价格等。在房地产领域。
标签的设计与应用：以一个典型的电子商务业务为例，介绍了标签的设计流程，包括梳理业务流程、确定标签设计的业务目标、设计标签三个步骤。(1)业务流程业务流程漏斗包括启动APP、注册登录、主动浏览、深度行为、支付和重复支付、末端静默损失。如图2所示，按照业务流程对每一步的调查维度进行了梳理。然后根据用户在这方面的行为，构建用户的偏好标签。
图2:基于业务流程的用户画像
(2)业务目标基于不同的业务目的。企业会尝试从不同维度去构造标签，目的大多是一样的，就是细化整体交易金额。根据不同的业务目的，企业会对业务流程进行拆解。比如交易金额可以拆分为新用户交易金额和老用户交易金额；达成交易的过程可以分为新的启动，注册，浏览细节，深入行为，最后付款。对拆解的各个环节采用不同的策略来增加交易额，如图3所示。
图3:如何实现用户画像的商业目标
(3)根据标签设计的数据计算逻辑，只有当输入值满足约束条件时，最终结果才能落在一个期望的范围内。因此，在业务事务中，预期结果是底部的不同目标，如图3所示，而标签是这些不同的输入值。企业试图通过大数据分析得到这些输入值的合理范围，从而得到预期的结果，于是出现了如图4所示的模型。
图4:基于商业价值的用户画像标签设计
按照标注的方式，有三类标注：统计标注、规则标注和机器学习算法标注。比如小张在社交APP资料中展示男性，和网友见面时形容自己“方脸，浓眉大眼，穿裙子很有设计感”；小张结账时刷脸付款，当天没有拿到女性9折优惠。所以，如何判断小张的性别呢？统计标签小张在社交APP上填的是男的，所以我们认为他是男的。这种基于确切数据的标签叫做统计标签；对于用户来说，可以从用户注册数据、用户访问量、消费数据中统计出其性别、年龄、城市、星座、最近7天活跃时间、最近7天活跃天数、最近7天活跃次数等字段。这种标签形成了用户画像的基础。规则标签小张穿的裙子很有设计感。按照人们的习惯性思维，张三是女的。这种判断是基于人定的规则。只要有人穿裙子，就是女人。这样的标签被称为规则标签，即基于用户行为确定的规则。在开发画像的实际过程中，由于运营人员更熟悉业务，而数据人员更熟悉数据的结构、分布和特征，因此分类标签的规则由运营人员和数据人员协商确定。根据不同标签获取的用户数据的准确性，标签的规则会不时调整。机器学习算法tag camera结合基于各种特征的算法判断小张是女性的概率。因为小张长得很男性化，所以算法确定他是男的。所以小张的刷脸支付并没有获得活跃女性的优惠。这个类标签是通过机器学习挖掘产生的，用来预测用户的一些属性或行为。有明确的针对目标人群的行为数据，企业会根据用户偏好标签收集数据；但如果目标人群的行为数据较小，比如新用户和沉默用户，一般从他们所处的生命周期标签出发，去极化促进转化和召回的策略。
数据源
获取用户画像数据是一个复杂的过程，包括数据采集、数据处理、数据分类和数据存储等。如图5所示，显示了用户画像的具体结构，我们将详细分析最低的用户数据收集访问。
图5:用户画像数据仓库架构
从图5可以看出，获取用户画像底层数据的主要途径包括两部分：内部系统数据和外部数据，而内部系统数据包括业务数据、日志数据和埋藏数据。
(1)内部数据业务数据包括用户信息表、商品订单表、商品评论表、搜索日志表、用户收藏表、购物车信息表。用户信息表包括用户代码、用户名、用户状态(未注册、已注册、已注销)、邮箱代码、用户生日、性别(自然性别、购物性别)、电话号码、是否有图像、创建时间、注册日期、家乡省份、家乡城市、详细地址等。商品清单包括订单来源标识(App、Web、H5、其他等。)、用户代码、用户名、订单号、商品代码、商品名称、订单生成时间、订单日期、订单备注、订单状态(待付款、已完成、已取消、已退款、付款失败等。)、订单状态时间、订单金额、付款账户、付款方式等。商品评论表存储了用户对商品的评论信息，主要字段包括用户id、用户名、评论内容、评论图片、评论状态(待审批、已审批、已屏蔽)、订单id、创建时间、创建日期、评论用户IP、更新时间等。用户收集表记录了用户在平台上收集商品的数据。字段主要包括用户id、收款日期、收款时间、产品id、产品名称、收款状态(收款或取消)、修改日期、修改时间等。购物车信息表记录了用户向购物车添加商品的数据。主要字段包括：用户id、产品id、产品名称、产品数量、创建日期、创建时间、图书状态、修改日期、修改时间等。日志数据访问日志表(Log data access log table)是一种服务(LBS ),存储用户访问App的相关信息和用户的位置数据，通过嵌入到客户端，从日志数据中进行分析。字段主要包括设备登录名、用户id、设备id、访问时间、上报时间(终端记录用户点击按钮的时间)、用户所在省份、用户所在城市、上一页url、当前页url、操作系统、登录日期、经纬度等。搜索日志表存储与用户在应用中的搜索相关的日志数据。主要字段包括设备登录名、用户id、设备id、搜索id、搜索日期、搜索时间、用户搜索的关键词、标签内容、每次访问的随机数等。埋点数据埋点日志表用于存储用户访问App或网页，用鼠标或触摸屏点击页面时留下的打点记录。通过客户端，我们做用户页面的掩埋、统计和统计操作的监控。主要字段与日志数据相同。埋点就是能尽可能完整地反映用户使用场景和真实需求的企业行为数据。也是围绕图1中的四个要素展开的，但数据框架通常是4W(who\when\where\what) 1H(how)，分别对应四个要素中的人物(who)、时间(time)、地点(where)和事件(what how)。
用谁来分析谁完成了这个行为，用一个唯一的用户ID把行为和用户关联起来。常用数据包括用户id、手机号、身份证、设备或应用程序识别码。
去哪儿定位用户完成行为的地点，常用的数据有IP(web、手机)、GPS(手机)、自填位置(大众点评、饿了么、美团外卖等)。).
当定位用户完成行为时，常用的数据是时间戳和本地时间。
什么定位了用户当前的行为。为了更精细的管理，记录的信息越来越详细。具体指标包括内部系统数据中的业务数据，通过埋点得到。
如何获取周围的环境、手段、设备等。当用户发生时，尽可能地还原用户在数字世界中的环境。常用的数据有操作系统、设备版本、设备型号、网络环境(WIFI、5G)、设备版本(用户使用的设备的版本号)、浏览器、上级页面等。当用户产生某种行为并触发嵌入时，4W 1H的相关数据会被传输到后台进行分析，并以一定的数据限额以每日、每小时或固定的方式上报。有些企业只会收集与自身业务相关的用户画像标签数据，而大多数企业会过度收集信息，即大量与自身业务无关的数据。比如用户在图片管理软件中上传一张图片，软件会收集设备信息和用户信息。如果图片是自拍，用户画像的具体长相也会被绑定，图片中的楼栋、门牌号、店铺名称都有可能暴露用户的身份和位置。所有这些信息将有助于企业了解用户的财务状况、生活习惯等信息。(2)外部数据外部数据包括多项数据，主要用于弥补内部用户标签不足或数据不足的问题，结合外部数据获得更全面的用户画像。主要的外部渠道包括：互联网开放数据、付费数据(数据提供商)、网络数据采集、通过人脉获取数据、百度指数和站长工具等。以下介绍主要渠道：互联网公共数据公共数据主要集中在全球、国家、地方、企业宏观层面的统计数据，不会对用户画像产生直接作用，但可以提供参考。例如，中国(http://data.stats.gov.cn/index.htm)国家统计局包括中国经济和民生数据。CEIC (www.ceicdata.com/zh-hans)，拥有超过128个国家的经济数据，可以精准找到GDP、CPI、进出口、外商直接投资、零售额、国际利率等深度数据；还有Wind，搜索网，中国统计信息网，亚马逊开放数据集，figshare，github等等。支付数据
大数据交易中心2015年开始在全国各地建设大数据交易中心。截至2019年底，大型数据交换(中心)已达30个。我国大数据交易模式大致可分为四种：政府主导或背书的交易所(中心)、行业组织主导的行业数据交易模式、大型互联网公司和IT厂商主导的数据交易平台、垂直数据服务商主导的市场化数据交易模式。
企业间的数据共享类似于信用企业。信用企业很难通过自己的数据完成用户画像，通常会与行业合作伙伴共享数据。
其他网络攻击者通过各种漏洞设置SDK，获取所需数据，并在地下市场出售，形成了包括黑客、多级材料商(数据中间商)、买家在内的完整黑色产业链，通常分为四个层次：第一层次是黑客或内部员工窃取用户个人数据；二级窃取的用户信息卖给材料商；第三个层面是材料商不断发展代理，倒卖数据；第四级是信息用户，获取数据后，进行用户画像补充、电话营销或电信诈骗。例如，一位材料商在接受记者采访时表示：“电话、微信、QQ号等个人一般信息。每条信息平均拿货成本0.4元，单条销售价格0.7-0.8元，月流水达到40-50万，在金融、教育、医美等行业做，市场需求非常大。”
数据收集技术在互联网时代，广告主为了跟踪、分析、说服消费者，开发了许多便捷、成熟的营销跟踪技术。在线广告营销伴随着每一个浏览网页的用户。广告行业使用不同的技术来跟踪用户行为，如cookie、Flash cookies、信标和浏览器指纹。(1) Cookies Cookies是网站服务器存储在用户内容或硬盘中的小型浏览文件，用来记录用户的网址、网页停留时间、在网页上键入的用户名和密码、浏览习惯等。不是本机生成的，通常是用户浏览网页检测用户在做什么时，被访问网站发来的小数据包；它不仅可以跟踪用户的行为，还可以推荐用户访问过的网站，从而省去用户重新进入网站的麻烦。用户无需重新输入用户名和密码即可登录。这种技术带来的最大问题是，用户的行为在用户不知情的情况下被跟踪记录，往往会导致第三方(如行为广告主)的接入。在收集了Cookies数据后，广告主会通过行为营销来定向投放用户可能感兴趣的广告。目前主要的对策是使用浏览器的无痕模式，或者定期清理浏览器Cookies，减少数据泄露。 Flash cookies随着技术的发展，开发者找到了更好的方法——Flash cookies。传统上，Http cookie是不稳定的，用户可以通过从浏览器中清除Http cookie或在浏览器选项中手动将其设置为禁用模式来避免数据收集。Flash cookies可以重写被用户删除的Http cookies并获得重生，这样删除后原来保存的数据会重新呈现给分析师。然而，传统的禁用或清除浏览器中Cookie的方法无法与网站重写、跟踪和记录用户的在线浏览历史相抗衡。网页信标(Web Beacons)也称网页bug，是1像素透明的GIF或PNG图片，可以隐藏在任何网页元素或电子邮件中。它们通常用于收集目标计算机用户的在线习惯等数据，并将这些数据写入Cookies。与浏览器用户可以接受或禁用Cookies不同，Web信标仅以图形交换格式(GIF)或其他文件对象的形式出现，并且只能通过检测功能找到。最初的介入是有积极意义的，比如追踪侵犯版权的网站。Beacon API(信标API)是Web Beacons的升级版，不使用隐形图像或类似手段也能达到同样的目的。它旨在方便web开发人员在用户离开页面时将信息(如分析或系统诊断数据)发送回Web服务器。使用Web beacon API可以在不干扰或影响网站导航的情况下完成这种跟踪，并且它对最终用户是不可见的。这项技术在2014年后被引入Mozilla Firefox和谷歌Chrome网络浏览器，但在2021年，谷歌宣布放弃使用跟踪个人网站浏览记录来保护用户隐私。浏览器指纹不同用户的浏览器各有特点。网站可以检测用户的浏览器版本、操作系统类型、安装的浏览器插件、屏幕分辨率、时区、下载的字体等信息。这种通过浏览器对网站可见的配置和设置信息来跟踪网页浏览器的方法被称为“浏览器指纹”，它和人手上的指纹一样，具有个体识别性。为了避免指纹追踪，用户需要禁用网站的JavaScript和Adobe的Flash技术。即使是计算机专家，面对指纹追踪技术，也很难保护自己的隐私。一开始浏览器指纹是有状态的，用户需要登录账号才能获取有效信息；升级后的浏览器指纹，通过增加浏览器的特征值，让用户更有区分度；到现在，基于人的行为和习惯，已经为用户建立了特征值甚至模型。在不同的设备上，不需要用户登录，只需要浏览网页等就可以锁定特定的用户身份。这项技术正在研究中。
目前指纹追踪很难被屏蔽。只要用户使用浏览器上网，用户的网上行踪就一样公开。 SDK在检测用户在网站或软件上的行为时，通常会给网站或软件添加一些代码。当用户触发相应的行为时，就上报数据，也就是代码埋点。这样的代码在网站上称为检测码，在app上成为SDK(软件开发工具包)。目前市场上有一些相关的工具，如GrowingIO、GA、厕神等。
用户画像数据的问题与分析从市场营销的角度来看，用户画像技术帮助市场供应商精准定位客户，同时为客户提供个性化服务，有效提升市场交易效率。虽然用户画像技术有其社会价值，但在前两部分，我们对用户画像的标签框架、设计和应用、标签数据的来源以及数据采集的相关技术进行了详细梳理，发现用户画像过程中存在诸多数据安全问题，包括数据交易渠道的合规性、非法数据采集技术、用户数据的过度采集、用户个人数据隐私缺乏保障机制等。
外部数据获取渠道的合规性正常情况下，用户提供的个人数据和平台提供的个性化服务形成一个业务闭环。但从之前的分析来看，对于用户画像，企业自身的数据无法满足标签数据的需求，企业通常需要从外部获取一些数据。在数据交易中，一些自发组织的灰色市场如雨后春笋般出现。如图6所示，平台或其代理以明码标价的形式向第三方机构出售用户个人数据，存在以用户、平台或其代理、第三方机构为代表的闭环业务。第三方机构通过对用户信息的分析向用户提供一些“个性化服务”，这些频繁出现的个性化服务广告对用户的生活产生了一定的影响。由于缺乏数据管理，部分数据会流入一些非法机构手中，营销虚假产品，诈骗用户。
图6:企业数据事务的闭环图
目前市场上合规的数据交易渠道很少。2015年，将在全国各地建设大数据交易中心，促进数据的合法交易和流通，服务市场经济。但近几年的数据显示并没有达到市场预期，与最初的设想有较大差距。主要问题是在数据确认、数据定价、数据交易、流通机制设计等数据要素市场化方面存在诸多空白，容易触碰法律红线。根据《网络安全法》第四十二条规定，“网络运营者不得泄露、篡改、毁损其收集的个人信息或者向他人提供个人信息。但处理后无法确定具体个人，无法恢复。”从前面的分析可以发现，用户画像的前提是识别个人身份，否则，个人的用户画像在技术上是无法实现的。除了《网络安全法》中提到的个人数据的匿名性，还需要在数据的交易和共享中获得用户的授权和同意，这将大大增加企业数据合规的成本。因此，要促进外部数据采集通道的合规性，我们需要解决以下问题：
个人数据的匿名化(非去身份化)可以切断相关元素“人”。在个人信息匿名的情况下，完成用户画像(可用和不可见)；比如使用联邦学习、多方安全计算、差分隐私等方法。清晰的数据确认方案；企业低成本数据使用授权方式；建立健全数据定价和利益分配机制。
防止非法数据收集和过度数据收集。早期的用户数据分析侧重于业务数据，即通过过去的消费记录形成客户的消费画像。业务数据基本可以分析出客户对品牌、颜色、款式、价格承受能力等的偏好。但这些数据还不足以进一步挖掘客户的消费潜力。平台方通常需要更多的行为数据来捕捉客户具有时效性的冲动性需求。正因如此，平台方通过前述的cookies、Flash Cookies、Beacons、浏览器指纹、SDK等技术，在客户不知情的情况下，收集行为数据并进行分析，用于用户画像和精准营销。数据收集如图7所示：
图7:应用程序提供商的数据采集方法
在注册过程中，应用提供商获取用户的基础数据，然后通过唯一的IMEI(国际移动设备识别码)对设备进行授权(Mac地址用于确认局域网中的设备地址)，可以实现用户与基础数据的绑定，即帮助应用提供商确定数据来自哪个用户。之后通过获取更多的权限，比如摄像头、照片、通讯录、定位、应用列表等功能，读取用户的实时行为数据，这些行为数据由应用提供商收集，进行词云分析，分析用户的性格、爱好、各种生活偏好等。并对用户进行画像。随着数据的积累，在数字世界中形成了一个映射到物理世界的数字图形。对这个数字角色的控制，有一天通过仿真技术，数据持有者可以预测数字角色下一步的行走行为，同时引导物理世界中的用户完成他们想要的目的，这对于所有用户来说都将是一件危险的事情。近年来，一些手机终端公司提供了一种新的设备数据保护技术，——OAID(匿名设备标识符)，它使用虚拟ID代替原来的IMEI作为设备标识。OAID提供了一个随机的匿名身份，用来绑定各种应用的设备，使得设备能够正常运行，应用提供者无法识别具体的用户身份。但是，在这种模式下，仍然存在以下问题： OAID没有从根本上解决数据安全问题。虽然OAID可以有效解决用户数据的非授权收集问题，即使得应用提供商无法通过真实的终端设备识别码映射到特定的用户行为，但这种方法并不能完全解决数据安全问题，因为应用提供商仍然可以通过应用注册账号留下的个人信息来识别特定用户。关于注册信息的安全性，目前的解决方案比较复杂，通常使用虚拟手机号码或临时邮箱注册账户，频繁注册新账户来迷惑应用提供商。终端提供商收集数据的OAID虚拟身份无法避免集中组织。这种方式虽然可以防止应用提供商利用各种技术收集终端数据，但是终端提供商可以通过OAID映射到IMEI，控制权相当于从应用提供商转移到终端设备提供商，所以仍然存在数据泄露的风险。对于数据收集过多的问题，用户普遍表现出拒绝的态度，终端服务商也阻止各种应用通过OAID等技术收集用户信息。但是，随着互联网技术的进一步发展，我们将迎来一个与物理世界映射的数字世界，必然会有更多的数据从物理世界映射到数字世界。既然是大势所趋，我们要做的不是阻止数据被收集，而是更关注如何保护收集到的数据的安全，即一个用户的每一条数据只能在同一个场景下为自己服务，也就是在平台和用户之间形成一个闭环，如图5，避免数据流向第三方机构和非法机构。
个人隐私保护虽然用户画像提高了交易效率，降低了供给成本，但用户的隐私也受到其他机构或组织的控制，存在多种泄露风险，包括：一是企业通过第三方出售用户数据；二是员工窃取数据，通过非法渠道出售；第三，网络攻击者通过技术漏洞或窃取企业员工身份，获取系统中的用户数据。目前公司主要从道德层面致力于数据保护，但一位知名公众人士曾在公开场合表示，中国人愿意为了方便而牺牲自己的隐私。而央视对此的评论是：人们最怕的不是他说错了什么，而是科技巨头对用户的核心利益视而不见，成为一种脱口而出的真理。在数字时代，数据是原油，不仅可以促进经济发展，也是信息技术突破的重要燃料。如果一味强调对数据的保护，必将逐渐失去已经逐渐渗透到我们生活各个角落的便利和无限商机。不能因为要倒掉洗澡水就把孩子扔出去。隐私保护和经济发展不是二元对立的。目前的解决方案有区块链技术、数据匿名化、差分隐私、多方安全计算、矩阵变换等数据脱敏技术，都可以实现用户数据隐私。但这些技术的建设，不仅需要平台买单，也影响到平台现有的核心利益。因此，这类技术在当前市场上的实施非常缓慢。这种情况已经逐渐好转。比如最近滴滴打车、满满等互联网平台因为数据采集不合规被叫停的事件，对市场起到了很好的警示作用。

{{userData.name}}已认证

从用户画像实现角度看数据隐私问题|通用区块链行业研究

小孩眨眼睛抽鼻子怎么回事(小孩老是眨眼抽鼻子)

化装游戏，真人化妆小游戏