大数据时代保护隐私的另一方向:往大数据里投毒 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
billytv
V2EX    奇思妙想

大数据时代保护隐私的另一方向:往大数据里投毒

  •  1
     
  •   billytv 2021-01-29 11:13:15 +08:00 8543 次点击
    这是一个创建于 1746 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家都说在大数据下隐私都暴露无遗,各种 app 的广告精准投递,与其小心地防着,也许能换个方式向大数据里投毒?如爬虫一样,防守一方往数据里投假数据,混淆虚实,爬虫一方不小心就把假数据当成真,得到无效数据。

    简单实现方式:
    在已登录淘宝 /京东账号,搜索与自己兴趣毫无关联的产品,如玉石、茶叶等, 模拟长时间浏览 /加购物车 /咨询小二等操作。

    经过一轮操作,推荐页面已变得与个人兴趣不太相关,简单实现投毒。

    进一步投毒:
    所有厂商用于识别个人画像的东西,如手机型号,使用时间(半夜打开)、IP 与地理 (使用代理)、输入法、音频 (如真有偷听) 都可以进行投毒, 另一方面可以多人公用账号来混淆对个人精准识别 (但可能会有安全风险, 而且据说不少 app 能根据用户手指滑动习惯精准识别用户)

    自动化:
    利用 xposed/圈 x 等工具自动化操作,定时往 APP/sdk/各大广告联盟输送无效数据

    如果这个方式有效且落实得好,即使账号已经实名制,但各大厂拿到的个人画像已经变成模糊不清,营销变得毫无意义
    51 条回复    2021-02-04 11:10:42 +08:00
    kaiki
        1
    kaiki  
       2021-01-29 11:17:50 +08:00   1
    用魔法打败魔法还是挺难的,毕竟道高一尺魔高一丈。
    我在淘宝上搜索一个我之前从来没搜过的商品,直接让我滑验证码。
    如果大数据足够强大,通过对用户进行画像,剔除无关数据,那灌垃圾行为就可以被发现,退一步来说,现在已经画得差不多了,灌垃圾也不过是多加几笔罢了,影响不了大数据对你的真实信息的判断,除非你的在所有平台的数据无关联或无规律可循。
    arcadia
        2
    arcadia  
       2021-01-29 11:22:49 +08:00
    这个如果能实现,可能要系统化的帮你做一个假身份,模拟人每天都在产生大量的假行为。但是真做出来了,你使用各种 APP 的体验也都会差很多
    jr55475f112iz2tu
        3
    jr55475f112iz2tu  
       2021-01-29 11:24:14 +08:00
    主要是,太麻烦了..或者说门槛相对高,无法普及,无法大规模反制
    当然关心隐私的个人这么做是可以的,多一个人是一个人
    kaiki
        4
    kaiki  
       2021-01-29 11:27:16 +08:00   1
    @arcadia 其实没那么复杂,假身份太假更容易被拆穿,最主要的还是不同的 APP 身份隔离,让背后的数据收集无法归类为一个身份。
    billytv
        5
    billytv  
    OP
       2021-01-29 11:28:59 +08:00
    @kaiki 用户画像会随着时间而改变, 比如一个单身的人恋爱了, 他需要的东西跟之前完全不一样, 兴趣 /爱好这些也会慢慢产生变化, 至于判断垃圾数据的机制, 就跟爬虫与反爬一样, 是技术的较量, 没有说哪一方一定会赢, 试了才会知道
    kaiki
        6
    kaiki  
       2021-01-29 11:32:27 +08:00
    @billytv 变化一般是循序渐进的,就像我遇到的例子,突然搜索从来没搜过的东西他会让我验证,很明显就是发现了异常,同理灌垃圾这种行为也是会被检测到的,它可以先画,但是是否标记为有效数据,得再继续深入了。
    你这个想法在 V 站不是第一次出现,我认为单纯的无效数据很容易过滤,如果能创建有依据、连续的数据,更容易产生干扰效果。
    jiezhi
        7
    jiezhi  
       2021-01-29 11:34:14 +08:00
    以前也想过试图扰乱对手,只要我跑得步伐够乱,敌人就看不清我的方向。

    但最后应该是数据挖掘技术更强了。
    xiangyuecn
        8
    xiangyuecn  
       2021-01-29 11:36:42 +08:00
    深挖洞 广积粮 扔掉手机 剪断网线
    imn1
        9
    imn1  
       2021-01-29 11:42:29 +08:00   4
    前几天好像已经有一帖讨论过了

    很难,难点在于难以坚持
    信息鲜活度是个很重要的参数,技术上就是权重,近期的信息权重肯定更大,除非一直保持信息投毒这种操作,否则过一段时间,这个有毒信息鲜活度降低(权重减少),那么你的日常操作又重新占了主要的权重,没用

    #1 说的是另一方面,现在很多“追踪隐私”的操作,已经和账户联系相当紧密了,变成了风控的一个部分,如果进行大量自我数据污染,搞不好就是封号
    你可以试试切换多个 IP 访问 v2ex,先说一句,出问题我不担责,

    我现在用的是行为隔离的方案,但向别人推荐时,99.9%都嫌麻烦
    所以,“大部分人愿意用隐私换便利”,将成为今后几十年的一个恒久金句
    liulaomo
        10
    liulaomo  
       2021-01-29 11:54:21 +08:00
    可以利用浏览器插件来实现
    DAMNYOU
        11
    DAMNYOU  
       2021-01-29 11:56:34 +08:00
    真简单的方法就是用假身份证,反正画像再真实 你用的都是壳,随时可以抛弃。
    jasonyang9
        12
    jasonyang9  
       2021-01-29 11:59:27 +08:00
    必须有自动化工具,居家旅行必备。让它 Y 的去分析
    love
        13
    love  
       2021-01-29 12:09:39 +08:00 via Android   1
    典型的损人不利己,费了半天劲一顿操作对自己啥好处也得不到
    dswyzx
        14
    dswyzx  
       2021-01-29 12:11:41 +08:00 via iPhone
    画像不一定就必须每人一个画像,太过离谱的,比如年入千把天天浏览奢侈品的直接当垃圾数据过滤,然后取多数人的相似结果给你推怎么办
    Varobjs
        15
    Varobjs  
       2021-01-29 12:57:26 +08:00   2
    最简单就是不要实名,但你觉得现在不实名可能吗
    wangkun025
        16
    wangkun025  
       2021-01-29 13:01:42 +08:00
    支持你。
    hahastudio
        17
    hahastudio  
       2021-01-29 13:09:04 +08:00   1
    wolfie
        18
    wolfie  
       2021-01-29 13:16:00 +08:00
    本地数据文件、好友关系 算是大多数人更关注的隐私数据。
    广告还是那么些个广告,个人反而更希望推的质量高一些。
    remarrexxar
        19
    remarrexxar  
       2021-01-29 13:44:58 +08:00
    《上今日子的备忘录》里的一个故事,一个内向自闭的女中学生喜欢阅读却不想暴露自己的爱好,所以在旧书店买书的时候会故意混杂大量无关的书一起买。但是对于专业的书店店长来说时间一长依旧能分析出她喜欢什么书,店员后来依旧准确的推荐出了女孩喜欢类型的书。对于大数据分析也是一样的道理。
    recall704
        20
    recall704  
       2021-01-29 13:47:18 +08:00
    之前就干过,QQ 空间照片经常有提问

    “这是 xxx 吗?”

    我都点不是,
    HatMatrix
        21
    HatMatrix  
       2021-01-29 13:57:40 +08:00
    何必呢,反正数据都会被收集,为啥要给自己找麻烦且让自己的推荐列表看着恶心。
    winnerczwx
        22
    winnerczwx  
       2021-01-29 13:58:12 +08:00
    用如此繁琐的操作, 对抗的是各家大厂背后的精英团队(手动狗头
    AA5DE3F034ACCB9E
        23
    AA5DE3F034ACCB9E  
       2021-01-29 14:15:02 +08:00
    哈哈,很赞同
    littiefish
        24
    littiefish  
       2021-01-29 14:44:26 +08:00 via iPhone
    其实最简单的就是多人共用一个账号
    ReinerShir
        25
    ReinerShir  
       2021-01-29 14:49:10 +08:00
    @Varobjs 理论上可以公安部提供统一实名接口,企业只能拿到类似微信一样的 openid,这样用户实名信息就不会泄露,但是实际上却很难实现。
    ruixue
        26
    ruixue  
       2021-01-29 14:52:18 +08:00   1
    如果不需要实名,根本用不着这么麻烦,佛系一些,随它怎么精准画像,过个三年五年换个设备换个号码换个账号从头再来即可,那些画像画的是过去的我,弃用账号后又影响不了现在的我未来的我。。

    比方说我现在用 Firefox 的账号就是如此,随它怎么收集浏览活动,定期换个邮箱新注册账号就行了

    只可惜现在国内服务动辄要求绑定身份证,用户隐私画像和个人身份便实现了永久强关联,就算换设备换号码,注销账号再注册新的也白搭,身份证号一输以前的黑历史通通重新关联回来,永远无法摆脱。。毕竟身份证是最强的精准定位自然人的手段,就算搬家改名整容,身份证号仍会伴随一生~

    之前美团收购了摩拜,新注册美团会直接调用摩拜的身份证数据,要求用户验证号码的实名信息。。所以不要觉得各个账号之间身份隔离就万事大吉了,今后各家数据互通的情况可能会越来越多,也越来越容易,反正拿身份证号做主键,各家都一样,都不需要转换的~
    murmur
        27
    murmur  
       2021-01-29 14:56:55 +08:00
    投毒是很危险的,你操纵价格这些数据最多劝退一些客户,新闻类网站如果是敢返回违法内容直接自己没了,用户可能看不见代码扫描会看到啊,人家可不管你是能看见还是看不见的
    KennyMcCormick
        28
    KennyMcCormick  
       2021-01-29 15:24:20 +08:00
    此时此刻正在淘宝和京东搜客户的产品,这也算投毒吧?
    mxT52CRuqR6o5
        29
    mxT52CRuqR6o5  
       2021-01-29 15:27:04 +08:00
    没啥用,你付没付钱淘宝京东还不知道吗
    sillydaddy
        30
    sillydaddy  
       2021-01-29 16:23:28 +08:00
    @ruixue #26, >“如果不需要实名,根本用不着这么麻烦,佛系一些,随它怎么精准画像,过个三年五年换个设备换个号码换个账号从头再来即可,那些画像画的是过去的我,弃用账号后又影响不了现在的我未来的我”

    即使不实名,画像的话,也是能识别出不同的账号对应同一个人的。

    “用户的浏览历史是独一无二的,可作为指纹使用”,https://www.solidot.org/story?sid=65389
    “测一下你的浏览器有唯一的指纹吗”,https://amiunique.org/fp

    另外还有“ip 地址”,“浏览器 cookie”,“移动设备信息”,“移动设备内的文件”,“行文风格分析”。。。

    想要唯一对应一个人,太容易了。中本聪就是活生生的例子啊。
    ruixue
        31
    ruixue  
       2021-01-29 17:02:25 +08:00
    @sillydaddy 嗯,是这样的,现在用来画像的技术手段层出不穷,防不胜防。不过之前说过,如果换了设备换了号码,浏览历史、浏览器指纹、浏览器 cookie 、移动设备信息、移动设备内的文件也相当于推倒重来了,这方面倒是不必太担心。现在基本都是动态 ip,想只通过 ip 地址对应唯一的人也不容易。至于行文风格分析,以及类似的行为习惯分析,这个确实难解,不过这种分析都有一定的误判率,根据贝叶斯定理,除非把误判率降低到一个相当小的程度,否则想只凭这个就确保精准是不可能的~

    说来说去归根到底还是成本的问题,实名绑定身份证号了,平台根本不用付出什么成本就能轻易地关联和该身份 ID 绑定的所有隐私画像,用户想一定程度避免,就需要挖空心思搞各种奇技淫巧;而不实名的话,只要用户稍微做一些技术处理,平台想确定唯一的身份需要付出的成本会大幅提高。资本都是逐利的,如果为了精准画像付出的成本还不够精准画像带来的收益的话,对于普通人来说也没必要过分担心了,省下精力做自己喜欢的事不也挺好~
    felixcode
        32
    felixcode  
       2021-01-29 17:06:21 +08:00
    买东西前先花三个小时给各网站投一下毒?
    Leonard
        33
    Leonard  
       2021-01-29 17:07:23 +08:00
    这么干也太累了吧
    ScepterZ
        34
    ScepterZ  
       2021-01-29 17:08:34 +08:00
    感觉至少淘宝推送的东西还挺好的,我可能就是李彦宏说的那种愿意隐私换便利吧
    liujialongstar
        35
    liujialongstar  
       2021-01-29 17:11:11 +08:00
    投毒不会让 app 不推送信息, 只会让 app 推送些莫名奇妙的东西, 最终恶心的还是自己
    helionzzz
        36
    helionzzz  
       2021-01-29 17:13:05 +08:00
    你要是一个朋友亲戚都没有平时不跟任何人联系 这事还有那么点实现的可能。你的信息一大半都是你的社交圈泄露的,请问你怎么防
    taobibi
        37
    taobibi  
       2021-01-29 23:14:28 +08:00
    扰乱的难度一方面在于你身边的人,你把信息保存的好好的,然后你的亲戚朋友同事老板把你的姓名电话都分享给了 app 。
    难点 2 是把你微信支付宝一封,直接 gg,然后呢,想要解封,身份证,银行卡,人脸全交出去了。目前封号微信的杀伤力远大于征信黑名单。
    gmm
        38
    gmm  
       2021-01-29 23:39:17 +08:00
    减少使用有这类软件吧。
    medivhs
        39
    medivhs  
       2021-01-30 07:47:43 +08:00 via iPhone
    懂了,这就去搜女装
    wolong
        40
    wolong  
       2021-01-30 11:30:19 +08:00
    我觉得没有用,我的淘宝号时不时会被女同事拿来下单购买一些母婴用品(有些商家搞活动,一个号只能下一单)。即使是我实打实的付款下单购买了这些商品(大概买了 4-5 次吧),淘宝也从来没有给我推荐过这些商品,就更别说靠只浏览不下单来污染人家的数据了。
    再说了,商家精准推送广告,对消费者来说未必是坏事,反正人家都要推广告的。能推到自己有兴趣的商品总比推一些莫名其妙的商品要好。
    devfeng
        41
    devfeng  
       2021-01-30 15:27:18 +08:00 via Android
    所以降低推荐匹配度的目的是啥,我一脸懵逼
    systemcall
        42
    systemcall  
       2021-01-30 15:41:06 +08:00
    没有多少意义的
    可以用 sfz 号之类的直接关联到你的实际信息。你总不可能往银行、gov dept 、工作单位那边的数据库里面投毒吧
    而且觉得你的行为可疑的情况下是会调高人机验证的频率的。对待黑产的招数,用来对待一个只有一套 profile 的普通人,再容易不过了
    大部分推荐系统本来也就是一些兔子洞,你尝试进入几个兔子洞,平台那边自然会怀疑
    terencelau
        43
    terencelau  
       2021-01-30 19:13:41 +08:00
    outlier 要多久才能被系统接受
    GreatFinger
        44
    GreatFinger  
       2021-01-31 01:32:40 +08:00 via Android
    我们说大数据下隐私暴露无遗,还轮不到你的行为兴趣画像吧,最怕的难道不是各种平台存有你的姓名身份证邮箱手机地址通讯录,购物订单列表,帐号密码等,在不知道哪些环节泄露了,然后暴露无遗嘛,这点画像,就让他画呗。与其投毒,不如多用搜索,少看个性化推荐信息流。
    yujiang
        45
    yujiang  
       2021-01-31 22:02:40 +08:00
    不如找个代购买东西然后现金 /转账来得实在,大数据的一切都基于互联网,离开网络大数据就不管用了
    no1xsyzy
        46
    no1xsyzy  
       2021-02-01 03:07:23 +08:00
    想来我的操作一直就是在投毒
    脑洞太大,总是搜索些奇奇怪怪的东西,并且脑洞大到搜索不出来
    pcatzj
        47
    pcatzj  
       2021-02-01 15:42:23 +08:00
    首先,如果你的这个投毒做不到全民应用,那么营销就一直会有意义;
    其次,即使你的人物画像模糊,厂商也不会放过你,只是推送的广告或产品不再是你感兴趣的,于厂商无碍,于你反而看到的都是自己不感兴趣的信息;
    再次,屠龙者终将成为恶龙,即使你有一天做到了全民,在与厂商你来我往的技术对决中,解决方案商(假如就是你)也一定会主动收集用户使用和生活习惯的大数据来做厂商的反识毒。
    (见解未必深刻,只做一刻消遣)
    booho
        48
    booho  
       2021-02-02 12:40:07 +08:00
    想到拿一大堆手机打开地图软件,然后不移动,制造假拥堵
    rogwan
        49
    rogwan  
       2021-02-02 13:55:50 +08:00 via Android
    这个很难“伪装”,你的支付记录暴露了一切真实行为。
    firefox12
        50
    firefox12  
       2021-02-03 17:47:59 +08:00
    哈哈 我 3 年前就实施过了, 当时写了一个项目

    用的 python + selenium, 先登录 你的淘宝 京东,然后 用一个 输入法 作为随机内容,不停搜索, 随机点击几下。

    效果还行, 现在手机了 就没做了, 我想做个用 物理操作 模拟的 或者利用 Ai 来模拟的, 可惜 AI 不会。
    sharkwan
        51
    sharkwan  
       2021-02-04 11:10:42 +08:00
    比如网上收集很多的健康码。每天全部扫一下。他是不是就不知道我在哪了???
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3823 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 10:18 PVG 18:18 LAX 02:18 JFK 05:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86