我把我和我老婆从认识到现在的聊天记录跑了个词云出来 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Dogergo
V2EX    分享创造

我把我和我老婆从认识到现在的聊天记录跑了个词云出来

  Dogergo 2023-12-13 10:28:04 +08:00 26305 次点击
这是一个创建于 716 天前的主题,其中的信息可能已经有所发展或是发生改变。

得益于开源项目:

https://github.com/LC044/WeChatMsg 

现在导出微信聊天记录已经是一件相当简单的事情了。但是这个项目跑出的词云好像有点问题,好像聊天记录不完整一样。所以我去找了可以读取 SQLite 的软件,读了他解码出来的数据库文件。

执行 SQL:

-- MicroMsg.db 文件中的 Contact 表存的用户信息,先根据备注查微信 ID SELECT UserName FROM Contact WHERE Remark=? -- Msg.db 中的 MSG 表存的历史聊天记录 SELECT StrContent, localId, datetime(CreateTime, "unixepoch", "localtime") as CreateTime FROM MSG WHERE StrTalker = ? AND Type = 1 AND StrContent NOT like "%[%" ORDER by CreateTime asc 

然后发现数据是全量的,但是词云不准确,不知道什么原因。迫于不想读源码,直接找了个词云工具,重新生成。

感谢开源项目:

https://github.com/fuqiuai/wordCloud https://github.com/silsuer/wordcloud 

上图

1 2 3 4 5

教程

一键提取微信聊天记录,生成 HTML 、Word 文档永久保存,还能生成微信年度聊天报告

微信聊天记录只是备份就太无聊了,一键生成属于自己的词云图,让我们玩点有意思的

注意事项

所用到的工具被我放在公众号里了,如果有兄弟感觉被冒犯,那对此我感到抱歉,请联系站长帮我移动到推广节点。

第 1 条附言    2023-12-13 11:04:16 +08:00

赶紧出来解释一下: 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂!

此外,公众号在教程的链接里,这里也放一个图片吧,那就。 1

123 条回复    2023-12-19 10:45:41 +08:00
1  2  
sunny352787
    1
sunny352787  
   2023-12-13 10:30:21 +08:00   69
MD ,路过还能被电子脚踹一下...
YaD2x
    2
YaD2x  
   2023-12-13 10:34:36 +08:00   4
方法学会了,请问老婆哪里找?
AFOX
    3
AFOX  
   2023-12-13 10:35:13 +08:00 via Android   3
shit ,单身狗看不得这个,但是创意很好
littleJohn
    4
littleJohn  
   2023-12-13 10:43:29 +08:00
省流:老公 老婆 老板 哈哈哈
pianjiao
    5
pianjiao  
   2023-12-13 10:43:46 +08:00
图碎了。 公众号在哪儿
proxychains
    6
proxychains  
   2023-12-13 10:43:51 +08:00
单身喵看不得这些
cheava
    7
cheava  
   2023-12-13 10:45:43 +08:00   7
第一张图右臂部分有点意思
vagusss
    8
vagusss  
   2023-12-13 10:46:53 +08:00
不错
Tumblr
    9
Tumblr  
   2023-12-13 10:47:16 +08:00   58
第一眼这是看到了什么不干净的内容啊!!!
webjourneyer
    10
webjourneyer  
   2023-12-13 10:47:39 +08:00
这个有点意思
murmur
    11
murmur  
   2023-12-13 10:55:03 +08:00   1
我想那个了
吃了

来!
在一起

jonahtan
    12
jonahtan  
   2023-12-13 10:57:22 +08:00
有点意思
zfyime
    13
zfyime  
   2023-12-13 10:58:56 +08:00   1
只看到了 老婆 老公 想要 给我
dddd1919
    14
dddd1919  
   2023-12-13 10:59:48 +08:00
老婆 你 没有 这个
miemie666
    15
miemie666  
   2023-12-13 11:02:52 +08:00   3
闭眼都知道要歪楼了
graetdk
    16
graetdk  
   2023-12-13 11:03:38 +08:00
下一步,可以训练一个聊天 bot 了,可以用我们的这个服务: https://www.modihand.com/
我自己的例子: https://ai.greatdk.com/
Dogergo
    17
Dogergo  
OP
   2023-12-13 11:05:16 +08:00
@YaD2x 啊,你们村没发吗,我们都是过年回去发的
Dogergo
    18
Dogergo  
OP
   2023-12-13 11:07:00 +08:00
@AFOX 学会了就能撩妹了,先存一下,等着给她惊喜
Dogergo
    19
Dogergo  
OP
   2023-12-13 11:07:17 +08:00
@pianjiao append 进来了
Dogergo
    20
Dogergo  
OP
   2023-12-13 11:07:48 +08:00
@Tumblr 我裂开,这些词怎么会出现在一起的
Dogergo
    21
Dogergo  
OP
   2023-12-13 11:08:09 +08:00
@murmur 我没有,我不是,别瞎说
Dogergo
    22
Dogergo  
OP
   2023-12-13 11:09:06 +08:00
@zfy941 假装没看见就好了,也许我生成词云的时候应该屏蔽这些词
Dogergo
    23
Dogergo  
OP
   2023-12-13 11:09:55 +08:00
@graetdk 登科大佬,好的,会看一下,生成数字人的自己
jonahtan
    24
jonahtan  
   2023-12-13 11:11:18 +08:00
not support for macOS base on apple chip
劝退
Tumblr
    25
Tumblr  
   2023-12-13 11:12:48 +08:00
@cheava #7 你是咋知道小姑娘是背对你还是面对你的。
ryan961
    26
ryan961  
   2023-12-13 11:16:48 +08:00
单身狗手贱点进来了,你可真该死呀
billzhuang
    27
billzhuang  
   2023-12-13 11:24:38 +08:00
hahhahahahahahahahhahaha
goddamhucker
    28
goddamhucker  
   2023-12-13 11:25:14 +08:00
鼠人看不得这些
JARKECHONG
    29
JARKECHONG  
   2023-12-13 11:30:09 +08:00
Tezos
    30
Tezos  
   2023-12-13 11:32:53 +08:00
emmmmmmm
angenin
    31
angenin  
   2023-12-13 11:44:54 +08:00
买菜必涨价!!!
RobertLyu
    32
RobertLyu  
   2023-12-13 11:48:12 +08:00
行了,我知道你们很恩爱了,带着我的祝福快快离开吧。
MRG0
    33
MRG0  
   2023-12-13 11:48:27 +08:00
qq 能实现吗,好像有消息漫游,比较狗屎
Donahue
    34
Donahue  
   2023-12-13 11:53:49 +08:00
核凸 报警!!!
wqhui
    35
wqhui  
   2023-12-13 11:54:24 +08:00
特意切个代理看图
itianjing
    36
itianjing  
   2023-12-13 12:01:50 +08:00
两年前求婚的时候也搞了这个,导出微信聊天记录废了好大的劲
stardew
    37
stardew  
   2023-12-13 12:03:37 +08:00
@Tumblr #9 哈哈哈哈哈哈哈哈
DAGU1182810784
    38
DAGU1182810784  
   2023-12-13 12:08:57 +08:00
哥们儿不拿咱们当外人儿啊
Hyschtaxjh
    39
Hyschtaxjh  
   2023-12-13 12:26:48 +08:00
停用词过滤一下噢
szyp
    40
szyp  
   2023-12-13 12:59:58 +08:00
https://github.com/myth984/wechat-report 两年前用过一个类似的
foreverpp50
    41
foreverpp50  
   2023-12-13 13:27:41 +08:00
为什么聊天记录不用蓝奏云啊,阿里云盘还要登录才能下载
Dogergo
    42
Dogergo  
OP
   2023-12-13 13:34:11 +08:00
@foreverpp50 蓝奏云不让我放 exe
jethroX
    43
jethroX  
   2023-12-13 13:35:19 +08:00
我的全险半挂灯好像不亮了,能不能请你帮我去看一下?
foreverpp50
    44
foreverpp50  
   2023-12-13 13:36:15 +08:00
@Dogergo 打包放不行吗
Dogergo
    45
Dogergo  
OP
   2023-12-13 13:37:01 +08:00
@foreverpp50 可以去[github]( https://github.com/LC044/WeChatMsg)的 release 里下载,我回头想办法看看压缩了能不能把地址改一下
Dogergo
    46
Dogergo  
OP
   2023-12-13 13:37:59 +08:00
@jethroX 你小子要创死我是吧
0xGnaixEuy
    47
0xGnaixEuy  
   2023-12-13 13:41:04 +08:00 via iPhone
酷酷酷
pianjiao
    48
pianjiao  
   2023-12-13 13:42:00 +08:00
看不见图 ,也不知道什么鬼
456789
    49
456789  
   2023-12-13 13:49:44 +08:00 via Android
老公 老婆 我想 那个 嚯哈哈哈哈哈,呵 tui
Dogergo
    50
Dogergo  
OP
   2023-12-13 13:50:30 +08:00
@foreverpp50 good ,感谢提供,已经放上了蓝奏云的地址
Dogergo
    51
Dogergo  
OP
   2023-12-13 13:51:38 +08:00
@pianjiaohttps://imgur.com 图床的图,看不到的话你可以点教程里那个词云的连接,我在微信推文里也有放这个图
Dogergo
    52
Dogergo  
OP
   2023-12-13 13:52:58 +08:00
@MRG0 不知道 QQ 怎么存的,没研究,你可以上 github 上搜一下
mh
    53
mh  
   2023-12-13 13:56:45 +08:00
两年前看到过类似的帖子,当时我也弄了一下,还挺费劲的哈哈
cat9life
    54
cat9life  
   2023-12-13 14:00:10 +08:00
这个有点意思 就是聊天记录不全了
cat9life
    55
cat9life  
   2023-12-13 14:01:05 +08:00
@graetdk #16 请教可以使用 chatgpt 微调来训练吗?你的那个看起来不太聪明 哈哈
assiadamo
    56
assiadamo  
   2023-12-13 14:07:47 +08:00
老婆我嗯了?
idealhs
    57
idealhs  
   2023-12-13 14:24:20 +08:00
我想那个了
shm7
    58
shm7  
   2023-12-13 14:25:32 +08:00
词云本身有开源的库,问题是你想从聊天记录提取些什么。
一般商业要提取一些关键词,你这都是 老婆我... ;)
palxie
    59
palxie  
   2023-12-13 14:30:32 +08:00
我想那个了 真的一眼就看到
moeik
    60
moeik  
   2023-12-13 14:30:52 +08:00
op 你好 我发现教程有断层啊,聊天记录解密了 导出为?,在词云加载过程中选的聊天记录是怎样的格式?
Dogergo
    61
Dogergo  
OP
   2023-12-13 14:41:52 +08:00
@moeik
1.不用导出,解密完成之后`MemoTrace-0.2.7.exe`这个软件所在目录下会生成`app`->`dataBase`->`msg`文件夹,里边都是以.db 结尾的 Sqlite 数据库文件,把`MSG.db`和`MicroMsg.db`
2.把这两个 db 文件复制一下粘贴到词云软件解压出来的文件夹下的`db`文件夹里,然后运行词云软件就好了。可以看我生成词云那篇文章底部是有视频教程的
Martens
    62
Martens  
   2023-12-13 14:42:02 +08:00
支持语音吗?聊天记录有很多语音
Rorysky
    63
Rorysky  
   2023-12-13 14:44:44 +08:00
建议把 无法单独成语素的语气词过滤掉
Dogergo
    64
Dogergo  
OP
   2023-12-13 14:45:57 +08:00
@shm7 感谢你的建议,这是我的下一步计划。根据词频设计出对应的年终报告。我现在只是简单看一下。
clifftts
    65
clifftts  
   2023-12-13 14:49:16 +08:00
我为什么会被这个帖子强行拉进来,吃一波狗粮,wtf
Dogergo
    66
Dogergo  
OP
   2023-12-13 14:53:48 +08:00
@Martens 这个要去看开源项目`https://github.com/SuxueCode/WechatBakTool`这个项目目前是已经实现了解密语音
Dogergo
    67
Dogergo  
OP
   2023-12-13 14:54:58 +08:00
@Rorysky 嗯嗯,吃了没经验的亏,python 代码都是通过 pua gpt4 写出来的,感谢建议
dsggnbsp
    68
dsggnbsp  
   2023-12-13 15:19:29 +08:00
省流:我 你 啊
KimiArthur
    69
KimiArthur  
   2023-12-13 15:22:57 +08:00 via Android
导出简单吗?有没稍微详细点的原理解释?
echoyangjx
    70
echoyangjx  
   2023-12-13 15:27:41 +08:00 via Android
逛 v2 还能吃狗粮
liqingyou2093
    71
liqingyou2093  
   2023-12-13 15:29:15 +08:00
省流: 我想那个了
lele140
    72
lele140  
   2023-12-13 15:37:53 +08:00
怎么屏蔽调一些语气助词,比如:啊,吧,哦
spaceman
    73
spaceman  
   2023-12-13 15:40:26 +08:00
很酷,但是我看到了一句:“我想那个了。”
Dogergo
    74
Dogergo  
OP
   2023-12-13 15:56:26 +08:00
@lele140 代码本身是支持屏蔽词的,我晚上回去打包个支持屏蔽词的版本吧
Dogergo
    75
Dogergo  
OP
   2023-12-13 16:00:31 +08:00
@KimiArthur 原理复杂,操作简单。这和搞开发是一样的,尽可能降低用户侧的学习成本。要研究原理的话,可以去参考`https://mp.weixin.qq.com/s/4DbXOS5jDjJzM2PN0Mp2JA`
aitianci
    76
aitianci  
   2023-12-13 16:41:06 +08:00
豆沙了豆沙了
StoneHuLu
    77
StoneHuLu  
   2023-12-13 16:54:33 +08:00
有没有 qq 聊天记录的,我和我老婆都不用微信的
lixiangyang9b319
    78
lixiangyang9b319  
   2023-12-13 16:57:43 +08:00 via iPhone
牛逼,感谢哦大哥
MilkShake
    79
MilkShake  
   2023-12-13 17:24:59 +08:00
从聊天记录,看到了很多开车的记录。
iv2ex
    80
iv2ex  
   2023-12-13 17:25:36 +08:00
好像没有 macos 的?
Dogergo
    81
Dogergo  
OP
   2023-12-13 17:35:31 +08:00
@iv2ex 是的,目前 Macos 无法支持
Dogergo
    82
Dogergo  
OP
   2023-12-13 17:36:31 +08:00
@aitianci 摸头,每个人都会有甜甜的恋爱的
Yasuke
    83
Yasuke  
   2023-12-13 18:05:50 +08:00
可以统计群聊的记录吗?(化身产品经理
kakki
    84
kakki  
   2023-12-13 18:17:00 +08:00
还好没看到 dirty talk
kumastudio
    85
kumastudio  
   2023-12-13 18:34:07 +08:00
赛博狗粮
jr55475f112iz2tu
    86
jr55475f112iz2tu  
   2023-12-13 18:50:18 +08:00 via Android
其实在 LLM 出来之后,分词这类中文 NLP 特有的中间过程已经变得没那么必要了…
Loserzhu
    87
Loserzhu  
   2023-12-13 19:34:51 +08:00
我不吃牛肉(掏枪
edinina
    88
edinina  
   2023-12-13 19:36:53 +08:00
给我都看兴奋了
AsyncX
    89
AsyncX  
   2023-12-13 19:44:43 +08:00   2
我们也是你们 play 的一环吗
ovtfkw
    90
ovtfkw  
   2023-12-13 19:55:45 +08:00
mac 微信不可以吗
bao3
    91
bao3  
   2023-12-13 20:22:46 +08:00
Geekm 的浪漫。
跳一下 tone:我和我老婆的聊天记录,全是性相关的,还聊到过我想上她姐……
hertzry
    92
hertzry  
   2023-12-13 20:27:50 +08:00
分词之后可以手动去掉一下没用的东西,然后再画图。
Dogergo
    93
Dogergo  
OP
   2023-12-13 21:12:17 +08:00
@maokg 可以的,但是我没分析,你可以从 Msg.db 文件里找一找,看一下群聊名称对应的微信 ID
ChicC
    94
ChicC  
   2023-12-13 23:42:37 +08:00
只看到了 老婆 老公 想要 给我
ttyhtg
    95
ttyhtg  
   2023-12-14 00:22:05 +08:00 via Android   1
作为单身狗我居然敢点开,还是祝福楼主
programMrxu
    96
programMrxu  
   2023-12-14 08:39:57 +08:00   1
祝福楼主了
mingring
    97
mingring  
   2023-12-14 08:43:43 +08:00
我跑出来怕都是敏感词
beijiaoff
    98
beijiaoff  
   2023-12-14 09:00:08 +08:00
我用的飞书文档的多维表格,可以自动生成词云。
Dogergo
    99
Dogergo  
OP
   2023-12-14 09:04:31 +08:00
@ttyhtg 感谢您的友善,啊 Sir
Dogergo
    100
Dogergo  
OP
   2023-12-14 09:07:05 +08:00
@bao3 真不把兄弟们当外人儿啊,你这个有点逆天的
1  2  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1377 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 38ms UTC 16:50 PVG 00:50 LAX 08:50 JFK 11:50
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86