
目标是挖掘小说里的各种角色、剧情关系,在此基础上提供内容搜索,以及小说评点服务。 不过这些还太远了,目前只简单提取了人物关系链。

https://www.boyunso.com/book/61872
这个是选了较好的结果,大部分情况下错漏还有点明显。
1 yongzhong 2017 年 4 月 24 日 通过词频来判断是否是人名吗?关系是通过介词? |
2 jyf 2017 年 4 月 24 日 不知道这个提取规则是什么 如何人肉去校验? |
3 hydyy 2017 年 4 月 24 日 不错不错 |
4 enenaaa OP |
5 isvara 2017 年 4 月 24 日 用的什么处理的? |
6 lrxiao 2017 年 4 月 24 日 有意思 |
7 jyf 2017 年 4 月 24 日 我主要是指第二种分析 因为句式很多 也未必是 xxx 说道这种 而你也不可能全列出来 所以我很感兴趣怎么自动弄出这种句式 另外有的说到 未必是有关系 大概你现在的人与人的关系就是 A 提到过 B 这样吧? |
8 Jackeriss 2017 年 4 月 24 日 怎么解决一个人物有多个名字的问题呢?比如伏地魔又叫神秘人,其实原名是汤姆里德尔。这种情况,这个人物关系图会把他们当成不同的人吧? |
9 hotStrip 2017 年 4 月 24 日 我觉得以后程序批量输出小说的话,马上就可以输出天蚕土豆和唐家三少这类小说。 |
10 no13bus 2017 年 4 月 24 日 这个用的是啥 js 库呢 |
11 enenaaa OP 2017 年 4 月 24 日 @jyf @isvara 基于上下文的关系推断,我做得不够深入,思路大体是: 1 、在段内推断主语,宾语。例如:宁江提着宝剑,跑了过来,笑道: xxx 。 这 3 个分句的主语是同一个。 2 、通过关系代词筛选段落。例如:宁小梦挽着哥哥的手臂。这个句子存在推断关系的可能。 3 、在 1 和 2 的基础上,检索附近文本中的主语、宾语和特定语义, 判断出是否存在关系。 可以看到,这个方法有准确性的问题。 另外, 分析的前一步, 是分词和语义格式化。 我首先创建词汇表、句法表、语义表,将句子格式化为已知语义的句法结构。 例如:你好 -> 招呼语义。 妹妹打我->主语是妹妹,谓语是打,宾语是我的指向动作语义。 这个方式当然不能识别所有的句子, 对于一般的小说文本,目前识别率在 5%~10%之间。 |
14 imn1 2017 年 4 月 24 日 无论准确率如何,我都觉得这个项目很有意思 无论这个项目多有意思,我还是持怀疑态度看待 其实, 人与人之间的关系是相当复杂的,很多不能用语言文字描述 但是,当人们以语言文字介绍一些关系时,却是用简化的方式介绍,实际分类很少,看看自己的 SNS 分组就知道,不至于有几百个组别吧? 你可以从这个思路着眼,不要只想着“提取”,也可以用“排除”,从粗分类排除,再按细分类排除,加强准确率 需要很多逻辑判断,几乎是一个语义分析的 AI bot 了,语义逻辑库应该是重点 例如: 男性-->亲戚-->母亲家族-->长辈-->母亲的平辈-->舅舅 男性-->工作-->长辈-->经理-->上司 另外 1.还要用多因素分析,如上面引入其他人(母亲)的关系辅助 2.多重关系,如家族生意,既是亲戚,也是工作关系等等 3.关系是双向的,例如逻辑出现“舅舅”,当然要同时得到“外甥”,不能单向推导 总的来说,相当难,不过这第一个吃螃蟹,我是持支持态度,希望能持久做下去 |
15 lcatt 2017 年 4 月 24 日 目前检索速度很快,是只读取了一部分文字么? |
16 graetdk 2017 年 4 月 24 日 赞啊,我对这个也很感兴趣,可以加我微信: Z3JlYXRkaw== (Base64 编码) |
17 enenaaa OP @lcatt 不是文本检索,而是通过关键字检索。 分析时生成人名、归类新词,输出关键字列表。在我机器上, 分析一本 2.5m 的小说大约需要 10 秒, 比较慢。 |
18 lcatt 2017 年 4 月 24 日 @enenaaa 我试了下,发现: 1.有些重要的角色没检索出, 2.出现了一些莫名的角色和关联,比如“马背上”。。。,以及很多只出现了几章的配角,所以才问是不是只读取了一部分内容而不是基于全本小说的。 |
19 enenaaa OP @lcatt 嗯, 是只分析了前 250 章的内容。 人名消歧也还存在问题,上一个版本纯粹的归类算法更严重, 这个版本好了不少 。还在改进中。 |
21 solobat 2017 年 4 月 24 日 收藏了,希望越来越好 |
23 xiubin 2017 年 4 月 24 日 择天记 中 苟寒食和荀梅 是怎么发生关系的? https://www.boyunso.com/book/103392 |
24 zzk819166453 2017 年 4 月 24 日 via Android 很有意思 |
26 hzwei 2017 年 4 月 24 日 哈哈哈,很有意思 |
27 artandlol 2017 年 4 月 25 日 via Android 这个不错 红楼梦 百年孤独 家春秋 。。。 |
28 WildCat 2017 年 4 月 25 日 不错,赞一个! |
29 yuluofanchen 2017 年 4 月 25 日 via iPhone 记得有类似的,是读的三国。然后做成网站了。 |
30 hythyt9898 2017 年 4 月 25 日 试了下《大主宰》《天神诀》,貌似女主都识别不出来 |
31 ahkxhyl 2017 年 4 月 25 日 https://www.boyunso.com/book/27817 貌似不太准吧? 关键词 大主宰 |
32 ahkxhyl 2017 年 4 月 25 日 https://www.boyunso.com/book/205797 圣墟 就更不准了 |
33 Rice 2017 年 4 月 25 日 有些意思,但是不准 |
34 Troevil 2017 年 4 月 25 日 想想那些反转剧,角色身份变换的.... 醉了 |
36 RUstKkin 2017 年 4 月 25 日 wordvector 有用吗 |
37 RUstKkin 2017 年 4 月 25 日 避孕套头像。。。 |
38 demo 2017 年 4 月 25 日 看了一下,是只取了前面部分章节。 |
40 ifaii 2017 年 4 月 25 日 via iPhone 这个有意思 |
41 SingeeKing PRO |
42 vh2h 2017 年 4 月 25 日 准不准是另外一个事儿~ 歪个楼~ 推荐下你喜欢的网络小说。谢谢 |