
1 OhYee 2019-09-27 00:40:00 +08:00 via Android 直接用大学或者学院把字符串分开就行吧,应该所有学校都是这俩词结尾吧 |
2 RicardoY 2019-09-27 00:41:09 +08:00 via Android 绝大部分学校按照大学和学院截断就可以解决问题了吧..截断以后查一下 hashset 确认一下是不是一个合法的解 |
3 Enya 2019-09-27 00:44:47 +08:00 via iPhone 先截学院,后截大学。 因为会有类似北京航空航天大学大学北海学院这种存在。 |
4 lihongming 2019-09-27 00:52:27 +08:00 via iPhone 用 SVM 吧,万一有很多不按规则说话的呢? |
5 axwz88 OP |
6 Yourshell 2019-09-27 01:06:40 +08:00 via iPhone 想匹配不规则字符串的话只有 ml 之类的了 |
7 aguesuka 2019-09-27 01:10:26 +08:00 via Android 所有大学,塞一个 trietree 里面,先匹配大学,后面的就是专业课。嫌麻烦可以用 treemap |
8 AX5N 2019-09-27 02:52:35 +08:00 2000 个学校不算多,我觉得直接预先把所有学校拉出来最好。 |
9 39Sc06lk7Khhc4qV 2019-09-27 03:13:48 +08:00 via Android 想起《数学之美》中 Google 地图关于地址信息的解析,这应该算是一种比较简单的上下文有关文法,Google 的做法是用自动机来进行 街道->地区->城市->州 的各个部分的匹配,感觉思路可能比较接近 |
10 littlecap 2019-09-27 05:51:29 +08:00 先下载一个高校库,然后匹配一下就好了。如果需要我可以发给你。 |
11 mcorley 2019-09-27 08:52:21 +08:00 excel 导出,分列,剩下几十个特殊的手动一下就好了 |
12 nevin47 2019-09-27 08:55:56 +08:00 via Android 我要把这个帖子转给我的同事哈哈哈哈。 自从我司开始考试,我就天天听到一个论调就是考算法的东西完全没用终于发现一个实际问题了 这个问题如果不用数据库的话,绝对用 hash 最快啊,逐一阶段,然后去 hash 里面比对,就立刻找到属于哪个学校了 |
13 passerbytiny 2019-09-27 09:01:43 +08:00 人是怎么处理的,程序就怎么处理,以下为自动化层次逐步增高的几种方式: 逐条手工识别和拆分 ↓ 按已知规则自动拆分,然后人工逐条审核和纠正 ↓ 同上,每次审核后再将新发现的规则融合到拆分规则中(已初步是 AI ) ↓ 上一层次执行多次后,将审核、融合新规则也弄成程序自动处理(已是 AI 或者人工智障) |
14 passerbytiny /div> 2019-09-27 09:06:32 +08:00 @nevin47 #11 hash 还能部分匹配原文? |
15 zenan9001 2019-09-27 09:06:42 +08:00 先考虑通用情况,把"大学"作为截断关键字,再考虑特殊情况,括号什么的比较少,可以特殊处理 |
16 no1xsyzy 2019-09-27 09:10:57 +08:00 |
17 dog82 2019-09-27 09:11:16 +08:00 先粗匹配学校,然后人肉修正一遍,专业的名字用正则就行 |
19 no1xsyzy 2019-09-27 09:13:19 +08:00 |
20 LeeSeoung 2019-09-27 09:24:28 +08:00 正则。。 |
21 muxixi 2019-09-27 11:35:49 +08:00 都是 学校+院系的组合 先排序 按前几个字符分组,然后随便算算相同的前缀,找出学校名,然后院系就出来了。 |
22 LudwigWS 2019-09-27 11:46:01 +08:00 V 站各路大神啊 |
23 MaiKuraki 2019-09-27 12:17:57 +08:00 正则表达式? |
24 wysnylc 2019-09-27 12:21:49 +08:00 正则筛选+人工纠错 换什么方式都逃不掉人工纠错 |
25 yianing 2019-09-27 12:55:41 +08:00 via iPhone 想到了最长前缀匹配,计算机网络学了这个匹配路由的,可以用来匹配学校吧 |
26 axwz88 OP |
27 axwz88 OP 每条回复我都认真看了,的确解决问题的方式不止一种,综合大家的回复我考虑用 ac 自动机去实现 |
28 axwz88 OP 感谢大家 |