又一个天马行空的爬虫需求 大佬们来分析一下 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
2ME
V2EX    程序员

又一个天马行空的爬虫需求 大佬们来分析一下

  •  
      2ME 2018-02-11 10:55:03 +08:00 5228 次点击
    这是一个创建于 2803 天前的主题,其中的信息可能已经有所发展或是发生改变。

    leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。

    初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。

    然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。

    从几个角度分析一下可行性?

    首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。

    我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。

    15 条回复    2018-02-11 16:08:49 +08:00
    cdwyd
        1
    cdwyd  
       2018-02-11 11:25:21 +08:00 via Android
    百度不是有个百度新闻,去那里搜出来的都是新闻吧
    2ME
        2
    2ME  
    OP
       2018-02-11 11:28:22 +08:00
    @cdwyd 最后写了 从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题 主要是关键词不一定是词 大部分情况下都是啥都搜不到
    fire0594
        3
    fire0594  
       2018-02-11 12:46:16 +08:00 via iPhone   2
    从页面自动抽取标题和内容,python 有 goose 和 readability 两个库
    4BVL25L90W260T9U
        4
    4BVL25L90W260T9U  
       2018-02-11 12:58:06 +08:00 via Android
    你这不是爬虫问题,是文本分类,也就是 nlp 的问题
    tttwww18
        5
    tttwww18  
       2018-02-11 13:10:03 +08:00
    搜索引擎的 SERP 里面会有一些相对固定的返回模式,可以据此判断该 query 是否属于 news domain 然后再做提取处理。
    2ME
        6
    2ME  
    OP
       2018-02-11 13:30:35 +08:00
    @ospider 判断一个源是不是新闻不一定要 nlp 应该也可以从标记样式页面结构之类的入手吧 不过 nlp 对于我这个脚本仔来说确实太难了
    soulmine
        7
    soulmine  
       2018-02-11 13:54:46 +08:00
    咱有个办法呀 你可以换个思路呀 比如你广撒网 然后爬十几二十个新闻网站 然后拿标题和你的那些关键词对比 看符不符合不就行了 ww 在或者说你去新闻这种地方去搜搜?
    miniliuke
        8
    miniliuke  
       2018-02-11 13:58:45 +08:00 via Android
    你找几家大的新闻网站,或者头条之类的。里面都是新闻,而且新闻网不都是我抄你,你抄我吗
    2ME
        9
    2ME  
    OP
       2018-02-11 13:59:41 +08:00
    @soulmine 这种思路被 leader 做为没有办法的办法 - - 需求内容一般都是 to B 的 有些新闻源都被爬烂了
    2ME
        10
    2ME  
    OP
       2018-02-11 14:01:23 +08:00
    @miniliuke B2B 的新闻资讯 和头条 163 这些不太搭边 不然直接爬这些新闻站就完了 需求用百度搜就是想爬一些小企业站的原创伪原创吧估计
    Pinwheel
        11
    Pinwheel  
       2018-02-11 15:37:18 +08:00
    我们也有这样的需求,用关键词去搜索引擎搜索,不过我们是要做更细的历史、体育之类更加细分的东西。

    先去爬门户网站的特定栏目数据作为样本,分词统计概率,再将从搜索引擎抓下来的内容用贝叶斯分类去找概率最高的,基本可以满足要求。
    miniliuke
        12
    miniliuke  
       2018-02-11 15:47:48 +08:00 via Android
    @Pinwheel 我感觉他是想要企业新闻类似的,一般企业新闻不会在新闻站中出现。只有大部分只有企业官网上有......就怕各个企业发稿天马行空
    2ME
        13
    2ME  
    OP
       2018-02-11 15:57:58 +08:00
    @miniliuke 是这需求
    @Pinwheel 我是 SEO 爬完按 DM25 匹配一下就行了 别的对我来说就超纲了 = =
    2ME
        14
    2ME  
    OP
       2018-02-11 16:08:27 +08:00
    #13 DM25 -> BM25
    insoxin
        15
    insoxin  
       2018-02-11 16:08:49 +08:00 via Android
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3550 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 00:05 PVG 08:05 LAX 17:05 JFK 20:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86