Telegram 的网页主要内容提取真是一个黑科技 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Livid
267.42D
572.43D

Telegram 的网页主要内容提取真是一个黑科技

  •  1
     
  •   Livid
    PRO
    Jun 7, 2015 10430 views
    This topic created in 3980 days ago, the information mentioned may be changed or developed.
    大家可以试试把各种链接(微博,Twitter,V2EX……)发到聊天框里,Telegram 似乎总是可以提取到页面上最重要的内容。
    16 replies    2015-06-08 00:46:25 +08:00
    hjc4869
        1
    hjc4869  
       Jun 7, 2015
    自己试了一下,这个是在服务端采集的,所以具体细节无从得知了。。
    oott123
        2
    oott123  
       Jun 7, 2015 via Android
    这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。
    isaced
        3
    isaced  
       Jun 7, 2015
    真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来...
    wy315700
        4
    wy315700  
       Jun 7, 2015
    这不就是搜索引擎的技术吗,
    also24
        5
    also24  
       Jun 7, 2015
    以前似乎是直接抓取 description 的,不知道现在是怎样
    Livid
        6
    Livid  
    MOD
    OP
    PRO
       Jun 7, 2015
    @also24 谢谢提醒,我找一些没有 desc 的页面试试。
    Livid
        7
    Livid  
    MOD
    OP
    PRO
       Jun 7, 2015
    好吧,看起来,确实和 desc 有关系:

    http://vagabond.github.io/rants/2015/06/05/a-year-with-go/
    czheo
        8
    czheo  
       Jun 7, 2015
    @also24 现在好像也基本上是这样
    Laforet
        9
    Laforet  
       Jun 7, 2015
    现在机械语义分析可用性已经很高了,比如下面这个bot

    https://www.reddit.com/user/bitofnewsbot

    还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。
    xhacker
        10
    xhacker  
       Jun 7, 2015
    @also24 @Livid: desc 是什么?
    binux
        12
    binux  
       Jun 7, 2015
    xhacker
        13
    xhacker  
       Jun 7, 2015
    @orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……
    icedx
        14
    icedx  
       Jun 7, 2015 via Android
    Verizon 家的Message+ 表示不服
    inmyfree
        15
    inmyfree  
       Jun 7, 2015
    哈哈,推荐我写的一个小东东哈,基于readability
    比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
    [效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
    [开源项目git地址](https://github.com/inmyfree/readability)
    0x17e
        16
    0x17e  
       Jun 8, 2015
    新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。
    About     Help     Advertise     Blog     API     FAQ     Solana     2680 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 62ms UTC 13:00 PVG 21:00 LAX 06:00 JFK 09:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86