Telegram 的网页主要内容提取真是一个黑科技

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

Telegram Messenger

Telegram Messenger for iOS

Telegram Messenger for Android

MTProto

Telegram Bot Platform

This topic created in 3980 days ago, the information mentioned may be changed or developed.

大家可以试试把各种链接（微博，Twitter，V2EX……）发到聊天框里，Telegram 似乎总是可以提取到页面上最重要的内容。

微博

提取

16 replies 2015-06-08 00:46:25 +08:00

hjc4869

Jun 7, 2015

自己试了一下，这个是在服务端采集的，所以具体细节无从得知了。。

oott123

Jun 7, 2015 via Android

这算法不难吧，Readability 啊 Pocket 之类的不就有类似的嘛。

isaced

Jun 7, 2015

真厉害，试了下 cnBeta、36Kr、SegmentFault，甚至连我一个人博客随便一篇文章都能识别出来...

wy315700

Jun 7, 2015

这不就是搜索引擎的技术吗，

also24

Jun 7, 2015

以前似乎是直接抓取 description 的，不知道现在是怎样

Livid

MOD

PRO

Jun 7, 2015

@also24 谢谢提醒，我找一些没有 desc 的页面试试。

Livid

MOD

PRO

Jun 7, 2015

好吧，看起来，确实和 desc 有关系：

http://vagabond.github.io/rants/2015/06/05/a-year-with-go/

czheo

Jun 7, 2015

@also24 现在好像也基本上是这样

Laforet

Jun 7, 2015

现在机械语义分析可用性已经很高了，比如下面这个bot

https://www.reddit.com/user/bitofnewsbot

还有上次推特财报被提前公布也是用了爬虫+语义分析，跳过人工审阅直接发新闻。

xhacker

Jun 7, 2015

@also24 @Livid: desc 是什么？

orzfly

Jun 7, 2015

@xhacker http://en.wikipedia.org/wiki/Meta_element#The_description_attribute

binux

Jun 7, 2015

http://checi.org/nanchong/

xhacker

Jun 7, 2015

@orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……

icedx

Jun 7, 2015 via Android

Verizon 家的Message+ 表示不服

inmyfree

Jun 7, 2015

哈哈，推荐我写的一个小东东哈，基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
[效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
[开源项目git地址](https://github.com/inmyfree/readability)

0x17e

Jun 8, 2015

新闻类的页面的正文提取是最简单的，包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX，如果能把每个回复都单独提取出来合并成正文，那么才算是厉害的算法，可惜目前主流的笔记软件好像还没有这样的功能，除了某些采集软件。