owllook - 一个网络小说搜索网站 - https://www.owllook.net/ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xiaozizayang
V2EX    分享创造

owllook - 一个网络小说搜索网站 - https://www.owllook.net/

  •  1  
  •   xiaozizayang
    howie6879 2017-04-29 20:50:42 +08:00 21834 次点击
    这是一个创建于 3117 天前的主题,其中的信息可能已经有所发展或是发生改变。

    chapter

    1.说明

    网络小说搜索引擎( novels-search ) owllook 网址:https://www.owllook.net/

    owllook是一个基于其他网站的垂直小说搜索引擎,至于为什么写这个,一个是想利用sanic尽量做成异步服务,二是想就此练习下推荐系统,顺便作为毕业设计。

    开源在 github,https://github.com/howie6879/novels-search

    本项目纯属共享学习之用,不得用于商业!

    • sanic:基于 Python 3.5+的异步 web 服务器
    • sanic_session:sanic 的持续会话插件
    • vloop:sanic 默认使用 uvloop,替代 asyncio 本身的 loop
    • motor:异步的 mongodb 驱动
    • aiohttp:异步请求
    • aiocache:异步缓存,本项目改用了其中的 decorator 部分,缓存数据库使用 redis
    • caddy:基于 go 的 web 服务器

    对于用户信息,利用 mongodb 进行存储。

    某些必要的缓存,利用 redis 进行缓存处理,注意,对于限制数据:都将在 24 小时删除。

    对于不同网站的小说,页面规则都不尽相同,我希望能够在代码解析后再统一展示出来,这样方便且美观,而不是仅仅跳转到对应网站就完事,清新简洁的阅读体验才是最重要的。

    目前采用的是直接在百度上进行结果检索(现在发现百度不行,又加了 360,谷歌的也写了一个,部分数据准备开始用爬虫获取),也不是不能做的更大更全,只是觉得没什么意义,目前的检索结果已经很足够。

    我尽量写少量的规则来完成解析,具体见规则定义,遇到自己喜欢的小说网站,你也可以自己添加解析。

    BTW,sanic 写界面确实不是很方便。

    详细介绍owllook -- 一个简洁的网络小说搜索引擎

    运行:

    python server.py

    或者

    gunicorn --bind 127.0.0.1:8001 --worker-class sanic_gunicorn.Worker server:app

    2.demo

    下面是一些截图展示,具体效果图请看这里

    目录解析页:

    demo

    阅读:

    content

    书架:

    books

    3.关于

    0.1.0:

    • 小说的基本搜索解析功能
    • 搜索记录
    • 缓存
    • 书架
    • 书签
    • 登录(暂时不开放注册,可与我申请体验)
    • 初步兼容手机(后续跟进)

    TODO:

    • [x] 注册

    • [x] 上次阅读

    • [ ] 阅读书单

    • [ ] 推荐

    • [ ] 排行榜

    License

    novels-searchis offered under the Apache 2 license.

    78 条回复    2017-05-23 17:35:22 +08:00
    LaudOak
        1
    LaudOak  
       2017-04-29 21:03:06 +08:00
    不错,资瓷
    Travers
        2
    Travers  
       2017-04-29 21:19:26 +08:00 via Android
    任意章节都是 404 will found …
    xiaozizayang
        3
    xiaozizayang  
    OP
       2017-04-29 21:20:51 +08:00
    @Travers 不会吧,你搜索的什么?
    hljjhb
        4
    hljjhb  
       2017-04-29 21:28:09 +08:00
    内容页居然没有上 /下一章
    Travers
        5
    Travers  
       2017-04-29 21:28:57 +08:00 via Android
    发现 dns 的问题,换了一个 DNS 就正常了。移动自带的 DNS 有点坑啊。 @xiaozizayang
    xiaozizayang
        6
    xiaozizayang  
    OP
       2017-04-29 21:30:09 +08:00
    @hljjhb 还在写~~全部在线解析这块有点难搞,毕竟东西都不在数据库
    xiaozizayang
        7
    xiaozizayang  
    OP
       2017-04-29 21:30:37 +08:00
    @Travers 那就好,吓我一跳
    qcloud
        8
    qcloud  
       2017-04-29 21:44:49 +08:00
    贼 6
    mozutaba
        9
    mozutaba  
       2017-04-29 21:57:39 +08:00
    给力
    liangguan5
        10
    liangguan5  
       2017-04-29 21:57:41 +08:00 via iPhone
    赞,刚刚搜索昆仑试了下,解析后的排版看着比原网页舒服太多
    zhuoziyu
        11
    zhuoziyu  
       2017-04-29 21:59:01 +08:00
    目录页和正文我是智能匹配的
    目录页 API: https://zhuishu.me/api/chapters?url=目录页 url
    正文提取我用 golang 实现了 Readability 算法,https://zhuishu.me/api/chapter?url=http://www.qu.la/book/22441/8382743.html

    更多 API 请参看 https://www.zhuishuapi.com/swagger/

    生活艰难,准备赚些外块。目前正在做追书 APP,自己不运营,打算卖程序,相信会有站长感兴趣
    xiaozizayang
        12
    xiaozizayang  
    OP
       2017-04-29 22:01:00 +08:00
    @liangguan5 哈哈 有帮助就好
    zhuoziyu
        13
    zhuoziyu  
       2017-04-29 22:03:06 +08:00
    demo: https://zhuishu.me 后台管理功能已经完备了,商业授权功能都有了,就是前端比较简陋
    xiaozizayang
        14
    xiaozizayang  
    OP
       2017-04-29 22:06:12 +08:00
    @zhuoziyu 只敢做解析,不敢做爬取,太侵权了
    zhuoziyu
        15
    zhuoziyu  
       2017-04-29 22:19:10 +08:00
    @xiaozizayang 我只是用算法解析目录页,一样的。可能我的 url 看起来不那么合法
    目前只是仅供 app 测试,没打算运营呢
    感觉目前都是移动端会有转码阅读功能,pc 端这样估计会有风险
    defunct9
        16
    defunct9  
       2017-04-29 22:20:11 +08:00 via iPhone
    www.booksky.org 一样么?
    xiaozizayang
        17
    xiaozizayang  
    OP
       2017-04-29 22:21:12 +08:00
    @zhuoziyu 目录页用什么算法解析?我现在也在做移动端
    xiaozizayang
        18
    xiaozizayang  
    OP
       2017-04-29 22:23:52 +08:00
    @defunct9 不一样,主动与被动的关系,我这个可以说是元搜索引擎,你说的这个是综合收集载查询的那种,比那个也多了解析
    366204135
        19
    366204135  
       2017-04-29 22:32:59 +08:00
    我之前想做一个抓取豆瓣的数据的。可是没做 做了一个别的 https://www.ewmzc.com 生成二维码的
    thedog
        20
    thedog  
       2017-04-29 23:58:04 +08:00
    赞一个,一直都想做一个类似的
    owlsec
        21
    owlsec  
       2017-04-30 00:36:00 +08:00
    很强啊
    RaymondYip
        22
    RaymondYip  
       2017-04-30 00:59:41 +08:00
    太棒了 666
    xiaozizayang
        23
    xiaozizayang  
    OP
       2017-04-30 07:26:51 +08:00
    @thedog 反正是开源的 可以按照你的想法来~
    xiaozizayang
        24
    xiaozizayang  
    OP
       2017-04-30 07:29:46 +08:00
    @owlsec 谢谢支持~~
    xiaozizayang
        25
    xiaozizayang  
    OP
       2017-04-30 08:33:16 +08:00
    @RaymondYip 可以注册账号内测 书架追更比较好
    flystar
        26
    flystar  
       2017-04-30 08:49:51 +08:00
    非常不错,赞一个
    页面的设置按钮功能目前没做么?另外求注册体验~
    licheng527
        27
    licheng527  
       2017-04-30 09:10:31 +08:00
    挺不错的,收藏了,希望可以解析更多收费小说,哈哈
    xiaozizayang
        28
    xiaozizayang  
    OP
       2017-04-30 09:29:48 +08:00
    @licheng527 哈哈
    xiaozizayang
        29
    xiaozizayang  
    OP
       2017-04-30 09:30:21 +08:00
    @flystar 591460519 内测群 我来帮你注册
    Norma
        30
    Norma  
       2017-04-30 09:41:00 +08:00
    @zhuoziyu 想要这个,提供修改吗?
    Artists
        31
    Artists  
       2017-04-30 09:44:52 +08:00
    点开解析过的小说章节 404,不知道是不是个例
    xiaozizayang
        32
    xiaozizayang  
    OP
       2017-04-30 09:46:50 +08:00
    @Artists ?链接发我看看
    Artists
        33
    Artists  
       2017-04-30 09:53:11 +08:00
    lany
        35
    lany  
       2017-04-30 11:14:31 +08:00
    @xiaozizayang 你的某些页面就是这样的。全部是 404
    xiaozizayang
        38
    xiaozizayang  
    OP
       2017-04-30 11:23:23 +08:00
    @lany 你如果不能打开 全部是 404 的话 会不会是跟楼上一样 DNS 的问题 我这边都打开正常
    kn007
        39
    kn007  
       2017-04-30 11:24:51 +08:00
    xiaozizayang
        40
    xiaozizayang  
    OP
       2017-04-30 11:54:22 +08:00
    @kn007 老哥也稳
    Domains
        41
    Domains  
       2017-04-30 12:57:02 +08:00
    刚好有朋友想看豪娶天价新妻,
    搜索了一下,出来的都是死链接、广告链接,特别都是让你下载不知什么东西的安卓 App
    xiaozizayang
        42
    xiaozizayang  
    OP
       2017-04-30 13:12:15 +08:00
    @Domains 那个出来的网站都是没有解析的~~因为这个在其他搜索引擎没有资源~我这里也没有
    tkisme
        43
    tkisme  
       2017-04-30 13:18:41 +08:00
    @xiaozizayang [email protected] 现在不能注册么
    xiaozizayang
        44
    xiaozizayang  
    OP
       2017-04-30 13:31:05 +08:00
    @tkisme2013 还在内测中 你加群 我给你开个
    RaymondYip
        45
    RaymondYip  
       2017-04-30 14:16:52 +08:00
    @xiaozizayang 好的谢谢拉 哈 我去注册个
    xiaozizayang
        46
    xiaozizayang  
    OP
       2017-04-30 14:55:06 +08:00
    @RaymondYip 咋没见你加群来注册
    tSQghkfhTtQt9mtd
        47
    tSQghkfhTtQt9mtd  
       2017-04-30 15:21:02 +08:00
    不担心版权风险么?
    tkisme
        48
    tkisme  
       2017-04-30 15:44:02 +08:00
    @xiaozizayang 找回密码也没做
    xiaozizayang
        49
    xiaozizayang  
    OP
       2017-04-30 15:46:27 +08:00
    @tkisme2013 注册都还没开放~~这个做个很快
    xiaozizayang
        50
    xiaozizayang  
    OP
       2017-04-30 15:47:01 +08:00
    @liwanglin12 开源不要紧吧 只是检索+缓存 百度不也这样?
    world666
        51
    world666  
       2017-04-30 16:04:41 +08:00
    - -写正则解析啥的太麻烦了吧,私信我,给你开个 API.万能解析,只要是文章类的通杀。
    xiaozizayang
        52
    xiaozizayang  
    OP
       2017-04-30 16:08:59 +08:00
    @world666 啊哈哈,我这样写有这样写的用处 目前的 api 也在写通用获取
    world666
        53
    world666  
       2017-04-30 16:10:52 +08:00
    @xiaozizayang 啊,其实我想加你好友,取取经。。。哈哈哈哈。。。
    xiaozizayang
        54
    xiaozizayang  
    OP
       2017-04-30 16:13:37 +08:00
    @world666 进群交流吧 哈哈
    zhuoziyu
        55
    zhuoziyu  
       2017-04-30 19:50:11 +08:00
    @xiaozizayang 比较 URL 相似度
    @Norma 目前主要做追书 APP,可以加微信 donkey QQ: 303200888
    xiaozizayang
        56
    xiaozizayang  
    OP
       2017-04-30 19:57:07 +08:00
    @zhuoziyu 写个余弦相似度就解决了
    Icemic
        57
    Icemic  
       2017-05-01 14:04:05 +08:00
    厉害啊,给同在研究推荐系统的我不少启发,star 了
    xiaozizayang
        58
    xiaozizayang  
    OP
       2017-05-01 21:29:02 +08:00
    @Icemic 然而推荐系统部分却还没写哈哈
    guonning
        59
    guonning  
       2017-05-01 23:30:53 +08:00 via iPhone
    爱这样得,看书,找书有去处了
    xiaozizayang
        60
    xiaozizayang  
    OP
       2017-05-02 06:19:18 +08:00
    @guonning 谢谢支持
    Izual_Yang
        61
    Izual_Yang  
       2017-05-02 12:10:49 +08:00
    很好,我只有一个问题:翻页 tm 在哪儿?不论是翻页链接还是热键,还是滚动到底部自动加载下一页,我全都没找到
    xiaozizayang
        62
    xiaozizayang  
    OP
       2017-05-02 12:53:58 +08:00
    @Izual_Yang 这是个好问题 哭脸~~ 就是还没做下一页
    Izual_Yang
        63
    Izual_Yang  
       2017-05-02 17:20:24 +08:00
    @xiaozizayang
    其实在电脑上问题不大,甚至可以键盘操作( ctrl+w 关掉当前章节,然后目录上按 tab 跳到下一章链接,回车)
    在手机上就让我不太适应,因为已经被 uc 浏览器养懒了。
    虽然我在电脑浏览器上也习惯了通过油猴子( https://greasyfork.org/scripts/292-my-novel-reader/ 或者
    https://greasyfork.org/scripts/293-super-preloaderplus-one 自己添加规则)自动加载下一章
    solobat
        64
    solobat  
       2017-05-02 18:02:50 +08:00
    看着不错,收藏了
    junred
        65
    junred  
       2017-05-03 09:13:35 +08:00
    解析后的网页布局比原网页还要漂亮~
    xiaozizayang
        66
    xiaozizayang  
    OP
       2017-05-03 14:01:08 +08:00
    @junred 不比原来漂亮解析干嘛~
    junred
        67
    junred  
       2017-05-04 08:42:37 +08:00
    @xiaozizayang 你这解析是针对每个网站写一个特定解析?
    xiaozizayang
        68
    xiaozizayang  
    OP
       2017-05-04 11:11:54 +08:00
    @junred 一个网站一个规则
    ruter8
        69
    ruter8  
       2017-05-04 13:02:59 +08:00
    惊现宇哥。
    xiaozizayang
        70
    xiaozizayang  
    OP
       2017-05-04 17:39:01 +08:00
    @ruter8 我类个去 缘分~~
    shunia
        71
    shunia  
       2017-05-05 14:06:46 +08:00
    求推荐无限流网文,把你知道的都说出来,看看哪些没看过,我去关注一下.
    xiaozizayang
        72
    xiaozizayang  
    OP
       2017-05-10 10:45:11 +08:00
    @Izual_Yang 已经做了翻页了
    ifaii
        73
    ifaii  
       2017-05-21 19:00:06 +08:00
    @xiaozizayang 想知道设置不能用是怎么回事,没法设置黑白页面
    xiaozizayang
        74
    xiaozizayang  
    OP
       2017-05-23 13:47:42 +08:00
    @ifaii 设置的功能还没写
    licheng7475
        75
    licheng7475  
       2017-05-23 15:20:31 +08:00
    搜到大部分没解析。。。
    xiaozizayang
        76
    xiaozizayang  
    OP
       2017-05-23 15:53:53 +08:00
    @licheng7475 看源 你是搜索哪本小说?
    licheng7475
        77
    licheng7475  
       2017-05-23 17:01:41 +08:00
    @xiaozizayang 随便搜的,包括你案列的雪中悍刀行
    xiaozizayang
        78
    xiaozizayang  
    OP
       2017-05-23 17:35:22 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1069 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 23:08 PVG 07:08 LAX 15:08 JFK 18:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86