求教,有没有开源的中文搜索引擎,或者怎么做一个简单的搜索引擎呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
sjmcefc2

求教,有没有开源的中文搜索引擎,或者怎么做一个简单的搜索引擎呢?

  •  
  •   sjmcefc2 2022 年 7 月 22 日 3152 次点击
    这是一个创建于 1373 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想定向的搜索几个网站,有没有开源的可以使用呢? 如果自己写一个搜索引擎,有哪些可以借鉴呢?

    18 条回复    2022-07-26 20:59:17 +08:00
    Ossi
        1
    Ossi  
       2022 年 7 月 22 日
    你直接使用 V2EX 的搜索试一下
    Jooooooooo
        2
    Jooooooooo  
       2022 年 7 月 22 日
    定向搜直接用搜索引擎就行了, 有稍微高级的用法能搞定
    nebkad
        3
    nebkad  
       2022 年 7 月 22 日
    搜索引擎这种东西,不做成商业项目持续运行的话,根本就没有实用价值。
    技术上,搜索引擎的基本工具库是有开源的,但是整个搜索引擎工具作为一个产品来开源,如果你认可上一句话,你就知道这是不可能的。

    为啥现在都把“白嫖”说成“开源”了?
    andyskaura
        4
    andyskaura  
       2022 年 7 月 22 日
    感谢你让我回忆起 已逝的 dogedoge 作者在 v 站也好久没活跃了
    sadfQED2
        5
    sadfQED2  
       2022 年 7 月 22 日 via Android
    site:v2ex.com 中文搜索引擎

    你把上面这段内容放到 Google 里面试试?
    sjmcefc2
        6
    sjmcefc2  
    OP
       2022 年 7 月 22 日
    @sadfQED2
    @Jooooooooo 那就是借用 baidu 或者谷歌的搜索引擎高级用法,对目标网站进行搜索就可以?无论网站如何偏门?
    sjmcefc2
        7
    sjmcefc2  
    OP
       2022 年 7 月 22 日
    @nebkad 基本工具库有哪些啊?
    Jooooooooo
        8
    Jooooooooo  
       2022 年 7 月 22 日
    @sjmcefc2 有个 site: 语法, 你搜搜
    CFM880
        9
    CFM880  
       2022 年 7 月 22 日
    如果是学习推荐看这本书 https://item.jd.com/12496373.html 这本书看,这本书里的例子 TSE ,上古开源搜索引擎,之前在古老的 ubuntu 虚拟机上跑起来过。
    TSE 地址: https://gitee.com/lewsn2008/LBTSE
    misaka19000
        10
    misaka19000  
       2022 年 7 月 22 日
    sadfQED2
        11
    sadfQED2  
       2022 年 7 月 22 日 via Android
    @sjmcefc2 只要搜索引擎收录的网站都可以
    sjmcefc2
        12
    sjmcefc2  
    OP
       2022 年 7 月 22 日
    @sadfQED2 感觉现在百度有些网站是不搜索的,不是小众网站,是特别官方的网站。
    sadfQED2
        13
    sadfQED2  
       2022 年 7 月 22 日 via Android
    只要 robot.txt 里面没有禁止的网站,搜索引擎都可以搜

    ps:能上 v 站的人居然还有人用百度?
    PickleFish
        14
    PickleFish  
       2022 年 7 月 22 日
    git 有开源的搜索引擎,不过意义不大 不如直接谷歌。

    我是想弄个数据库的 自己清洗,然后弄个 web 界面搜索字段 匹配到 展示出来
    icyalala
        15
    icyalala  
       2022 年 7 月 22 日
    如果只是几个网站,那弄个 bot 定时爬内容导到 ES 里就差不多了吧。
    wbrobot
        16
    wbrobot  
       2022 年 7 月 22 日
    巧了, 一个朋友前段时间做的影视搜索
    https://souponly.com

    demo:
    https://hotpot.mailseason.com/
    askfermi
        17
    askfermi  
       2022 年 7 月 22 日
    typesense
    meilisearch
    sjmcefc2
        18
    sjmcefc2  
    OP
       2022 年 7 月 26 日
    @askfermi 这几个都是站内搜索的引擎吧

    如果是爬取几个网站,然后直接上 es 是不是能够满足部分的需要呢?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1796 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 50ms UTC 00:01 PVG 08:01 LAX 17:01 JFK 20:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86