求推荐云盘或其他方案用于分享数据集(2T) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xyyandxyy
V2EX    问与答

求推荐云盘或其他方案用于分享数据集(2T)

  •  
  •   xyyandxyy 2024-07-27 10:21:13 +08:00 4543 次点击
    这是一个创建于 472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    学术工作需要开源对应的数据集,大小约 2T, 但不到 2T. 需要让其他使用者下载.

    这个数据集开源后应该国内外都要可以下载, 国内计划直接用百度网盘(SVIP 过期后文件好像还是可以继续分享下载). 国外的话求大佬们推荐!

    希望:

    • 一个比较重要的点是希望能稳定存储很久很久, 省去毕业后还要维护
    • 价格尽可能低

    目前考虑提供国外下载服务的方式:

    • 闲鱼找 google drive 2T 团队盘 (稳定性未知, 感觉不是很稳定)
    • 开两个 onedrive 的号, 在淘宝买 1t 扩容, 分两个号存储. 35 块钱 1T1 年, 过期只保存三个月.
    • ...

    求大佬推荐!

    26 条回复    2024-10-17 12:01:23 +08:00
    1rv013c6aiWPGt24
        1
    1rv013c6aiWPGt24  
       2024-07-27 10:37:41 +08:00 via Android
    onedrive 有 1T 扩容?不是拼车吗?
    xyyandxyy
        2
    xyyandxyy  
    OP
       2024-07-27 10:42:41 +08:00
    @UncleCAT4 淘宝上写的是扩容, 原理应该是拼车
    kebamt
        3
    kebamt  
       2024-07-27 12:04:35 +08:00 via iPad
    如果去掉国内能访问选择方面会多很多
    kebamt
        4
    kebamt  
       2024-07-27 12:05:11 +08:00 via iPad
    @UncleCAT4 此外 OneDrive 网页版国内也打不开,相当于不能访问
    kebamt
        5
    kebamt  
       2024-07-27 12:05:30 +08:00 via iPad
    不是 Edu 版
    kebamt
        6
    kebamt  
       2024-07-27 12:06:23 +08:00 via iPad
    比如 PikPak
    1rv013c6aiWPGt24
        7
    1rv013c6aiWPGt24  
       2024-07-27 13:10:44 +08:00 via Android
    @kebamt 用文件管理器挂载就行了,基本上支持各种主流文件管理器
    xyyandxyy
        8
    xyyandxyy  
    OP
       2024-07-27 13:13:53 +08:00
    @kebamt 可以完全不管国内访问, 因为国内访问我直接提供个百度云. 佬除了 PikPak 还有什么推荐吗? 自建也可以, 我是校园网, 校内有自己的服务器, 但是校外访问, 并下这个大个数据集, 没有想到怎么解决办法.
    FlashEcho
        9
    FlashEcho  
       2024-07-27 13:43:25 +08:00
    onedrive for business ,一个月 10 刀,5TB 空间,国内外都能用,国内有服务器,不用翻墙,这应该最方便的,但是价格有点小贵

    或者放到 hugging face 上,不过国内就没法访问了,但是 2T 的数据集也不是谁都能用得了的,我感觉用得起这个数据集的团队应该不会吝啬梯子的钱。。。你在国内放一些常用子集的下载方式应该能满足 99%的同行的需求吧? Imagenet 不就这样吗? 1TB 多的 imagenet-21k 没多少人用,100GB 的 imagenet-1k 用的人就很多
    slowman
        10
    slowman  
       2024-07-27 13:56:16 +08:00
    开放数据交给 archive 吧..算是白嫖
    xyyandxyy
        11
    xyyandxyy  
    OP
       2024-07-27 14:27:51 +08:00
    @chesha1 嗯嗯, 大佬说的有道理. 因为数据集涉及到一些隐私, 按照目前类似数据集的做法, 一般都是我做一个 request form, 然后审核 request 后发一个下载链接过去. 感觉 HF 可以研究一下怎么放上去, 刚刚查了一下好像没有上传大小限制.
    xyyandxyy
        12
    xyyandxyy  
    OP
       2024-07-27 14:28:06 +08:00
    @1423 archive 是?
    Brunuh2Ville2
        13
    Brunuh2Ville2  
       2024-07-27 14:30:53 +08:00 via Android
    2t 国内 vps 自建云盘 1k/三年
    xyyandxyy
        14
    xyyandxyy  
    OP
       2024-07-27 14:39:11 +08:00
    @northbrunv 但是带宽成本感觉有点吓人
    IvanLi127
        15
    IvanLi127  
       2024-07-27 16:21:57 +08:00
    发 bt 种子,然后自己保种。
    adrianzhang
        16
    adrianzhang  
       2024-07-27 16:39:14 +08:00
    这种事难道不是 bt 最方便吗? resilosync 用 key 控制权限呢?
    mcone
        17
    mcone  
       2024-07-27 18:29:51 +08:00
    看到你说要审核,你提到的这些网盘其实都不合适,网盘随手就转存了,你也就前期审核有点用,后期真的就只是形式主义而已。
    我周边遇到的这种正经的审核,一般都是在附属 edu/ac 机构页面上,通过申请后的 pwd+简单鉴权的方式(甚至有的直接用了 nginx 鉴权),进入专门的下载页,有的为了省带宽就转到网盘或者云存储的下载直链上面去;我们课题组国内买的是科院的云盘服务,国外买的是 dropbox 直链服务。

    另外,多吐槽一句,我是不理解,你所在机构和课题组都不愿意提供基本的存储、逼着通讯作者都想“省去毕业后还要维护”的一个数据集,证明除了你之外都认为这玩意没啥价值,有什么好审核的
    KagurazakaNyaa
        18
    KagurazakaNyaa  
       2024-07-27 18:31:02 +08:00
    做种,然后发磁链就行了
    xianghaolin
        19
    xianghaolin  
       2024-07-27 18:56:35 +08:00
    E5 25T 就是不稳
    NSAgold
        20
    NSAgold  
       2024-07-27 20:26:41 +08:00 via Android
    b2 5 美元/月/T
    Solix
        21
    Solix  
       2024-07-27 20:51:07 +08:00
    cf 的 r2 不行么,接上 cdn 我记得是免费的吧
    NewHere
        22
    NewHere  
       2024-07-27 21:25:33 +08:00
    自己有服务器的话,放在服务器上就好了,弄一下 http 服务放在实验室网站上提供下别人下载
    xyyandxyy
        23
    xyyandxyy  
    OP
       2024-07-28 09:44:42 +08:00
    是这样的...

    主要是组内一般只维护一个静态的官网, 对外开放的存储还没有人来做, 要做也得抓其他同学(会维护且愿意做的同学不多)或自己来做, 整个流程更麻烦(因为还要去和管理的老师对接), 不如我在自己的服务器上写一个.

    我们领域有一些数据集是如佬所说的附属 edu/ac 机构页面, 也是比较大的数据集, 但是时间久了(5 年往上), 很多也断了维护, 或者是下载速度龟速. 也基本是靠社区分享才能获取. 确实审核也就维持个前一段时间的几年, 之后就不在了...

    所以综合时间和精力成本还是自己来研究下... 寄希望能少折腾点. 数据集还是有价值的, 我希望能送到需要的研究者手上, 减少他们去翻找的痛苦. 但是大组可能确实不 care, 每年三大会一堆, 不差我一个小小数据集.
    xyyandxyy
        24
    xyyandxyy  
    OP
       2024-07-28 09:53:35 +08:00
    @gaobh 谢谢佬, 从你这才知道 cf 有这个, 看了一下好像我的数据这么大还是要比较高的费用的, 但是 mark 了!
    @xianghaolin 嗯嗯我看了一下确实是

    @NewHere 没有公网 IP 呜呜

    @NSAgold
    @IvanLi127
    @XiLingHost
    谢谢佬的建议! mark 了!
    yufeng0681
        25
    yufeng0681  
       2024-07-28 14:02:30 +08:00
    @XiLingHost #18 这样的规则还不够细化,群主开一台机器成本也不低。 最好是弄成好几个地方的电脑不用关,或者说不会一起关的形态。 保证随时能下载到
    nakroy
        26
    nakroy  
       2024-10-17 12:01:23 +08:00
    既然都开源了,那可以放在 huggingface 上,国内可以用同步的镜像站 hf-mirror.com 下载,很适合直接在服务器上用 huggingface-cli 命令行直接下载
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     945 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 22:25 PVG 06:25 LAX 14:25 JFK 17:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86