最新公告
  • 本站一直秉承服务宗旨:履行“站长”责任,销售只是起点 服务永无止境!”的经营理念立即加入
  • 00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元

    白交 发自 凹非寺

    量子位 | 公众号 QbitAI

    Arxiv上所有论文转成Token,加起来不过14.1GB而已。

    这是新爆火开源计划亚历山大完成的壮举。

    事实上,这还只是第一步。

    他们终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。

    一旦这样的数据集诞生,那岂不是为开发出GPT-4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!

    消息一出,瞬间引发巨大关注。

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图

    网友们赞叹,史诗般的

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图100后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图2

    而这背后仅是四个平均年龄20岁的少年发起,目前Arxiv所有论文数据集已经发布,他们将于下周发布嵌入(Embedding)搜索平台。

    从Arxiv上所有论文开始

    超过400万个项目、6亿个token,30.7亿个向量维度。

    这个名为亚历山大的开源计划,首先从Arxiv每篇论文上开始。

    选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图3

    经典的例子就是将原始图像表示为灰度像素。

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图4

    这种技术大的特点就是能够表示出人类感知到的语义相似性。

    比如,当有10个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。

    基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。

    在测试各种模型之后,终选择使用InstructorXL文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务(比如分类、检索、聚类、文本评估等)和领域(比如科学、金融、医学等)

    下周他们将发布Arxiv搜索。目前为止的流程是,首先对100篇接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。

    终目标是一整个互联网嵌入计划。

    20岁少年的疯狂开源计划

    之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。

    一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。

    另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元

    但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。

    接下来他们还将开放更多的数据集,而这些均由这些用户自行选择。在官网上除了已公开的数据集,剩下的几个待开源项目开启了投票通道。

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图5

    值得一提的是,背后是一*平均年龄仅为20岁的少年team完成的。

    00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元插图6

    而他们的团队名字同样也很霸气,Macrocosm(宏观世界)联盟。

    只要你放大到足够远,人类就会成为一个单一的生物。

    就介绍,他们致力于为ChatGPT和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。

    感兴趣的旁友可戳下方链接了解~

    https://alex.macrocosm.so/download

    参考链接:

    [1]https://www.macrocosm.so/

    [2]https://twitter.com/willdepue/status/1661781355452325889

    [3]https://github.com/macrocosmcorp

    [4]https://www.pinecone.io/learn/vector-embeddings/

    — 完 —

    量子位 QbitAI · 头条号签约

    1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
    2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
    3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系管理员处理!
    6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
    7. 如有侵权麻烦联系邮箱2697381891@qq.com删除文章!

    源码库 » 00后疯狂开源计划:互联网成大模型语料,1亿token嵌入只需1美元
    • 3028会员总数(位)
    • 37594资源总数(个)
    • 507本周发布(个)
    • 191 今日发布(个)
    • 1170稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情