超强记忆力训练有用吗,记忆力教育加盟,大模型落地需要“记忆力”,这家公司想为向量数据库正名 - 把脉大模型

极简大道 极简大道 2023-11-17 精品记忆课 阅读: 148
摘要: 界面新闻记者 | 李彪界面新闻编辑 |现实生活中若两人进行对话,大致需要三步流程:一方首先抛出话题作引子;另一方会先调动记忆判断自己是否了解这个话题,然后再分析给出应该做出何种回答。如此循环往复直到互动结束,而此次对话又会作为一种新的“记忆”被双方吸收。为让计算机完成这样的互动过程,并持续在一对一或一对多的情况下变成日常,AI科学家提出了CVP结构,即“ChatGPT(以ChatGPT为代表的大模型)+Vector Database(向量数据库)+Prompt(提示词)”,分别承担计算机分析、记忆、引子的功能。

界面新闻记者 | 李彪

界面新闻编辑 |

现实生活中若两人进行对话,大致需要三步流程:一方首先抛出话题作引子;另一方会先调动记忆判断自己是否了解这个话题,然后再分析给出应该做出何种回答。如此循环往复直到互动结束,而此次对话又会作为一种新的“记忆”被双方吸收。

为让计算机完成这样的互动过程,并持续在一对一或一对多的情况下变成日常,AI科学家提出了CVP结构,即“ChatGPT(以ChatGPT为代表的大模型)+Vector Database(向量数据库)+Prompt(提示词)”,分别承担计算机分析、记忆、引子的功能。

向量数据库作为计算机记忆体一般的存在,正吸引着大批投资人和创业者的关注。向量数据库创业公司Zilliz的创始人兼CEO谢超告诉界面新闻,大模型落地,从数据的角度要面对的重要现实就是计算同存储的分离,即大模型属于厂商,而数据属于用户。“国内几乎所有主流的大模型厂商上半年上门找我们聊合作,都迫切想知道一件事——大模型如何跟向量数据库配套使用,或者说计算和存储如何结合并实现低成本的重复使用。”

向量数据库是一种专门处理(主要包括存储和检索)非结构化数据的新型数据库。传统的数据库主要处理由行、列二维表格方式存储的结构化数据,这类数据具有标准化的格式,较为容易做量化分析。而非结构化数据是指那些高维度、难以量化的抽象数据,通常需要特定的数据结构来组织,且不易分析。现实生活中,非结构化数据以各种形式出现,包括文本、图像、音视频以及未来多模态呈现更为复杂多元的表情、体态等数据。

以OpenAI背后的GPT模型预训练所用的数据为例,GPT-3.5的“知识库”共包含3000亿单词的数据,汇聚了来自开源语料库、维基百科、各类图书与新闻报道、Reddit与Twitter平台文章等大量互联网文本数据。GPT-4在此基础上体量更大,且为了支持多模态专门收集各类图像、视频素材,这其中非结构化数据应占有极大比重。同时,随着大模型朝着多模态趋势的迭代,非结构数据的数量势必将呈指数级增长。

根据IDC、Gartner等市场调研机构的估算,真实世界中绝大多数数据(约80%)都为非结构化数据,只有少量(约20%)为结构化数据。然而正如冰山效应所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉没在水面之下”,非结构化数据结构复杂且难处理,反而导致有效利用率远低于结构化数据。因此,打造面向非结构化数据的向量数据库也变成了一场从0到1的拓荒。

Zilliz成立于2017年,总部位于硅谷,是最早一批探索向量数据库的先行者。以大模型诞生为分水岭,公司的成长历程可分为“前大模型时期”和“后大模型时期”。

在前大模型时期,向量数据库的技术理念并未有统一的定义,市场上也未有同类产品模式可作参照。Zilliz起步只能在无人区中开拓新赛道,客户、投资、应用场景都是未知数。“我们做向量数据库的前几年几乎没有任何收入,全靠融资生存,但那时候说服投资人是一件很困难的事情。招聘工程师、找客户、拉投资,不确定性几乎来自方方面面,这也成为Zilliz的常态。”

2019年,Zilliz开源了全球首个向量数据库产品Milvus,目前在GitHub上获得了超过2.1万颗Star,是开源圈内的明星项目,也给公司带来了第一批用户。同时,团队发表的向量数据库相关的两篇论文,也在2021和2022连续两年入选了数据库领域国际顶级会议SIGMOD和VLDB。在创始人眼中,Zilliz前几年所做的工作都在一步步将向量数据库推向主流视野的关注范围内。

后大模型时期,ChatGPT的爆发则彻底改变了向量数据库的发展速度。2023年3月,在英伟达全球开发者大会上,黄仁勋力挺向量数据库对构建专有大型语言模型的重要价值,同时点名Milvus。紧接着,Milvus和Zilliz Cloud又成为了OpenAI官方首批plugin合作的向量数据库。

资本和竞争对手随即迅速涌入这一赛道。其实,早在2022年8月,Zilliz就完成了累计超过 1.03亿美元的B轮融资,由沙特阿美Aramco Ventures旗下基金领投,现有股东淡马锡、高瓴创投、五源资本和云启资本跟投,估值达6亿美元。另外一家OpenAI官方合作的向量数据库公司Pinecone最新宣布获得a16z领投的1亿美元,估值达7.5亿美元。今年4月,有4家向量数据库创业公司宣布当月获得融资。大模型厂商也纷纷开始着手布局自家的向量数据库,腾讯、京东均有对外公开的向量数据库产品。

参考美国2022年上市的数据库公司Snowflake以及还未上市的独角兽公司Databricks,融资规模都已达到数十亿美元。向量数据库如今已经走完了为赛道“正名”的第一步,目前处在产业化的开端。而数据库行业先天具有高资本投入、高技术门槛的特点,一款数据库通常需要经过成百上千的工程师研发迭代,技术产品的工程积累预计将成为该赛道竞争的决定性条件。

前大模型时期通过搞科研、发论文、做开源为向量数据库正名后,处于后大模型时期的Zilliz将2023年视为“商业化元年”。

在开源产品Milvus之外,公司将云服务产品Zilliz Cloud作为商业化的关键。Zilliz Cloud可以帮助企业用户构建十亿级向量数据库,部署和扩展向量搜索服务,收费模式分为存储收费(按数据规模与存储时间)与计算收费(按机器数与运行的小时数)。这也是该公司进一步稳固市场的核心所在。

其他相关
办培训学校需要哪些手续,记忆力训练培训班有用吗,出狱四年,他成了成功的样本:办起培训班,编纂英语单词记忆词典!

办培训学校需要哪些手续,记忆力训练培训班有用吗,出狱四年,他成了成功的样本:办起培训班,编纂英语单词记忆词典!

作者: 极简大道 时间:2024-02-23 阅读: 134
今年62岁的李广喜曾因合同诈骗,入狱近7年,2013年刑满出狱后,他利用特长办起了英语培训班,并出版发行了由他自己编纂的英语单词记忆词典。7月14日,62岁的李广喜受河南省第四监狱(以下简称省四监)邀请,作为社会帮教志愿者再次回到监区,用他自己的亲身经历为服刑人员作报告。...

训练记忆力的培训机构,办培训学校需要哪些手续,35个社区开办“记忆学堂”!普陀老人看过来→

作者: 极简大道 时间:2024-02-23 阅读: 133
你了解认知障碍吗?认知,是机体认识和获取知识的智能加工过程,涉及学习、记忆、语言、思维、精神、情感等一系列随意、心理和社会行为。认知障碍指与上述学习记忆以及思维判断有关的大脑高级智能加工过程出现异常,从而引起严重学习、记忆障碍,同时伴有失语或失用或失认或失行等改变的病理过程。然而,在现实生活中,许多老年人患上了认知障碍却往往不被家人或周围人所了解和理解。随着人口老龄化进程的加速,老年认知障碍(俗称“老年痴呆症”)正成为一个日益严峻的全球性公共卫生问题。...

训练记忆力的培训机构,全国记忆力培训品牌,朱丹加盟《最强大脑》引领智力竞技新潮流

作者: 极简大道 时间:2024-02-23 阅读: 138
朱丹官宣加盟《最强大脑》神迹项目重返大脑赛场近日,备受瞩目的《最强大脑》神迹项目正式宣布,朱丹将作为中国战队的第一位嘉宾重返大脑赛场。这一消息引发了广泛关注和热议,...

记忆力训练营,加盟店帮忙选址的猫腻,大学生卖学生记忆器,年销售额达70万元

作者: 极简大道 时间:2024-02-22 阅读: 99
重庆师范大学位于重庆市合川区大学城校区,周边有好几所中小学。...
怎样才能恢复记忆力,怎么训练自己的记忆力,提高孩子的记忆力多练这几个方面孩子记忆力惊人

怎样才能恢复记忆力,怎么训练自己的记忆力,提高孩子的记忆力多练这几个方面孩子记忆力惊人

作者: 极简大道 时间:2024-02-06 阅读: 136
3-6 岁是孩子大脑发育的重要时期,以下是一些可以帮助提高孩子记忆力的方法:1. 游戏和活动:通过玩记忆游戏、拼图、积木等游戏,可以锻炼孩子的记忆能力。例如,玩“记忆翻翻牌”游戏,让孩子记住卡片的位置。2. 故事和诗歌:给孩子讲故事、读诗歌可以帮助他们提高记忆力。可以让孩子尝试复述故事或背诵诗歌,以加强记忆。...
能让记忆力变好的方法,怎样才能恢复记忆力,练乐器记忆力好

能让记忆力变好的方法,怎样才能恢复记忆力,练乐器记忆力好

作者: 极简大道 时间:2024-02-06 阅读: 131
音乐的魅力在于,不仅能给身体和心灵带来各种正效应,还有利于刺激大脑,提高大脑功能。近期,瑞士苏黎世大学研究小组发表在《神经科学杂志》的一项研究报告,演奏音乐(或习练乐器)能够增强大脑之间的连接,使大脑的结构和功能更为紧密联系,从而锻炼大脑,提高认知功能。研究小组招募了103名专业音乐家和50名非音乐家(包括不同年龄的男性和女性)。利用功能性磁共振成像、结构性磁共振成像及弥散张量成像技术,对153人进行大脑扫描和检查,并通过先进的机器学习技术,对扫描结果进行分析和比较。...

年度爆文