网站导航

开云新闻 > 开云-九章云极DataPilot:大模型驶入向量海的数据领航员

当前位置:主页 > 开云新闻 >
开云-九章云极DataPilot:大模型驶入向量海的数据领航员
时间:2024-07-29作者:肥仔
  • 算力、算法、数据,被誉为AI的三大体素。对当前年夜火的生成式AI、年夜模子,也不破例。

    跟着国表里硬件厂商、云厂商的百花齐放,AI算力成为最轻易实现的要素;AI算法也有相对成熟的经典算法、调优手段,何况还浩繁的AI根本软件供给坚实保障。

    而年夜模子之所以“年夜”,更多的与数据相干。数据量越年夜、数据质量越高,年夜模子的结果就越好。PC互联网、移动互联网、物联网等发生了海量的数据,而文字、图片、视频等多模态的情势,则进一步加年夜了数据的复杂度。若何有用地解决数据存储、计较和畅通,使之为年夜模子进化供给靠得住的进修源,成为年夜模子成长确当务之急。

    2023年6月30日,AI根本软件供给商九章云极DataCanvas在北京召开新品发布会,发布人工智能利用构建根本举措措施平台AIFS的同时,面向全球首提数据“向量海”(Vector Ocean),并推出畅游在“向量海”的基在年夜模子的新一代数据架构东西产物DataPilot数据领航员。

    九章云极DataCanvas产物计谋地图

    向量海,数据成长的最终形态

    一向以来,AI和数据关系紧密亲密。以往更多的是数据对AI的单向输出,凡是被认为是AI的原料、根本要素,而年夜模子的呈现,让数据获得了AI的反向赋能。

    当AI能力跃升而与数据实现“双向奔赴”时,数据的将来在哪里?DataPilot给出的谜底是——“向量海”。

    向量,一个数学名词,是指具有巨细和标的目的的量。在二维空间中,向量凡是由两个数值构成,暗示在程度和竖直标的目的上的巨细。在三维空间中,向量凡是由三个数值构成,暗示在三个标的目的上的巨细。

    在计较机科学中,向量是一种经常使用的数据布局,也被称为数组或列表。每一个向量都包括多个元素,每一个元素都有一个索引,可用在拜候或点窜其对应的值。

    在机械进修和数据科学中,向量凡是暗示为一组数字,它们组成了一个多维的数值空间。向量的每一个维度代表该空间的一个分歧的特点或属性,例如图象中分歧像素点的色彩值、文本中每一个词的呈现频率等。经由过程对向量进行数学运算,可以实现各类机械进修算法和数据阐发手艺,例如聚类、分类、回归等。

    “向量海”的提出,是九章云极DataCanvas基在多年来在数据库范畴的研究和实践,连系向量数据的成长标的目的,缔造性提出的数据成长的最终形态。

    DataPilot,年夜模子驶入向量海的数据领航员

    作为向量海和年夜模子之间需要一座桥梁,九章云极DataCanvas此次提出的DataPilot即是如许的脚色,为向量数据在年夜模子开云体育app中的利用成立链接和指明标的目的。

    作为一种数据处置新范式、基在年夜模子的新一代数据架构东西产物,DataPilot经由过程充实操纵DataCanvas Alaya九章元识年夜模子的通用文本的理解和生成能力和在数据范畴的微调优化,帮忙用户实现数据在建模全生命周期的智能化与主动化。

    据九章云极DataCanvas公司副总裁周晓凌介绍,DataPilot的特征包罗多模“向量海”数据架构,按需主动化数据集成、代码生成、流程编排和阐发计较,和基在天然说话的数据获得、阐发和机械进修建模能力。DataPilot可以或许年夜幅下降数据集成、治理、建模、计较、查询、阐发、机械进修建模全链路的手艺门坎,下降数据驱动营业成长的本钱,加速数字化立异的历程。

    恰是基在“向量海”理念,DataPilot所包括的DataCanvas RT及时决议计划中间平台、开源DingoDB多模向量数据库等各类数据软件,让用户具有AI手艺冲破环境下亟需的及时、多模态的数据能力。

    此中,DingoDB作为一款开源的多模态向量数据库,将是向量海时期的壮大引擎。它连系了数据湖和向量数据库的特征,撑持存储任何类型(键值、PDF、音频、视频等)和任何巨细的数据。经由过程DingoDB,用户可以构建专属的数据“向量海”,非论是布局化仍是非布局化数据,仅经由过程1套SQL便可完成多模态数据的阐发与科学计较。

    向量数据库,将来已来

    客岁以来,跟着生成式AI和年夜模子的爆火,向量数据库站优势口浪尖。

    作为一种专门用在存储、索引和查询嵌入向量的数据库系统,向量数据库可让年夜模子更高效地存储和读取常识库,而且以更低的本钱进行Fine Tune(模子微调)。同时,向量数据库还自带多模态功能,可以年夜幅度拓展年夜模子的时候鸿沟和空间鸿沟。这些都注定向量数据库成了年夜模子的数据好伴侣。

    向量数据库市场空间庞大,今朝尚处在从0-1阶段。客岁以来,国表里多个向量数据库产物均取得了可不雅的融资。据东北证券猜测,到2030年,全球向量数据库市场范围有望到达500亿美元,国内向量数据库市场范围有望跨越600亿元人平易近币。

    “数据的有用存储、计较和畅通依然具有广漠的阐扬空间,在实际世界中,行业、企业、专业之间存在浩繁自力的数据领地,重大的数据量和贯通数据领地的难度预示着通用年夜模子的落地难度。”九章云极DataCanvas公司董事长方磊暗示。

    DataPilot携向量海、向量数据库DingoDB的呈现,恰是为领会决年夜模子的新一代数据困难而生。面向将来,DataPilot有望在年夜模子成长中留下浓墨重彩的一笔。

    责任编纂:Linda

上一篇:开云-Art Road 2023特别展 SHOWCASE于7月23日举行 下一篇:开云-江森自控与产业合作伙伴共同发布《中国智慧城市发展白皮书》

开云-客户满意是我们服务的宗旨!

联系我们

Copyright © 2009-2025 开云版权所有 备案号:粤ICP备09100880号-1

地址:深圳市宝安区固戍街道裕兴科技工业园G栋