2023年11月,国度工业信息平安成长研究中间、工信部电子常识产权中间发布的《中国AI年夜模子立异和专利手艺阐发陈述》显示,我国年夜模子专利申请总数已冲破4万余件,年夜模子相干范畴的立异日趋活跃。
相对“能做诗会画画”的针对to C市场的年夜模子而言,面向to B市场的年夜模子若何深耕行业,充实领会行业常识,而且深切到行业客户的营业流程中,是构成行业壁垒或说差别化竞争优势的要害。新华社研究院中国企业成长研究中间发布的《人工智能年夜模子体验陈述3.0》显示,年夜模子厂商在手艺实力上显现出百家争鸣的态势,分歧厂商在产物特点和优势上各有所长。
除身处高潮中间的年夜模子厂商与年夜模子自己之外,那些为年夜模子的行业落地赋能并供给相干根本软硬件和办事支持的企业,不该该只是“无名英雄”,相反他们才是行业用户用好年夜模子不成或缺的靠得住包管。
年夜模子落地最主要
对良多致力在年夜模子普惠的根本举措措施供给商和办事商而言,年夜模子是AI根本举措措施和办事中的一个主要构成部门,是撬动AI行业利用的一个支点。他们开辟、优化年夜模子,旨在为那些本身不具有自力开辟年夜模子的能力,或没有需要本身开辟年夜模子的企业用户供给一个快速摆设和利用年夜模子的路径和平台,让各行各业的用户此刻就可以享遭到年夜模子带来的盈利。
作为AI根本软件供给商,九章云极DataCanvas为企业练习和利用年夜模子赋能,公司自研的多模态年夜模子系列——DataCanvas Alaya九章元识作为根本软件举措措施AIFS(AI Foundation Software)的主要构成部门,为企业用户供给了Foundation model,便利用户在此根本之上练习、微调本身的年夜模子。
对年夜模子练习的更年夜挑战在在,若何在削减算力耗损的环境下,加快年夜模子的练习,而且在练习完成后更,更好地调教这个模子,并使之可以或许“飞入平常苍生家”,让泛博的中小企业受益。
九章云极DataCanvas之所以倾慕打造Alaya元识系列年夜模子,初志亦是如斯。所谓元识,来历在释教用语,意为先天具有的熟悉能力。Alaya元识系列年夜模子自己综归并消纳多种能力,旨在经由过程年夜模子的通用能力,最年夜水平地感知人类古今的所有常识、外界的运行纪律、科学事理等,在此根本上更好地撑持人类的各项营业,并具有类人的能力。
Alaya元识系列年夜模子的素质仍是赋能AI利用:一方面,企业用户可以在Alaya元识年夜模子之长进行二次练习或微调,以知足营业利用需求;另外一方面,九章云极DataCanvas具有本身的智算中间,Alaya元识系列年夜模子就摆设在此智算中间里,中小企业用户可以直接挪用九章云极DataCanvas供给的年夜模子办事。
以Alaya元识系列年夜模子为牵引,九章云极DataCanvas正在积极寻觅年夜模子在企业营业中的落地场景。今朝除通用年夜模子之外,公司还推出了金融行业年夜模子,将来还将发布更多针对行业的年夜模子,赋能和鞭策年夜模子利用的普和。
元识年夜模子的不同凡响
跟着“百模年夜战”渐成天气,财产界、学术界还媒体纷纭发布本身的年夜模子评测榜单。但因为没有公认有用的评测尺度和体例,和分歧榜单的偏重点分歧,致使分歧的排行榜的成果差别很年夜,乃至是有天地之别。公然公允公道的评测确切可以或许为行业用户选择年夜模子供给有益的鉴戒和参考,可是除一些要害的手艺指标以外,年夜模子可否有用地解决行业用户的营业痛点,不但好用更要易用,才应当是选择年夜模子的主要尺度。
Alaya元识年夜模子是九章云极DataCanvas自研的“通识+财产”白盒年夜模子。作为九章云极DataCanvas AIFS的焦点能力之一,它秉承开放友爱的开源理念,供给了一系列分歧设置装备摆设和参数、具有业界前沿能力和手艺的预练习年夜模子,付与用户更年夜自由度的AI立异能力,以加快实现年夜模子在多元营业场景中的落地和利用。
1.“白盒”年夜模子为用户供给更年夜自由度
此刻,市场上的良多年夜模子都是“黑盒”,固然在必然水平上开源了算法和架构,答应用户在上面进行练习,可是依然遭到诸多限制。好比,固然答应用户利用该年夜模子,可是不克不及做微调,或不答应用户做一些本身独有的贸易化利用。Alaya元识是周全开源且license友爱的“白盒”年夜模子,遵守Apache 2.0 license,行业用户可以在Alaya元识年夜模子之上自由地练习、微调本身的年夜模子。
2.“多模态”是需要条件,更是立异的手段
所谓多模态年夜模子,是指可以处置来自分歧模态,如图象、语音、文本等多种信息的机械进修模子。今天,多模态已成了年夜模子的“标配”。Alaya元识年夜模子不但可以撑持文本、图象,还能撑持时序数据、布局化数据等。
举例来讲,我们在装备维修手册中可能会常常看到近似的描写——“如图所示,故障点为图中红圈所示的位置……”假如是一个仅仅基在文档的年夜模子,就很难理解这句话的准确寄义。图文示意就是一个典型的多模态利用。
对Alaya元识年夜模子来讲,深耕多模态无庸置疑。九章云极DataCanvas还想做得更多,行将“数据”也作为主要的模态之一进行深切研究。利用年夜模子,数据是必需逾越的一道门坎。九章云极DataCanvas在天然说话的理解、文生图、代码生成等是年夜模子利用得比力好的范畴有良多已落地的成功案例。可是将数据作为一个模态进行研究并练习年夜模子的公司寥寥可数,而九章云极DataCanvas走在前列。好比,九章云极DataCanvas发布的DataPilot,作为一种数据处置新范式和基在年夜模子的新一代数据架构东西,经由过程充实操纵元识年夜模子的通用文本的理解和生成能力,和在数据范畴的微调优化,可以或许帮忙用户实现数据在建模全生命周期内的智能化、主动化。
在练习年夜模子的进程中,数据处置、数据转换、数据分类、数据标签建造、数据存储等是费时吃力的工作。之前,假如有近似需求,凡是是由营业部分先向IT部分提出需求,IT部分还要乞助数据湖仓扶植部分,假设没有现成的数据,还要再找到原始存储数据,进行转换、清洗才能导入到数仓中并进行揭示。有用缩短这条数据处置的长链条对年夜模子的利用具有主要价值,可以有用削减年夜模子练习、利用进程中所花费的人力,还能晋升年夜模子利用的结果。DataPilot能可以年夜幅下降数据集成、治理、建模、计较、查询、阐发、机械进修建模全链路的手艺门坎,同时下降数据驱动营业成长的本钱,加速企业数字化立异的历程。
3.新的模子练习机制,降本增效
尽人皆知,练习一个年夜模子的本钱是十分昂扬。高就高在,年夜模子不成能仅凭一句话就可以正确理解其寄义,而是要输入和处置更多的语议语境,是以对算力的耗损是庞大的。年夜模子必需容纳更多更长的内容。Alaya元识年夜模子采取了改良的Attention机制、更长的Context window、可组合的微调和全新的Masking机制等,在有用削减练习所耗损的算力根本之上,包管其理解的正确性,同时晋升处置速度。
九章云极DataCanvas具有一支研发团队,专门负责练习机制的研发与立异。Alaya元识年夜模子采取了新的Attention机制,不但可以下降算力的耗损,并且在练习前与练习后,可以或许针对多模态实现有用的数据对齐。这是九章云极DataCanvas独有的手艺,在练习时可以或许很好地容纳多模态如许一种练习体例。
4.系列模子矩阵,更好地知足“通识+财产”的需求
Alaya元识不是一个年夜模子,而是一系列年夜模子,模子参数由小到年夜,笼盖从通识到垂直行业,可以或许更好地知足用户多样化的需求。九章云极DataCanvas正式开源年夜模子矩阵中Alaya-7B Foundation Model通识年夜模子和Alaya-7B Chat Model对话年夜模子两年夜模子,和LLMOps年夜模子东西链中的LMS模子运行东西和LMPM 提醒词治理器两年夜东西,可以或许有用地鞭策年夜模子在各类行业场景的现实利用。
Alaya-7B:https://github.com/DataCanvasIO/Alaya
LMS模子运行东西:https://github.com/DataCanvasIO/LMS
LMPM提醒词治理器:https://github.com/DataCanvasIO/LMPM
在利用场景中,九章云极DataCanvas以Alaya元识年夜模子和LLMOps年夜模子东西链为根本研发出TableAgent数据阐发智能体,TableAgent在充实的理解用户意图后,可以或许自立地操纵统计科学、机械进修、因果揣度等高级建模手艺从数据中发掘价值,进而供给阐发不雅点和指点步履的深入看法,实现人人都是数据阐发师。
TableAgent公测地址:https://tableagent.DataCanvas.com
在金融、制造、新能源等范畴,Alaya元识年夜模子已有了良多落地的场景,而且实现了东西链、年夜模子和行业利用的融会立异。好比, Alaya元识年夜模子连系东西链之一的DingoDB多模向量数据库,为企业供给了企业常识管家解决方案。
九章云极DataCanvas经由过程软件根本举措措施为to B利用赋能的定位也决议了打造一个白盒年夜模子,让各行各业的用户都能经由过程元识年夜模子和AIFS根本软件,在本身的专业范畴练习、优化属在本身的年夜模子。从通识起步,将堆集的经验用在分歧财产,这就是九章云极DataCanvas打造“通识+财产”年夜模子的初志。
Alaya元识年夜模子包括在AIFS当中,而AIFS供给了年夜模子所需的数据预备、练习微调体例等,用户只要告知AIFS数据在哪里,它便可以主动完成根本举措措施软件的加快、数据处置、数据打标等工作。用户没必要再像之前那样本身选择分歧的东西,并将其串接起来。AIFS主动完成了所需的串接和处置工作,年夜年夜减轻了用户的承担。Alaya元识年夜模子和AIFS的这类定制化能力也是其深受用户青睐的一个主要缘由。
“年夜模子+小模子”两手硬
此刻一说到人工智能,言必提年夜模子。可是这其实不意味着要丢弃小模子,一会儿全数转到年夜模子。九章云极DataCanvas认为,将来的生态必然是“年夜模子+小模子”,具有分歧特点的模子可以适配分歧的场景。
不成否定,年夜模子在面临通用的、具有必然逻辑推理能力、类人的天然说话处置方面具有生成的优势。可是今朝,年夜模子的利用场景还不敷丰硕,仍处在不竭试探当中。而在那些需要切确计较或是一些特定的利用场景中,小模子仍是不成或缺的。在年夜模子之上,采取垂式蒸馏手艺,将其蒸馏到小模子上,操纵小模子可以更好地知足科学计较、归因阐发等场景的利用需求。别的,此刻市场上也有良多AI引擎经由过程挪用、编排一些小模子,为营业供给支持。从产物线结构看,九章云极DataCanvas正在进行内部调剂,但愿将来更多营业和产物可以或许由年夜模子供给支持,同时也会果断地依托“年夜模子+小模子”不竭进行拓展。
中国科学手艺信息研究所发布的《中国人工智能年夜模子地图研究陈述》显示,在中国已发布的年夜模子中,跨越对折已开源。九章云极DataCanvas不但将年夜模子开源,并且将AIFS中的一些组件也开源,目标就是让各类范围的企业,特别是中小企业乃至小我,都能在九章云极DataCanvas开源的年夜模子和相干根本举措措施之上完成年夜模子的练习、微调和利用的贸易化。九章云极DataCanvas致力在人工智能开源生态的扶植,但愿在此中占有一席之地并深深扎根。(作者/郭涛)
责任编纂:Linda开云-客户满意是我们服务的宗旨!
联系我们
Copyright © 2009-2025 开云版权所有 备案号:粤ICP备09100880号-1
地址:深圳市宝安区固戍街道裕兴科技工业园G栋