垂直大模型,落地有多难?

当下大模型赛道的现状:一边是创业公司基于开源大模型速成,一边是大厂在各种内卷大模型参数 。
据机构不完全统计,目前中国10亿参数规模以上的大模型已发布79个 。在大参数内卷的过程中,市场开始出现另一种声音“不具备发展方向的参数提升是没有意义的” 。
为此,在发展方向上,当下一部分大模型已经聚焦到垂类领域应用 。基于成千上万的模型发展,底座或许会发生改变,但仔细一想,也总需要有人能够在垂类行业中跑出来 。
同时,在发展初期,虽然闭源大模型在质量上更优,也相对安全,但大模型生态终究需要一定程度的内卷,开源实际上可以助长大模型的繁荣 。另一个角度,基于开源众多企业有了赛道参赛的资格,但也总有人轻易就倒在了第一关匣——算力短缺 。
说到底,大模型数量是在以倍数的数量在增长,但如果片面的看待大模型日益增长的数量,那么某种程度上也会忽略掉背后部分公司对大模型的抉择、挣扎,甚至是选择后放弃的可能性 。
众所周知,人工智能三要素是:算力、算法和数据 。开源只是处于算法阶段,之后企业还需要对其进行大量的算力支持和数据训练,这背后的成本是高昂的 。
01
垂直大模型,
创业公司还有盼头吗?
在开源大模型选择上,基于成本和定制开发的原因,选择小参数模型的创业型企业不在少数,甚至是该类企业的首选 。
一个是预训练成本问题 。
国盛证券曾经估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间 。
包括在今年1月,平均每天约有1300万独立访客使用,对应芯片需求为3万多片英伟达,初始投入成本约为8亿美元,每日电费在5万美元左右 。
更何况,在大量资金投入之前,还需要大量的数据资源来支撑模型训练 。为此,另一个原因是预训练需求问题 。
有业内也曾表达过对此的看法:“大模型本身的泛化能力仍受限于数据 。”
因为如果一旦对大模型的高质量数据筛选和训练得过少,大模型的输出质量问题是很明显的,在体验上,用户的体验感也会大大降低 。
可以说,在预训练的过程中,仅仅是在数据的积累上就已经花费了大量的资金与时间 。
更何况,在大模型赛道中,大多数的创业公司都是围绕在行业垂直领域进行发展,付出虽然相对少,但一定不轻松 。
具体一点来说就是,如果大模型要改变行业的商业模式的话,那么对此最简单的判定标准就是,该类大模型是否具备的行业数据足够多,例如要对藏在暗处的黑产要有足够的了解,才能不被黑产所用,处于安全被动的状态 。
另一个判定的标准就是,大模型在运行之时所处理的数据,最终输出的质量如何 。
说到底,想要基于开源模型去打破模型垄断,还需要对大量的数据进行足够的优化提升,并且对基础设施的投入足够完善 。
如今的开源大模型实际上更像是网络时代的,没有大厂的落地场景、数据积累等优势的创业公司,发展起来很不容易,但仍然存在机会 。
事实上,达摩院也曾将“大小模型协作发展”视为未来趋势之一 。
就连创业公司追一科技相信“垂直大模型是坚实的机会,就像发现美洲大陆这件事远不只成就了一人而已” 。
于是如今我们可以看到众多创业公司开始选择入局大模型赛道,其中包括毫末智行、创新奇智、元语智能等AI创业公司所推出的雪湖·海若、奇智孔明、元语等大模型 。
不过,国内虽然尚未有产品面向C端,但基于B端,大厂已经开始实现初步落地的过程中 。