深厚的Cogito与混合AI“推理”模型从隐身出现
一家新公司Deep Cogito已从隐身中出现,一个公开可用的AI模型家族可以在“推理”和非调理模式之间切换。
诸如Openai的O1之类的推理模型在数学和物理等领域表现出了巨大的希望,这要归功于它们通过逐步解决复杂问题来有效地检查自己的能力。但是,这种推理是有代价的:更高的计算和延迟。这就是为什么像Anthropic这样的实验室正在追求“混合”模型架构,将推理组件与标准的,非争议的元素相结合。混合模型可以快速回答简单的问题,同时花费更多的时间考虑更具挑战性的查询。
所有Deep Cogito模型,称为Cogito 1,都是混合模型。 Cogito声称它们的表现优于相同尺寸的最佳开放型号,包括来自Meta和中国AI启动DeepSeek的型号。
“每个模型都可以在回答之前直接回答[…]或自我反射(如推理模型),”该公司在博客文章中解释说。“ [所有]是由一个小型团队在大约75天内开发的。”
>Cogito 1型号的范围从30亿个参数到700亿个参数,Cogito表示,在接下来的几周和几个月中,最多可达6710亿个参数的模型将加入它们。参数大致对应于模型解决问题的技能,其中更多的参数通常更好。
cogito 1不是从头开始开发的,要清楚。 Deep Cogito建立在Meta开放的美洲驼和阿里巴巴的Qwen模型之上,以创建自己的模型。该公司表示,它采用了新颖的培训方法来提高基本模型的性能并实现可切换的推理。
根据Cogito内部基准测试的结果,最大的Cogito 1型号Cogito 70B,推理的表现优于DeepSeekR1关于一些数学和语言评估的推理模型。 Cogito 70b有理由残疾人,也将Eclipses Meta在LiveBench上发行了Llama 4 Scout模型,这是一种通用AI测试。
。每个cogito 1型号都可以下载或通过云提供商烟花上的API和AI一起使用。
与其他流行的公开可用的AI模型图片相比,Cogito 1的表现:Deep Cogito“目前,我们仍处于[我们]缩放曲线的早期阶段,仅使用一小部分计算,通常用于传统的大型语言模型帖子/持续培训,” Cogito在其博客文章中写道。 “前进,我们正在调查自我完善的补充培训方法。”
根据向加利福尼亚州提交的文件,总部位于旧金山的Deep Cogito成立于2024年6月。该公司的LinkedIn页面列出了两个联合创始人Drishan Arora和Dhruv MalhotRA。 Malhotra以前曾是Google AI Lab DeepMind的产品经理,他在那里从事生成搜索技术。 Arora是Google的高级软件工程师。
Deep Cogito,他的支持者包括南方公园公地,根据PitchBook的说法,旨在建立“一般超级智能”。该公司的创始人理解这句话的意思是AI可以比大多数人类更好地执行任务,并且“发现我们尚未想象的全新功能。”
发布评论