推文1.png

撰文 / 智沅 像素
审核/智枢

图片来源:网络


在 AI 技术狂飙突进的时代,新入局者想要崭露头角并非易事。然而,成立仅 2 年的上海阶跃星辰智能科技有限公司,却凭借硬核技术与创新实力,在高手如云的 AI 大模型领域闯出一片天地。


|从「小透明」到开源先锋:两个炸场模型背后的技术革命

2024年2月18日,全球开发者社区被两则中文公告点燃:阶跃星辰开源了Step-Video-T2V(300亿参数视频模型)和Step-Audio(中文语音模型)。前者能生成540P高清视频,后者在汉语六级考试中碾压同类产品。有开发者实测发现,用Step-Audio给东北话配音,连「儿化音」都拿捏精准。


这不过是其技术狂飙的冰山一角。在ChatGPT掀起AI军备竞赛的两年里,这家公司以平均每月0.46个模型的速度,祭出11款大模型。


春节期间,当同行们还在复盘DeepSeek的爆款路径时,他们六天连发六个模型,其中给茶百道定制的Step-1V质检系统,能揪出「小料盒未密封」这种细节,日均节省3小时巡检时间。

|怀揣 AGI 梦想的启航

阶跃星辰诞生于 2023 年 4 月 6 日,总部坐落于上海市徐汇区的繁华地段。公司名称蕴含深意,寓意以阶段性的跨越,奔赴人工智能的星辰大海。创立之初,便锚定通用人工智能(AGI)这一终极目标,立志成为推动 AI 技术变革的先锋力量。

为实现宏伟愿景,阶跃星辰在算力、算法、数据和系统四大关键要素上精心布局。自建机房与云上算力结合,搭建起可训练万亿参数模型的强大算力平台;汇聚顶尖科研人才,深耕算法创新;建立高质量数据集,为模型训练提供充足 “养料”;优化系统架构,保障研发与运营高效运转。这般高瞻远瞩的起步,为公司发展奠定了坚实基础。

e8bf17b2e92a819c89bb1ce4a140638.png

|「豪华」天团铸就创新引擎

一家企业的高度,往往取决于其团队的实力。阶跃星辰能在短时间内脱颖而出,离不开豪华核心团队的鼎力支撑。


创始人姜大昕,是人工智能领域的资深大咖,曾在微软担任副总裁等要职,积累了深厚的技术底蕴与卓越的领导能力。凭借对行业趋势的精准洞察,他毅然创立阶跃星辰,吸引众多顶尖人才加入。

1747725525546.png

团队中,ResNet 作者之一张祥雨的加入,为多模态大模型的视觉技术注入尖端力量;


AI 系统专家朱亦博主导搭建高效算力平台;


数据处理专家焦斌星建立完善的数据管理体系。


这些来自不同领域的精英,各展所长,协同发力,成为公司技术创新的核心驱动力。


|Step 系列大模型

自成立以来,阶跃星辰在技术研发方面取得了丰硕的成果,其推出的 Step 系列通用大模型备受瞩目。这些大模型涵盖了语言、多模态、图像生成等多个领域,以其强大的性能和卓越的表现,在 AI 大模型市场中占据了重要的一席之地。


Step-2 万亿参数语言大模型正式版

Step-2 作为阶跃星辰的旗舰产品之一,是一款具有万亿参数的语言大模型。其参数规模之大,意味着模型能够学习和理解更加复杂和丰富的语言模式和知识体系。通过对海量文本数据的深度学习,Step-2 在语言理解、生成和逻辑推理等方面展现出了惊人的能力。


语言理解方面,Step-2 能够准确把握文本的含义,无论是日常对话、新闻报道还是专业学术文献,它都能迅速理解其中的关键信息,并进行深入分析。例如,当输入一篇关于科技发展趋势的文章时,Step-2 能够快速提炼出文章的核心观点、重要技术突破以及对未来的展望,为用户提供清晰准确的内容摘要。


语言生成方面,Step-2 更是表现出色。它可以根据给定的主题或提示,生成逻辑连贯、内容丰富、语言流畅的文本。无论是撰写新闻稿件、创作小说故事,还是生成专业报告,Step-2 都能轻松胜任。以创作小说为例,用户只需提供一个简单的故事梗概,Step-2 就能展开丰富的想象,构建出一个情节跌宕起伏、人物形象鲜明的完整故事,其生成的文字质量甚至能够达到专业作家的水平。


逻辑推理方面,Step-2 能够对复杂的问题进行深入思考和分析,给出合理的解决方案。比如,在解决数学问题、逻辑谜题或者进行法律案例分析时,Step-2 能够运用其强大的推理能力,逐步推导,得出准确的结论。这种强大的逻辑推理能力,使得 Step-2 在智能客服、智能写作、智能翻译等多个领域都具有广泛的应用前景。

f029fc72e2f7d73fda2c5562cabdc1a9.jpg

Step-1.5V 多模态大模型

Step-1.5V 多模态大模型是阶跃星辰在多模态领域的一次重大突破。它打破了传统模型仅能处理单一模态数据的局限,能够同时理解和处理文本、图像、音频等多种类型的数据,实现了不同模态信息之间的深度融合和交互。

image.png

阶跃星辰Step-1.5V多模态大模型视频理解能力演示

实际应用中,Step-1.5V 展现出了强大的多模态理解和生成能力。例如,当用户输入一张图片和一段描述文字时,模型能够准确理解图片的内容和文字的意图,并根据两者的信息生成相关的文本描述或回答问题。假设用户上传了一张美丽的自然风光照片,并询问 “这张照片可能拍摄于哪个季节?”Step-1.5V 能够通过对图片中植被、气候特征等元素的分析,结合文字描述,准确判断出照片拍摄的季节,并给出详细的解释。


智能交互领域,Step-1.5V 的多模态能力也发挥得淋漓尽致。用户可以通过语音与模型进行交互,同时展示相关的图片或视频,模型能够综合这些信息,为用户提供更加全面和个性化的服务。


Step-1X 图像生成大模型

Step-1X 图像生成大模型专注于图像生成领域,能够根据用户输入的文本描述,生成高质量、逼真的图像。它的出现,为创意设计、影视制作、游戏开发等行业带来了全新的创作方式和无限的可能性。

创意设计方面,设计师可以利用 Step-1X 快速生成各种设计草图和概念图。例如,当设计师想要设计一款新的汽车外观时,只需输入对汽车外形、颜色、风格等方面的描述,Step-1X 就能迅速生成多幅不同风格的汽车设计图,为设计师提供丰富的创意灵感和设计方向。

640 (1).gif

影视制作和游戏开发中,Step-1X 的图像生成能力更是具有巨大的应用价值。对于一些难以通过实际拍摄或传统建模实现的场景和角色,制作团队可以通过 Step-1X 生成逼真的图像素材,大大降低了制作成本,提高了制作效率。


除了以上三款主要的大模型产品,阶跃星辰还在不断推出新的模型和功能,持续丰富和完善其产品体系。例如,2025 年 1 月 16 日上线的自研推理模型 Step Reasoner mini,进一步拓展了大模型的能力边界,使模型在逻辑推理、问题解决等方面具备更强的能力,为用户提供更智能、更准确的服务。


|不抢C端流量,专攻产业深水区

当友商们扎堆开发聊天机器人时,阶跃星辰选择了一条「硬核」路线:

在陆家嘴的国泰君安总部,「君弘灵犀」大模型正在改写投研规则。这个与界面财联社共建的证券模型,能秒读300页财报,抓取「存货周转率下降0.2%」这种细节生成预警。其衍生的「小财神」投顾助手,已有超10万个人投资者每天追问:「明天宁德时代会涨吗?」


在昆山的智能工厂,Step-1X图像模型让质检员告别「火眼金睛」。过去需要显微镜检测的精密零件,现在由AI进行纳米级扫描,瑕疵识别准确率99.97%。


在西双版纳的普洱茶山,多模态模型正学习制茶师傅的「抖条」手法。通过动作捕捉和温湿度传感,AI能预判杀青火候,把30年经验浓缩成一套算法。


AGI征途:四步走重构智能未来 

站在通用人工智能(AGI)的探索前沿,姜大昕提出“四步走”技术演进框架:从语言大模型的基础对话能力,到多模态模型的图文音视频理解,再到融合物理认知的“世界模型”,最终抵达AGI的终极形态。


这一路径强调技术要素的系统性突破——阶跃星辰已在千亿参数规模验证可行性,其视频生成模型对光影、物体运动的精准模拟,正是向“世界模型”迈进的重要一步。


但这条路上仍有硬核挑战。训练万亿级参数模型需要重新设计分布式计算架构,多模态数据对齐涉及复杂的跨模态表征学习,而让AI理解物理规律更需突破现有算法范式。


对此,阶跃星辰选择开放协同:

通过开源核心模型吸引全球开发者共建生态,与高校联合攻关基础理论,在金融、制造等场景中积累真实世界数据。这种“技术深耕+生态开放”的双管齐下,或许正是中国AI企业参与全球竞赛的差异化答案。 

fb4c4113c5d26a8eda9c697b66da47a.png

从非遗工坊到星辰大海,阶跃星辰的征程才刚刚开始——因为最好的模型,永远在下一个阶跃。


新大会.jpg

免责声明:本文为作者独立观点,不代表米塔之家立场。如因作品内容、版权等存在问题或其他任何异议,欢迎联系


AIGC综合资讯交流群,欢迎入群交流!共享AIGC最新热门资讯

image.png


免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。

版权声明:作者保留权利。文章为作者独立观点,不代表米塔之家立场。
了解更多元宇宙知识,结识元宇宙人脉,扫码加入元宇宙行业生态社群。

联系编辑

微信二维码

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部