自1956年“人工智能”一词被提出以来,AI已经走过了将近70年的风雨历程。它的发展可以划分为三个阶段:起初的萌芽期(1950-2005年),接着的探索期(2006-2019年),以及目前的快速发展期(2020年至今)。但要说到大型AI模型的历史,得从2006年深度学习在《Science》杂志上的首次亮相说起。不过,在2012年之前,大家对大型模型的兴趣并不浓厚。

顺便提一下,如果你想用虚拟卡来享受海外付费服务,试试Wildcard吧!一分钟就能开卡,轻松订阅海外软件服务。使用邀请码AA1988,还能省下2美元的开卡费。开好卡后,用支付宝充值,就能升级ChatGPT或其他海外订阅服务了。

2012年,AlexNet在ImageNet挑战赛中的胜利,成了深度学习领域的转折点,吸引了整个行业的目光。也正是从那时起,谷歌、百度等科技巨头开始重视AI的发展。2013年,Google Brain项目推出了DistBelief模型,为大规模分布式训练打下了基础。2014年,GAN(生成对抗网络)问世,开启了深度学习在生成模型领域的新篇章。到了2017年,Google推出了Transformer模型,这为后来的GPT系列模型的发展奠定了基石。 谈到Transformer,就不能不提到那篇具有里程碑意义的论文《Attention Is All You Need》。这篇论文不仅是大型模型研究者的必读之作,其八位作者也因此声名鹊起,成为AI领域的大咖。据了解,这八位作者中,只有一位继续留在谷歌,其他人则纷纷投身创业大潮,他们成立的四家公司中有三家已经成长为独角兽企业,包括Adept、Character.AI、Cohere等,而这些公司的背后则有谷歌、英伟达、Salesforce等行业巨头的支持。

然而,出人意料的是,作为行业的领头羊,谷歌并没有率先推出震撼市场的产品。反而是一家成立于2015年12月的初创公司OpenAI引领了后续大型模型的发展。

2018年,OpenAI推出了GPT-1模型,这标志着预训练模型在自然语言处理领域的崛起。2019年,OpenAI和谷歌分别发布了GPT-2和BERT这两个大型模型,这表明预训练大型模型已经成为自然语言处理领域的主流。

到了2020年,大型模型进入了快速发展期。那年,OpenAI推出了拥有1750亿参数的GPT-3,成为当时最大的语言模型,并在零样本学习任务上取得了显著的性能提升。此后,各种策略如基于人类反馈的强化学习(RLHF)、代码预训练、指令微调等开始涌现,用于进一步提升模型的推理能力和任务泛化能力。2022年11月,OpenAI推出了搭载GPT-3.5的ChatGPT,其逼真的自然语言交互和多场景内容生成能力迅速在网上走红,从而开启了2023年上半年的AI热潮。

在2023年,OpenAI发布了超大规模的多模态预训练模型GPT-4,具备了多模态理解和多类型内容生成的能力。谷歌推出了PaLM2模型,Meta发布了LLaMA-13B,微软则基于ChatGPT打造了New Bing,并将Copilot集成到了Windows中。 2024年AI领域的重要发展包括:Neuralink脑机接口技术取得进展,OpenAI发布视频生成模型Sora和增强的ChatGPTo1模型,谷歌推出Gemini 1.5 Pro和Gemini 2.0 Flash模型,英伟达发布高端AI芯片B200,以及中国模型Qwen2.5 Instruct 72B和DeepSeek V2.5的出色表现。

在国内,百度率先发布了文心一言,随后阿里、商汤、360、华为等企业也纷纷推出了自己的大型模型。复旦、清华、哈工大、中科院等学术机构也发布了各自的大型模型。此外,中小型非上市公司如印象笔记、医联科技、左手医生等也推出了行业专用的大型模型,市场呈现出“百模大战”的竞争格局。

参考原文:AI模型的成长故事:从出生到变身超级大脑 - AI闪电侠