Grok-2发布:图像生成能力卓越,马斯克在与OpenAI的竞争中取得优势
美国西海岸时间8月13日晚,xAI宣布Grok-2的测试版本正式上线,这也是Grok首次引入图像生成功能。
“Grok-2 是我们最先进的 AI 助手,具备了高级的文本和视觉理解能力,并集成了来自X平台的实时信息。用户可通过X应用程序中的 Grok 选项卡访问Grok-2。而Grok-2 mini则是我们的小巧但强大的版本,兼顾了速度和回答质量。”xAI在官网上介绍道。
目前,Grok-2在X上仅向Premium(每月7美元)和Premium Plus(每月14美元)的订阅用户提供服务。幸运的是,我正好是这些“尊贵”订阅者中的一员。
话不多说,立刻为大家全方位展示Grok-2的使用体验。
首先,登录我的X账号,点击左侧导航栏的Grok,便跳转到最新的Grok的使用页面,整个过程和之前版本的Grok并无差异,只是在最上面多了Grok-2 mini(beta)的选项。
但页面新增了“帮我写一封求职信”,“告诉我今天的头条”,“用Python解决Two Sum问题”,以及“推荐一个幻想RPG游戏”等快捷prompt的选择。
继续浏览,我还发现Grok-2增加了热门话题/新闻的推荐,这些内容被划分为天气、网络安全、旅游、金融、商业等多个类别。
在初步了解了Grok-2后,我们重点来看看这次更新的亮点——图像生成功能的表现。
据xAI透露,Grok-2的图像生成功能背后采用的是由Black Forest Lab开发的FLUX.1模型。
由Stability.ai前开发人员在德国创立,Black Forest Lab专注于图像和视频生成技术。在 Grok-2 发布之前,该公司的旗舰模型FLUX.1就凭借出色的图像生成能力在AI和艺术圈引起轰动。根据Artificial Analysis 的数据,FLUX.1在质量方面超越了 Midjourney和OpenAI的图像生成器。
Black Forest Lab在最近的一轮融资中筹集了3100万美元,投资者包括知名科技投资公司a16z。
下面我们来实测一下FLUX.1的表现。我先让Grok-2生成一张各种各样的人在北京三里屯街头散步的图像。输入提示后,大约7秒钟后生成了图像。
然而结果令人有些失望,画面更像是日本某个商业街,广告牌上还写满了类似日语的文字。
为优化输出效果,我改用中文输入提示:“请生成一张各种各样的人在北京三里屯漫步的图像”。
画面带有东京银座的风格,广告牌上的字体也介于日语和中文之间,显得不伦不类,看来Grok-2对中日风格的理解有些模糊。
为了验证我的猜想,我又让Grok-2生成一张“各种各样的人在东京银座漫步的图像”。
可以看出上下两张图的区别不大,这可能是由于其训练数据的多样性和代表性不足,导致模型无法精确捕捉不同国家的文化、建筑和地理特征。此外,Grok-2作为多模态模型,可能在将文本提示与正确的视觉元素匹配时存在挑战,进一步影响了生成图像的准确性和真实性。
接下来,我向Grok-2提出新的要求:“请生成一张埃隆·马斯克和唐纳德·特朗普聊天的图像,用动画片《辛普森一家》的风格”。
由于互联网中有大量的《辛普森一家》以及马斯克和特朗普的相关图像信息可以用于训练,这次的结果十分完美:Grok-2完美掌握了《辛普森一家》的画风,生成的图像几乎就像动画片里的截图。
还不够过瘾,我又让Grok-2基于我最喜欢的动漫《瑞克和莫蒂》生成一张这两个“北美顶流”的聊天画面。
结果依旧惊艳。为了对比,我尝试让ChatGPT-4o也生成相似的图像,要求使用《辛普森一家》的风格。
很可惜,ChatGPT-4o拒绝为我生成图片,并说因为这不符合它的内容政策,在尝试让它生成《瑞克和莫蒂》风格的图像时,它也给出了同样的回复。
不同于Grok-2,ChatGPT-4o以及其他主流的图像生成器,如Midjourney、DALL-E 3和Microsoft Designer,对内容生成有严格的版权保护措施,特别是在特定风格、名人肖像和受版权保护作品的生成上限制更大。
这些限制的加强,很大一部分原因是今年早些时候,一张AI生成的泰勒·斯威夫特虚假露骨照片在社交媒体上疯传,引发了不少争议。随后,各大平台进一步收紧了版权管理,防止类似滥用的发生。这不仅有效保护了创作者的权益,也降低了法律风险,确保AI技术能被负责任地使用。
但令人担忧的是,目前的测试显示,Grok-2在版权保护上几乎没有任何防范措施。虽然这与马斯克一贯倡导的“自由”和“冒险”精神相符,但也明显增加了AI滥用的风险,可能让深度伪造和虚假信息在网络上更加泛滥。
总体而言,Grok-2大致在10秒以内可以生成图像,且最终的呈现效果“惊艳”,接下来我们再来测试一下它的其他能力。
基于《向60个LLM提出20 个问题》这个在Haker News社区中广为流传帖子,我选取了几个问题,同时询问了Grok-2和ChatGPT-4o,大家可以自行比较它们的表现。
1. 简单推理能力
题目:女孩Sally有3个兄弟,每个兄弟有2个姐妹,请问Sally 有多少个姐妹?
(左为ChatGPT-4o,右为Grok-2)
在几乎相同的时间里,ChatGPT-4o和Grok-2都给出了答案。但这次ChatGPT-4o出错了,称Sally有两个姐妹,而Grok-2正确地指出Sally只有一个姐妹。
2. 知识能力
题目:用一小段文字向高中生解释量子场论。
(左为ChatGPT-4o,右为Grok-2)
ChatGPT-4o的解释:量子场论(QFT) 是物理学中的一个基本框架,它结合了量子力学和狭义相对论来描述电子和光子等粒子如何相互作用。量子场论不将粒子视为微小的点,而是将它们视为存在于空间各处的潜在场的激发态。这些场可以想象成看不见的波,当它们振动或相互作用时,它们就会产生我们看到的粒子。这一理论有助于解释电磁力等力以及极小尺度粒子(如原子内部粒子)的行为。
Grok-2的解释:量子场论(QFT) 就像是物理学的超高级版本,它结合了处理电子等微小粒子的量子力学和这些粒子实际上是充满整个空间的场中的微小振动或波的思想。想象一下,如果你周围的空气不仅仅是空的,而是充满了看不见的、摇晃的东西,而你所知道的每个粒子都只是这些东西中的涟漪或波浪。量子场论帮助我们了解这些粒子如何相互作用、变化,甚至突然出现和消失,所有这些都受这些场的支配。它是一种描述宇宙中一切事物(从光到物质)在最小尺度上的行为的方式,使用的数学可能会让你头晕目眩,但在预测粒子的行为方式方面却非常准确。
对于没有任何高等物理知识背景的我而言,Grok-2的解释更容易理解。
3. 代码能力
题目:解释以下代码中的错误:
“`
from time import sleep
from multiprocessing.pool import ThreadPool
def task():
sleep(1)
return ‘all done’
if __name__ == ‘__main__’:
with ThreadPool() as pool:
result = pool.apply_async(task())
value = result.get()
print(value)
(左为ChatGPT-4o,右为Grok-2)
这段代码中的错误是由于对apply_async的使用方式不正确造成的。
在耗时相当的情况下,ChatGPT-4o和Grok-2都指出了上述代码中存在的问题,并给出了正确的代码。
4. 创造力
题目:请给我讲一个关于度假的笑话
(上为Grok-2,下为ChatGPT-4o)
Grok-2的笑话是这样的——“为什么手提箱要旅行?” “因为它们想从每天的<装>和<不装>中透透气。此外,它听到了海滩的呼唤,想要看看沙是不是像每个人说的那样细软。”
在创意这一轮,我投给ChatGPT-4o,因为它的段子更冷:“为什么骷髅们不去旅行?” “因为他们没有<胆>。”
在周二晚间发布的新闻稿中,xAI提到,Grok-2向公众开放测试之前,它的早期版本已通过“sus-column-r”这个名称,在LMSYS聊天机器人竞技场进行测试,并且总体Elo得分优于Claude和GPT-4。
(截图来自xAI官网)
Grok-2推出后,马斯克也激动地在X上向他“勤奋的xAI团队”表示祝贺。
看到这里,开发者们是不是也跃跃欲试了?别慌,在本月晚些时候,Grok-2和Grok-2 mini将通过企业API向各位提供使用。
一边批评OpenAI“不够open”,一边重复OpenAI的老路。
马斯克曾是OpenAI的联合创始人,但在2018年由于对公司发展方向和管理层控制权的分歧选择离开,并在特斯拉内部启动了AGI项目,最终于2023年3月创立了xAI。
在今年5月的B轮融资中xAI筹集了60亿美元,估值达到240亿美元,成为全球最有价值的人工智能公司之一,仅次于OpenAI。此次融资还吸引了诸多知名投资者,包括Valor Equity Partners、a16z、红杉资本和富达等。
这些年来,随着OpenAI在生成式AI领域的突飞猛进,马斯克针对它的批评也逐渐频繁。尤其是萨姆·奥尔特曼宣布与微软合作之后,他的火气值更是飙升。
批评的声音主要集中在几个方面:OpenAI已经偏离了最初要造福人类的初衷,变得越来越商业化。其次,OpenAI从开源变成闭源,这和最初的透明性和共享精神完全不符。此外,马斯克还担心OpenAI的AI系统可能带有政治和文化偏见。他甚至提起了法律诉讼,指责OpenAI把应该造福人类的技术变成了赚钱工具,还呼吁恢复开源。
有意思的是,马斯克在今年6月主动撤销了对OpenAI及其联合创始人萨姆·奥特曼和格雷格·布罗克曼的诉讼,却在8月又重新掀起战火。可以说,马斯克对OpenAI曾经多“爱”,现在就有多“恨”。
在这种背景下,Grok-2的亮相简直就是让xAI和马斯克扬眉吐气的一次“复仇之战”。
先不说尝鲜的订阅用户们在X上争先恐后地“炫耀”刚刚用Grok-2制作的梗图,就连非常知名的沃顿商学院教授、AI作家Ethan Mollick也对Grok-2的表现赞赏有加,称它是目前能与GPT-4相提并论的五大模型之一,其余四个分别是GPT-4o、Claude 3.5、Gemini 1.5和Llama 3.1。
不过,教授也忍不住补充了一句:“所有实验室都说还有大幅提升的空间,但我们还没看到哪个模型真正超越GPT-4……” 简而言之,教授的意思很明确——Grok-2已经相当不错,跻身一线模型之列,但要超越GPT-4,还得继续努力啊!
在HackerNews上,Grok-2的推出引发了热烈讨论。其中点赞最多的一条评论在肯定了Grok-2的表现后,直接“打脸”马斯克的口是心非——“你指责OpenAI不开源,结果xAI也一样闭源;你呼吁停止前沿AI的开发,结果xAI却照样推进;你批评OpenAI用用户的推特内容进行训练,结果xAI也在做同样的事。”
(Hacker News评论截图)
很明显,马斯克一边批评OpenAI,一边却在重复它的老路,这多少有些“双标”,也难怪引起了技术社区的“吐槽”。
此外,虽然Grok-2在技术上确实有了长足的进步,但与竞争对手相比,它在伦理、安全和版权保护方面依然面临显著的风险和挑战,这将是xAI接下来必须解决的关键问题。
本月早些时候,爱尔兰数据保护监管机构对xAI提出质疑,指其在未事先获得用户明确同意的情况下使用推文训练AI系统的行为可能违反欧盟的隐私法规。为此,xAI已同意部分暂停在欧洲的数据处理。