硬核观察 #1070 社区批评 Meta 滥用“开源”来称呼其新大语言模型
社区批评 Meta 滥用“开源”来称呼其新大语言模型
Meta AI 宣称:“Llama 2 是我们的下一代开源 LLM,可用于研究和商业用途”。但事实上 Llama 2 并没有使用 OSI(开源计划)批准的许可证,也不符合 OSD(开源定义)。其社区协议禁止使用 Llama 2 训练其他语言模型;如果在月活用户超过 7 亿的应用程序或服务中使用该技术,比如那些大公司,则需要获得 Meta 的特殊许可。对于程序员来说,可能是否“开源”并不要紧,他们能够用它来搭建和研究就够了。对于 Meta 高层来说,“开源”被他们当成了一个营销用语,但是这显然会让人对“开源”一词产生混淆。
老王点评:我不觉得 Meta 不知道什么是“开源”,但是这种草率编写的许可协议,显然代表了 Meta 既想借开源的模式打狼,又担心开源反而赔了孩子。这种首鼠两端的想法最后不会有好结果。
人工智能公司承诺将为人工智能生成内容打上水印
OpenAI、Alphabet、Meta、亚马逊和微软等七家主要的美国人工智能公司,承诺开发一个系统来 “标记” 文本、图像、音频、视频等所有形式的人工智能生成的内容,这样用户就能知道什么时候使用了这项技术。这种以技术方式嵌入内容的水印,会让用户更容易发现深度伪造的图像或音频。他们还承诺在发布新的人工智能系统前进行彻底地测试,并分享诸如如何降低风险等信息。
老王点评:这真的能做到到么?或者说,这种水印能被其它人工智能系统去掉吧。更不要说还有开源的人工智能系统。
Cerebras 推出人工智能超级计算机网络
Cerebras 公司推出了 Condor Galaxy 项目,这是一个由九台相互连接的超级计算机组成的网络,专为人工智能模型训练而设计,总性能达到 36 FP16 ExaFLOP。其中第一台超级计算机 CG-1 是由 64 台 Cerebras CS-2 系统整合而成,有 5400 万个内核,能够为人工智能训练提供 4 ExaFLOP 的算力。它支持多达 6000 亿个参数的模型,其配置可扩展至支持多达 100 万亿个参数。其它几台将陆续建设。该公司 CEO 称,“许多云计算公司都宣布了耗资数十亿美元建造的大规模 GPU 集群,但这些集群却极难使用。将一个模型分布到数千个微小的 GPU 上,需要数十名具有罕见专业知识的人员花费数月的时间。CG-1 消除了这一挑战。建立一个生成式人工智能模型只需要几分钟,而不是几个月,而且一个人就能完成。”
老王点评:算力不是问题,将来的人工智能系统才是问题。这样大量训练出来的人工智能系统,真的能按照人们最善良的愿望去发展吗?