硬核观察 #1070 社区批评 Meta 滥用“开源”来称呼其新大语言模型

July 22, 2023

社区批评 Meta 滥用“开源”来称呼其新大语言模型

Meta AI 宣称：“Llama 2 是我们的下一代开源 LLM，可用于研究和商业用途”。但事实上 Llama 2 并没有使用 OSI（开源计划）批准的许可证，也不符合 OSD（开源定义）。其社区协议禁止使用 Llama 2 训练其他语言模型；如果在月活用户超过 7 亿的应用程序或服务中使用该技术，比如那些大公司，则需要获得 Meta 的特殊许可。对于程序员来说，可能是否“开源”并不要紧，他们能够用它来搭建和研究就够了。对于 Meta 高层来说，“开源”被他们当成了一个营销用语，但是这显然会让人对“开源”一词产生混淆。

消息来源：The Register

老王点评：我不觉得 Meta 不知道什么是“开源”，但是这种草率编写的许可协议，显然代表了 Meta 既想借开源的模式打狼，又担心开源反而赔了孩子。这种首鼠两端的想法最后不会有好结果。

人工智能公司承诺将为人工智能生成内容打上水印

OpenAI、Alphabet、Meta、亚马逊和微软等七家主要的美国人工智能公司，承诺开发一个系统来 “标记” 文本、图像、音频、视频等所有形式的人工智能生成的内容，这样用户就能知道什么时候使用了这项技术。这种以技术方式嵌入内容的水印，会让用户更容易发现深度伪造的图像或音频。他们还承诺在发布新的人工智能系统前进行彻底地测试，并分享诸如如何降低风险等信息。

消息来源：路透社

老王点评：这真的能做到到么？或者说，这种水印能被其它人工智能系统去掉吧。更不要说还有开源的人工智能系统。

Cerebras 推出人工智能超级计算机网络

Cerebras 公司推出了 Condor Galaxy 项目，这是一个由九台相互连接的超级计算机组成的网络，专为人工智能模型训练而设计，总性能达到 36 FP16 ExaFLOP。其中第一台超级计算机 CG-1 是由 64 台 Cerebras CS-2 系统整合而成，有 5400 万个内核，能够为人工智能训练提供 4 ExaFLOP 的算力。它支持多达 6000 亿个参数的模型，其配置可扩展至支持多达 100 万亿个参数。其它几台将陆续建设。该公司 CEO 称，“许多云计算公司都宣布了耗资数十亿美元建造的大规模 GPU 集群，但这些集群却极难使用。将一个模型分布到数千个微小的 GPU 上，需要数十名具有罕见专业知识的人员花费数月的时间。CG-1 消除了这一挑战。建立一个生成式人工智能模型只需要几分钟，而不是几个月，而且一个人就能完成。”

消息来源：Anand Tech

老王点评：算力不是问题，将来的人工智能系统才是问题。这样大量训练出来的人工智能系统，真的能按照人们最善良的愿望去发展吗？