投资 >

谷歌更新隐私政策,大模型“诸神之战”背后的训练数据隐忧-天天看点

2023-07-05 21:13:05   来源:21世纪经济报道

21世纪经济报道记者王俊 南方财经全媒体记者冯恋阁 实习生罗洛 北京、广州报道“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型,相关条款已于7月1日生效。


(相关资料图)

谷歌的这一动作引发争议,单方面通知用户的行为是否合法合规?此举又是否有“囤数据”之嫌?

此前,Twitter和社交网站Reddit已经采取措施,限制第三方对其API的访问。国外科技公司的一系列举措背后,可能是大模型发展路上一个不可忽视的真相:训练数据的重要性愈发显现。随着大模型产业的快速发展,出于市场竞争的需要,模型规模将快速膨胀,但同时可用于训练的数据供给相对不足,且未来日趋稀缺。

未来,数据或将成为AI发展的“兵家必争之地”。

“囤数据”训练AI模型

近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。在隐私协议的“可公开获取的资源”一栏,谷歌提到:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供助力。

对比去年年底发布的上一版隐私政策,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容。

南方财经全媒体记者在检索后发现,7月5日,谷歌中文版隐私政策也已经进行同步更新。 

在竞天公诚律师事务所合伙人袁立志看来,此次谷歌隐私政策的更新从实践角度看不算重大变化。“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”不过他补充道,如果个人通过发送邮件等方式向信息处理者就相关使用表露明确拒绝,对其个人信息的收集和使用就应当停止。

北京大成律师事务所高级合伙人邓志松也表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。至于其实施过程中可能涉及的实质合法性判断,及由此可能对AI等行业产生的影响,则尚待进一步观察。

虽然此次更新并未对个人信息保护带来影响,但暗藏背后的数据隐忧却逐渐被公众注意到。

“得数据者得天下”

数据是数字经济时代的“新石油”,处在时代中的人工智能技术亦受其影响。

以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。

“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。

需求渐长,供给端却并未马上配合。目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如Twitter限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克表示,这是对“数据抓取”和“系统操纵”的必要反应。

今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。

同样在4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。

6月,中文在线、同方知网与中国工人出版社等国内25家文化出版机构发出共同倡议,强调“为人工智能学习模型提供可靠、稳定、安全的内容来源”等AIGC版权保护问题的重要性。

科技公司的系列动作,一定程度反映了数据的重要性。

在7月2日全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。

“坦白地讲,最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。 

数据稀缺、分散难题何解?

数据的重要性不言而喻,高质量数据更是稀缺品。

早在去年,一项来自Epoch Al Research团队的研究就揭示了一个残酷的事实:模型还要继续做大,但数据却不够用了。研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。

这意味着如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。

百舸争流是市场竞争的常态,但过分竞争也有可能为行业带来灾难。限制数据抓取,很可能导致新一轮的数据大战,进而引发平台之间屏蔽、数据垄断等问题。

国际标准化组织TC/154技术专家王翔指出,大模型的蓬勃发展对训练数据提出了很高的数量和质量要求。在供给侧,人口增速、用网时间下降、制度性地理约束提高、高质量数据匮乏等都在制约大模型未来发展,SOP化和转发习惯也降低了供给能力;在需求侧,无论是主观治理思路还是客观基础设施条件,以及大型语言模型所有者应对市场的考量,都会持续强化数据垄断。

此外,大模型训练中,面对的高质量数据的稀缺、行业数据分散等问题应如何解决?

受访专家指出,未来健康的生态需要市场侧和监管侧等多方的共同建设维护。

“首先还是需要相信市场的力量”,袁立志指出,随着优质数据的需求逐渐显现,各个市场主体都会被“无形的手”推动向前。“数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。”他表示。

张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”她认为,企业之外,还可以善用技术社群的力量提升并开拓更多的高质量数据集。

而监管侧,在张欣看来,从法律法规层面明确训练数据集的合法性获取路径是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”

袁立志认为,监管侧数据要素市场的建设深入会为大模型领域的发展带来良性影响。“数据要素市场建设走深意味着数据流通利用全流程提速提效,自然也惠及大模型的训练数据收集。”

标签:

相关阅读

谷歌更新隐私政策,大模型“诸神之战”背后

投资

21世纪经济报道记者王俊南方财经全媒体记者冯恋阁实习生罗洛北京、广州

2023-07-05

最新快讯!顺德容桂城市推介会引发产业“投

投资

6月9日-10日,佛山市顺德区容桂街道召开城市推介会,从产业空间、区位

2023-07-05

康恩贝绩后大跌近8%,公司对二季度利润环比

投资

7月5日,康恩贝(600572 SH)高开低走,截至收盘下跌7 92%,报5 93元

2023-07-05

易开得称“中国航母指定净水品牌”惹质疑,

投资

7月5日消息,近期净水器品牌易开得在线下广告中宣称自己的产品是“中国

2023-07-05

天天看点:投顾新时代②丨基金投顾新规征求

投资

7月9日,《公开募集证券投资基金投资顾问业务管理规定(征求意见稿)》

2023-07-05

谷歌更新隐私政策,大模型“诸神之战”背后的训练数据隐忧-天天看点

投资

21世纪经济报道记者王俊南方财经全媒体记者冯恋阁实习生罗洛北京、广州

2023-07-05

最新快讯!顺德容桂城市推介会引发产业“投资热”,签约企业环比增长50%|制造业当家·佛山镇能量

投资

6月9日-10日,佛山市顺德区容桂街道召开城市推介会,从产业空间、区位

2023-07-05

康恩贝绩后大跌近8%,公司对二季度利润环比下滑怎么看

投资

7月5日,康恩贝(600572 SH)高开低走,截至收盘下跌7 92%,报5 93元

2023-07-05

易开得称“中国航母指定净水品牌”惹质疑,沈卫星应为消费者解惑-当前看点

投资

7月5日消息,近期净水器品牌易开得在线下广告中宣称自己的产品是“中国

2023-07-05

天天看点:投顾新时代②丨基金投顾新规征求意见: 券商建言牌照扩容、细化投资私募基金细则

投资

7月9日,《公开募集证券投资基金投资顾问业务管理规定(征求意见稿)》

2023-07-05

每日报道:苹果头显减产 A股产业链“无惧”?

投资

AppleVisionPro头显产品发布不过一个月,就传出削减产量的消息。

2023-07-05

全面绿色时代到来?绿色债券融资额首次超越化石燃料|天天速读

投资

在如今这个绿色低碳转型的时代下,企业和政府在债券市场上为环保项目融

2023-07-05

欧美社交电商“起飞”,MyyShop如何打通红人经济新思路?

投资

全球社交电商和红人经济迅速发展的情况势不可挡。

2023-07-05

解码预制菜投资“潜力股”:新老品牌竞技激烈,研发与渠道能力受关注|每日播报

投资

7月4日,由农业农村部农业贸易促进中心、广东省农业农村厅、珠海市人民

2023-07-05

业绩预增前买入公司股票39万元,电子城原证代内幕交易被罚,2个月前刚离职|速讯

投资

因年龄退休离职2个月后,电子城原证券事务代表内幕交易行为曝光。

2023-07-05

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民