快捷搜索:  

“思拿我的数据炼 ai,那繁难先把帐结一下”

"“思拿我的数据炼 ai,那繁难先把帐结一下”,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作“想拿我的数据炼 AI,那麻烦先把帐结一下”果壳·2024-03-29 15:13关注什么样的贴吧,能值 100 亿美金?

当我们(We)感慨 AI 快把人类一锅端了之时,有大聪明发现了AI 的一生之敌——弱智吧。

于是,我们(We)看到了类似《我教 AI 弱智吧问题,结果(Result)它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁可以先出院?》……这样的整活实验,俨然把弱智吧问题当成祖国人自己的图灵测试。细瞅他们(They)怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科还是牙科”,都不用看 AI 怎么答,AI 在攻陷人类之前,弱智吧就是最后一座堡垒。

就这样,贴吧这么个老古董,和光鲜亮丽的 AI,连接在了一起。

2005 年,硅谷也诞生了自己的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时间 3 月 21 日,Reddit 在纽交所敲钟上市,较此前发行预计的 65 亿美元估值计算,收盘市值已增加 30 亿美元,涨幅达 46%。

要知道,这家公司从未盈利,且累计亏损超过 7 亿美元。那市场为何这么乐观?其中一个原因是,Reddit 和多家 AI 公司签了数据授权协议,收入合计有 2.03 亿美元。

图片来源:Unsplash

“想拿我的数据炼 AI,那麻烦先把帐结一下。”这大概就是 Reddit 的心里话。

但对于一个 UGC(用户生成内容)平台,用户难道不是“衣食父母”吗?“Reddit 把我们(We)卖了。”这是用户们在明面上的控诉。

关于 Reddit,我们(We)有太多想问的了。

祖国贴吧冷冷清清,为啥米国贴吧那么金贵?

Reddit 敢为人先。它是第一家公开向生成式 AI 新贵们叫板的公司,要求后者只要用到平台语料训练 AI 就必须付钱。

关键是,Reddit“得逞”了。据路透社报道,今年(This Year) 2 月,它和 Google 谈好价码——6000 万美元(每年!)。

再怎么说,Reddit 也是全美流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的指标,它在招股书里说月活跃用户有3.3 亿,日活 7310 万,活跃着的讨论(Discuss)组(subreddit)有 10 万个。

Reddit 的语料为何珍贵?

回答“Reddit 的语料为何珍贵?”之前,得先问“语料为何珍贵?”。

在 AI 时代,少不了数据、算力和算法这三大要素。数据是基础,算力作为支撑,算法相当于引擎,三者相互依存、促进。

早期大模型 GPT 训练所用的文本语料中,有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的内容,等于说,经过了一层初筛,标准是“是否够流行”。

图片来源:GIPHY

有意思的是,语料库的英文是“corpus”,这个词源自拉丁语,是“身体”的意思。将语料库形容为 AI 的身体不知道恰不恰当,但从“身体是革命的本钱”去理解倒是成立的,没有语料数据,就炼不了 AI。

还有个消息!数据可能快不够用了

a16z 创始人 Marc Andreessen 认为,这波 AI 浪潮之所以能兴起,正是因为互联网在过去二十几年来沉淀了大量的数据。但人工智能研究和预测组织 Epoch 指出,高质量的文本数据会在 2023 至 2027 年之间消耗殆尽。

图片来源:GIPHY

虽然 Epoch 也指出其分析方法和模型的局限,但 AI 训练消耗数据的贪婪,是不言而喻的。

Reddit 这下更有底气了,因为它是独一份的存在

谁到 Reddit 上都能创建讨论(Discuss)组(subreddit),也可以设置“吧主”维护,这和我们(We)知道的贴吧没什么不同。

图片来源:Reddit

Reddit 弱化了“大 V”的存在,谁都可以发言(匿名也行),谁都可以点赞、点踩,获赞数多的会被顶上去,这种排序是“民意”的反映。

你被点赞了,就能收获 Karma。这个指标,代表了用户的在社区的贡献价值以及活跃度。

目前(Currently),活跃着的讨论(Discuss)组有 10 万个。截至 2023 年 12 月,Reddit 上累计的帖子有 10 亿个,160 亿条回复。

在这个大型贴吧里,你能找到热门冷门形形色色的组:

比如各种 r/xxxxPorn,xxxxPorn 并不是你想的那样,通常代表着人对 xxxx 的极度沉迷,组友喜欢发布相关的“让人极度舒适的内容”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;

警察!有人往肉卷里塞垃圾食品|Reddit 截图

比如 r/memes(收梗图的进);

图片来源:GIPHY

还有人热衷写两句话恐怖故事,以及讨论(Discuss)都市传说……

现任 CEO Steve Huffman 对《纽约时报》说,他认为 Reddit 的平台内容非常有价值,它们(They)的新(newness)和相关性(relevance)对大模型训练都是“刚需”。

一个在米国流量排前五的平台,每分每秒都会有新的讨论(Discuss)产生。至于相关性,贴吧里人以群分,话题足够垂直,讨论(Discuss)足够深入……在各个细分话题里,都是不那么泛化的讨论(Discuss),这可能就是 Huffman 说到的相关性。

图片来源:curiousgnu.com

攒了 19 年的人类对话实录,在 AI 公司眼里,就是“黄金”。

还听说……Reddit 没那么绿色?

最受欢迎的讨论(Discuss)组就是 r/funny,到哪都是乐子人最多|Reddit 截图

“Reddit 比互联网上任何地方都够生发、容纳真实的对话,”Huffman 说,“在这里,我们(We)能看到人在心理治疗、戒酒阶段会说的那种心里话,可能者在别的地方不会说的话。”

真实,也意味着人们会在这里释放恶意。

Reddit 上不乏宣扬暴力和有色情暗示的讨论(Discuss)组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万人关注,他们(They)找来胖子的照片,还主要针对女性,会给照片写上刻薄的注文。

Reddit 前产品高级副总裁 Dan McComas ,是封禁“恶意组”的关键人物。后来,他也因此被人肉、威胁。

2015 年,McComas 出来做了一个类似 Reddit 的社区 Imzy,但绝对禁止血腥色情,可以打赏其他用户,0 广告,但半年后就退场了。既不绿色也不友好的 Reddit 仍在高歌猛进。

但这个草根社区也蛮有能量的

2017 年愚人节,Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布,并设定规则:每名用户每五分钟可以往画布上放一个像素,也就是在小格子上涂抹任意一种颜色。这种“反人类”的规则,使得用户无法独自操作,只能拉帮结社、共同创作。

就这样,文化(Culture)符号、公共事件等都微缩在了最终的成品上,也没有原本不少人预想的糟糕,相反,是一种杂乱中的和谐。

这些用户既可以为了认定的图腾作画,也能让华尔街惊掉下巴。

图片来源:Wikipedia

2021 年一月初,老牌游戏(Game)连锁店游戏(Game)驿站股票不过 20 美元,最后竟一度涨到了 400 美元,这迫使知名做空机构 Melvin Capital 紧急募资 37.5 亿美元平仓认输,而做空起家的香橼宣布不再做空,只做多。

而这一切仅仅只是从 Reddit 上的一个吐槽帖开始的。一大群在游戏(Game)驿站买过游戏(Game),在金融危机期间认为自己是被华尔街“洗劫”的 Reddit 用户,恼羞成怒,联合起来 all in 游戏(Game)驿站。“散户反击华尔街”一战,就此打响。

2020 年 3 月,那会儿刚退出微软董事会的比尔·盖茨,就在 Reddit 上直接与网友互动,回答米国网民有关新冠病毒防疫及治疗的问题。Reddit 经常能请来大牌坐镇|GIPHY

回到那个问题:19 年来,吧主无偿维护,用户添砖加瓦,Reddit 把他们(They)都卖了?

不少人在 Reddit 上说,“之所以免费,因为我们(We)才是产品。”

Reddit 去年收紧了 API 授权,牢牢把握住自己平台的内容。埃隆·马斯克将 Twitter 改成 X 后,也这么干,有人去扒了隐私国策,发现在 2.1 条例中,明确写道:“我们(We)可能会使用收集到的信息和公开可用的信息来帮助训练我们(We)的机器学习可能人工智能模型。”

另外,也有人怀疑微博评论机器人 @评论罗伯特 就是通过平台内容训练出来的机器人。它的留言画风如下:

图片来源:微博 @罗伯特受害者联盟

但 Reddit 也做了点别的:给核心用户和版主、员工的亲朋好友们预留大约 176 万股股票,占发行总额 8%(Huffman 本人的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定协议约束,可以在交易首日立即出售股份(Stock)。

图片来源:GIPHY

一个新的问题

有网友抱怨,Reddit 早已混入不少 AI 生成的内容,卖给 AI 公司训练,是 AI 训练 AI 吗?

本文来自微信公众号“果壳”(ID:Guokr42),作者:malt,编辑:卧虫,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+11

好文章,需要你的鼓励

果壳特邀作者3收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章和沟通教授聊聊:好好说话,有哪些简单方法?都2024年了,谁还在用QQ聊天啊?AI社交来了,微信慌了吗?36氪首发 | 「深圳市夜大传媒有限公司」获600万元天使轮融资,推出「自渡」青年夜校平台让腾讯和Altman大赚,被AI巨头“疯抢”,2024最大科技(Technology)股IPO 来了完蛋,我被离谱AI包围了「米国版贴吧」Reddit上市,一场被嫌弃的IPO各大App的分享链接,正在偷窥你的朋友(Friend)圈抖音(Tik Tok)社交「卷土重来」:真人与AI聊天,伪需求?最新文章推荐2024 「世界智慧城市大奖」全面启动,彰显祖国和亚洲新兴市场智慧城市建设成就国策引导机器人行业聚焦科技(Technology)创新 相关上市公司持续加大研发投入36氪独家|微信豆与腾讯广告合作的全域投流工具迟迟不来,两家各自又做了一个新产品与 Google Pixel 在日本(Japan)的 169 天:Pixel Fold 是「精致败类」吗?医疗健康(Health)行业周报 | 康爱医疗完成数千万元A+轮融资;小林制药红曲保健品已致4人死亡独家对话爆剧操盘手刘羽砚:短剧凭什么让2亿人花钱观看?小米汽车(Car)的冲击波有多大?东北证券近30%股权“甩卖”一年亏百亿,国美零售仍在自救互金巨头们的江湖变局,藏在年报里果壳特邀作者

作者有点忙,还没写简介

发表文章975篇最近内容“想拿我的数据炼 AI,那麻烦先把帐结一下”46分钟前小米汽车(Car)21.59万的定价是怎么算出来的?4小时前已致4死,日本(Japan)的红曲保健品怎么回事?23小时前阅读更多内容,狠戳这里下一篇36氪出海·首发|智橙动力宣布完成A轮融资,推出新一代无线智能泳池清洁机器人产品VALOR

泳池清洁机器人也正呈现自动化、智能化趋势。

50分钟前

热门标签成都货运微信拍卖艺术品电商陶金多校划片西城学区划片存量土地国人的名义北平无战事琅琊榜吸血鬼日记潜伏素食芈月传生意经潮牌橱窗堡垒之夜网贷银行存管协会汇率欧元固定汇率广州酒家月饼西府海棠茂业紫光控方证人狗刚需关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

“想拿我的数据炼 AI,那麻烦先把帐结一下”

您可能还会对下面的文章感兴趣:

赞(904) 踩(68) 阅读数(5776) 最新评论 查看所有评论
加载中......
发表评论