118期-AI时代针对数据需求的创新探索研讨
导语
在AI时代,数据已成为驱动技术创新和商业决策的重要要素。随着人工智能技术的迅速发展,数据的重要性和需求不断增加。数据领域有哪些重要玩家?如何识别有效且有价值的数据?新兴的数据创业机会有哪些?我们邀请了创业者、大厂代表、赛道专精机构等相关的朋友们一起讨论。
以下是本次活动可公开部分。
本期课代表
*公司名字母序
*本期有嘉宾因公司PR不能公开内容,我们忍痛删除,同样感谢他们的精彩输出
*本期我们将同学们在Zoom聊天室打字输出的重要观点也整理进入了此次笔记,其中相关链接为嘉宾引用第三方,侵删。
要点问题
Part 1 背景研讨
Part 2 破壁研讨
Part 3 机会研讨
Part 1 背景研讨
目前在AI赛道相应的数据企业都在做什么?
Datastrato 堵俊平
我是堵俊平,是 CEO & Founder of Datastrato。我们做下一代 data for AI Infra。我们有个开源项目叫Gravitino,主要做元数据 Metadata系统,来增强unstructured data在AI场景下的处理与管理,并与structured data统一治理。
我们在当下,看到有很多数据企业在 AI 赛道里面去做不同的事。第一部分关于数据的采集、hosting,类似于Hugging face,主要是做数据集的托管,当然HF更出名的可能在模型的托管,包括早期的 GPT 1、 GPT 2 都是在HF上托管的.
第二部分是数据的共享,包括整合以及统一的数据目录。业界像 Databricks 最新的重点在做这个,它的 unit catalog 包括 data sharing 都已经开始规模化使用;像我们公司(Datastrato)一年前开始做的Gravitino也是这个方向,能更好的支持unstructured data的数据发现、共享以及治理、但是我们更加开放、更聚焦当下生成式AI的数据使用模式与标准。
第三部分是数据的高性能存储、清洗、标注,为了支持这种训练的场景。我们看到像 JuiceFS 等等就在做这些事。还有一些包括围绕数据清洗与标注,比如说标注像业界知名的scale.ai,还有包括聚焦于非结构化的数据清洗,类似于 unstructured.io,Roe ai等。还有很多文档数据库、向量数据库,比如说像 Pinecone,Zilliz, LanceDB 等等,甚至一些传统的文档数据库巨头 MongoDB、 ElasticSearch/OpenSearch,他们都在往 AI 大模型应用方向去靠拢。以及一些数据合成的公司,比如说像 Datagen 等等。
还有一个比较有意思的赛道,刚才说了很多都是data for AI,就是我们用 data的增强技术 for AI,还有一个是 AI for data,就是用更好的 AI 模型能力来让数据变得更智能。现在很多大厂,包括 snowflake、Databricks 都在往这个赛道转型,或者是收购了一些大模型公司,或者 train 自己的模型,让 data platform 可以更好地适应更智能化的运营,去替代传统的 DataOps。
Orbifold.ai 朱永钉
我叫朱永钉,是 Orbifold.ai 的创始人CEO。我们公司主要的赛道在 data curation,主要是给企业训练大模型提供数据服务,尤其是怎么 streamline 数据。我们公司目前成立大概三个月,做了 10 多个企业客户,ARR 大概有个二三十万。
AI 赛道相应的数据企业都在做什么事情?刚才俊平说的很对,我从另外一个视角总结,企业一般都在做四个事情,第一个是 data infra,主要是非结构化数据和结构化数据的存储加 data leaks。然后另一个是底层的 Vector database,这些是我们在大模型领域里数据非常关键的基础设施。
第二件事情是 data marketplace,就是如何你如何去获得数据,你可以去买、在 hugging face 上用别人的 dataset等等,可以总结成为广泛意义上的一个marketplace,你要需要去获取数据,你要去购买数据,最后你要能够获得足够多的数据训练你的模型。
第三件事情,也就是我们公司在的赛道,做的是 data curation,总体来说就是把企业的海量数据准备成为一个能够直接拿着去做企业 large language model 相关的 application 数据,比如说做 fine tuning,做 RAG,这个数据其实需要从海量的数据中去获取。还有一件事情是企业在训练模型的时候发现数据量不够,那么就需要大量的数据增强,帮助他的数据集做到更加的 balanced、unbiased。
第四个我觉得可能比较重要的是 embedding,就是如何把非结构化数据,比如图片、 PDF 获取关键的一些帧,或者是对 PDF 怎么做 chunking,然后再把它做一个合适的 embedding,这样可以做检索。
我觉得主要是这四个方向,这四个方向上面其实数据有很多的应用场景,比如说垂直领域像法律,像有公司做的就是如何从非结构化数据中去做分析。
Qquest 陈茜倩
我之前是 data scientist,偏 product growth 方向,有很多跟 marketing 或者 PM 打交道的经验。后来自己开始做 Qquest,相对刚刚几位朋同学会更加偏下游一点,是应数据应用的方向。Qquest 希望利用企业的各种数据和他们用户产生在各个平台上的数据,给他们做 product analytic。因为我做的可是比较偏应用的方向,所以可能没有像大家对底层那块那么了解。
我有发现一些大家的需求,在数据以及用户在如何交互方面的问题,现在如果你想让没有技术背景的人用 AI 的话,大家能想到的很多都是一个 conversation chatbot 的交互形式。但事实上如果当你在做应用的时候,大家很大的一个需求是希望你不要给他太开放的界面,但是他希望你能够给他一个 step by step 的 inspiration 界面。我觉得这可能也是一个思考方向,怎样处理数据导来让数据引导用户去思考。
Kanaries 陈浩
我们做的方向是数据可视化我们之前有做一个开源项目叫 PyGWalker(取自[P]ython binding of [G]raphic [W]alker),类似于 Tableau 的开源替代,但是它是一个 Python 的包,你可以在Jupyter Notebook、Streamlit 等等环境里直接去使用,也可以直接在你企业的 SaaS 里去快速集成一个类似嵌入式的 Tableau 能力。
我们去年探索数据可视化的 AI 化这块的时候,有积累一些经验,包括我们刚开始去做类似于自然语言到图表的过程,这个过程中可能会涉及到一些让大模型生成我们自己的 DSL,或者生成一些比较标准化的代码的过程。这个过程中我们积累了一些可视化方面的数据集,去做面向可视化的 RAG。也积累了一些,如果要去做代码生成,或者说 DSL 生成,RAG 里面会遇到一些特殊的问题。我们发现很多经验是相通的,以及做 DSL 的话,其实能力挺受限的,感觉大模型有些能力没有充分发挥出来,只是说它能保证大模型生成的结果,你可以用其他技术方式去做兜底,它不会生成一些完全无法执行的结果。
但是我们觉得如果下一代模型出来之后,可能 DSL 这条路的优势就没有那么明显,所以我们也在探索一个新方向。这个新方向产品上周刚发布,叫 Lab2,它是让 AI 去生成 Python streamlit 代码,类似于你跟他做对话,他帮你直接写一个 Python 的 APP 出来。做数据科学的朋友可能会在公司内部用 streamlit 做一些小的数据 APP 去做演示之类的,我们其实就让 AI 生成这种 streamlit APP,这块也在整理很多的数据集。
不过我们自己的数据集可能跟文档类型的数据集不太一样,一段代码要去做很多人为的标注。有很多不同的标注,比如我这段代码可能具有的语义标签是什么?我期望它 embedding 的时候命中的语义标签是什么?就目前来说我们其实还挺原始的,我们的数据集里能感受到有很多的标签管理是非常糟糕的。
也想来学习一下。我们现在类似于在做代码的 RAG,有代码片段跟代码片段要做的一些语义标签来提高 RAG 的一些 query,达到快速命中。一般一段代码会有很多语义标签,我们希望它在各个场景都有命中。但当我们做了大量标注之后,我们并不知道现在标注到什么情况了,标语义的分布到底是什么?它的质量到底是什么?我们需要补哪些语义啊?或者说哪些语义是重复的可以优化掉?以及这块有什么开源项目或者说商业化的工具我们可以去了解?
Datastrato 堵俊平
这个问题比较典型,像非结构化数据的元数据治理。因为之前在结构化数据中,我们一般会通过元数据来做类似的事。但当下对于 unstructured data,它的这些标签体系,包括元数据增强、血缘以及版本管理,其实都在传统结构化数据的一些处理方式上有一些革命性的突破,我们可以线下再深入探讨这个问题。
但是 high level 来说,应该把它放到一个统一的元数据体系里面,然后这些标签可以有一些历史性的信息,包括相应的血缘,你标注完之后,未来在后面生成的模型中,它的回溯应该会形成一个上下游的关系,让血缘和相关信息有清晰的记录和可追溯性。 业界领先的工具这块可以看看我们的 Gravitino,最近刚刚成为Apache基金会的官方项目, structured 和 unstructured data 的统一元数据湖都可以通过这个项目来搭建。
提问:现在行业有一些什么瓶颈或者突破?
Datastrato 堵俊平
我觉得瓶颈还是挺明显的。我们过去 20 年、 30 年在数据方面的积累更多的是对于 structured data,从数据库到数据仓库,以至于到后面的数据湖和湖仓,更多是对于 structured data。对于 non structured data 或者 unstructured data,传统的从数仓体系诞生出来的管理和治理体系目前还比较薄弱,所以这里面有很多痛点有待更好的产品来解决。
第二个瓶颈来源于数据的获取,因为各种各样的原因,可公开的商用数据集很少,大部分的数据实际上都是在各个私域里面,所以从私域到公域是一个很大的问题,影响了数据流转的效率。6 月份我在旧金山参加 Databricks summit 的时候, Jensen 黄也是提出了这个观点,他认为 GPU(算力)技术发展得很快,模型(算法)技术发展的很快,但是现在反而数据有点落后的感觉。我觉得核心的原因是业界我们怎么样能生产(包括采集、汇聚、清洗与标注)大量可共享的数据?所以未来数据的交换、交易将会是一个很重要的问题,那这里面要解决很多问题,包括大家数据格式(schema)的对齐。第二个就数据价值的评估,如果是交换,肯定是基于等价的交换,那首先我要衡量我的价值;如果是交易,那就更需要去衡量数据的价值,这也是一个很大的问题,而且还加上尤其在大企业由于部门墙造成的数据的隔离。比如我们早年间发现一个超大型的跨国公司在总部有三套 Hadoop 系统来源于不同的vendor,彼此隔离。这些现状阻碍了数据价值的发挥,从而对生成式AI模型与应用发挥价值产生很大影响。
Epsilla 宋壬初
大家好,我叫宋壬初,英文名是 Richard。我们是 YC summer 23 的公司,我们做一站式的检索增强生成即服务的平台,帮助企业快速地将私有数据与大模型进行集成,同时在上面构建 AI 原生的应用,比如像 chatbot 或者 semantic search,帮助企业快速从从原型到上生产。
我们看到在数据领域的两个瓶颈和痛点,第一个方面就是非结构化数据这边,像在很多 PDF 文档等等非结构化文档里面有很多比如图表信息,怎么能够把这种信息很精确地抽取出来为后面的 AI pipeline 所使用?整个业界也在快速推进,像早期 open source 的 PDF reader,数据出来之后就会丧失掉这些信息。对于后续的 AI 生成来讲,它是一个 garbage in garbage out 的状态。但现在随着技术迭代,就像 unstructured.io,像 LlamaParse、AnyParser 等等基于 vision language model 的技术出现,逐渐把图表、表格的数据以高质量的形式所抽取出来被大模型所使用。
第二个痛点是对于多模态的数据,像图片、视频、音频的数据与怎么和大模型集合?一般比较传统的做法就是直接从图片里面把文字给抽取出来,然后用基于文字的大模型进行识别。但现在有一个比较新兴的方向,就是跨模态的embedding,比如像 OpenAI 的 Open Clip,包括现在 Jina 出的这种 clip 模型,把文字模态和图像模态原生地整合到一起。这样就能够实现多模态的检索增强生成。
瓴羊智能科技 Moyi
我是Moyi,现在在瓴羊负责数据开发产品的运营工作。我们主要是做整个数据开发和数据治理的产品,现在我们在 AI 也有一些尝试和突破。可能 DataWorks 大家会比较了解, DataWorks 的 AI 的方向是去做 Copilot,去加强解 SQL 写代码的能力,比如自动生成 SQL,做 SQL 的补全以及 SQL 的改写等。但是我们尝试下来效果并不是特别好。我们也服务很多的企业,也从大型到小型都有。
我们觉得在整个数据的赛道里面,数据开发的提效并不是一个很大的瓶颈,最大的瓶颈是在数据治理,比如说我的数据口径,数据标准是怎么样的?以及大家是不是在讲同一套语言?当我们说销售额的时候,我们销售额的口径是不是一样的?包不包括退货?这是很简单的问题,但随着你的组织越大,这些很简单的问题都会带来很大的消耗,导致整个数据建设有大量错误的数据。
那这个时候你去做开发,其实从整个企业的视角来说,并不能够真正达到一个很好的 ROI,但数据开发这块我们也在做,因为我们相信那是基于底层基模的能力,那我们集团通义千问,外面的厂商也有很多很好的基模,那就等待这一块的突破,然后我们去做这块的应用就可以了。
那我们在 AI 的发力上跟前面同学说的有一定类似,我们可能会更多放在 data Catalog,就是整个元数据的补齐、数据资产目录,以及数据的消费上面。首先我们要有一个底层很干净、很清楚的数据目录,我们可以通过 AI 快速地去做一些元数据的补齐,然后让我们的数据资产非常清晰。另外一个就是在数据消费上,让我们消费的用户都能快速地去找到正确的数据。比如说去做一些智能助手,比如我今天想计算我全国各个门店的销售额的比较,或者年同比、或者是月月环比,那我应该取哪张表啊?我们的小助理就会快速告诉他去加快数据的消费。
Part 2 破壁研讨
什么是有效且有价值的AI数据?如何获取?
Measurable AI 黄何
我们公司叫 Measurable AI,我们是一个是卖数据集的公司。我们并不是做 data infra,也不是做 tools。那更具体一点的,我们是做 Email receipt data。我举个例子,比如说你叫个外卖、打车、电商买东西,你会收到一个电子邮件的收据发到邮箱。我们就大概每一个国家获取 10 万、 20 万的用户,来让他们把他的邮箱来授权给我们,然后我们从他们的邮箱里去找电子邮件收据,把这些数据进行是清洗,最终生成 granular 的、transactional、匿名的、脱敏的 dataset。
我们把数据集卖给两种类型的客户,第一种就像比如外卖、打车公司,全球前十的外卖打车公司可能有八个是我们的客户,还有比如卖给一些投资人、对冲基金跟投行,他们用我们的数据来预测比如外卖、打车跟电商公司 revenue 的增长和 GMV 的增长等等。因为这些公司很多是上市公司,他们发财报通常会有一个半月的 delay,那我们通过每一个国家采集 10 万个用户的样本就可以预测出这个公司在这个国家的客户 spending 增长大概怎样。
我们数据的使用场景比较传统,还没有那么AI。有两个地方我也想了解一下,我们采集消费数据,现在当然已经有很多客户,主要是 digital economy 的公司和投资者,但他们的场景还是比较传统,比如用我们的数据去看每一个公司的增长、market share 的变化、promotion 和 discount 对用户忠诚度的影响等等。这类东西还是比较传统的数据领域,我们也想探索,第一是怎么样让这些数据成为 AI 的训练数据,产生更大价值?第二是在座很多是 AI 公司或者大模型公司,我们还没有尝试过把数据卖给大模型公司去做训练。那我们也想看这里的机会,我要用什么渠道去把这些数据集卖给 AI 公司跟大模型公司,产生更大的价值? 其实我们公司还有一个创新的地方在采集数据上面,因为我们有一个机制是奖励用户来贡献数据。就是说他心甘情愿地把他的邮箱授权给我们的同时,我们也根据他的每一张账单的消费金额,给用户提供了奖励,以及我们通过数据变现最终卖了的少也有一部分的 revenue 返现给用户。也希望通过一个更好的、更 sustainable 的方法去采集用户数据,而不是说我提供一个是免费 APP 给你,就把你数据扒了去变现。
我们也想看,大模型公司到底有多少 budget 会来买这些数据,以及这些数据对它到底有没有用?我记得 OpenAI 它买了 Reddit,Reddit 卖数据给 OpenAI,一年卖了不知道是 6 个亿还是 4 个亿。我们的企业客单价,一个企业每年也付一两个 million,但是我不知道 AI 公司会愿意为这些数据付多少钱?我不知道值不值得我们花时间卖数据给这些 AI 公司,因为比如卖数据给外卖打车公司,他们真的有很大的 budget 来买这些数据。但是我们之前尝试把这些数据卖给比如说游戏公司、online travel 公司,他们几乎都没有 budget 来买这些东西,所以我不知道值不值得我们花功夫去探索把 dataset 卖给 AI 公司,以及他们真的有多少 budget 会愿意来买。
Orbifold.ai 朱永钉
我觉得一个企业一般 budget 是几十万到几百万到几千万都有可能,但是企业买传统数据有个特点,他喜欢把你的整个 glossary 全部买了,但是每一个 item 的单价会很低。比如传统上像 Git image 本来是给创作者提供一个可以变现创作照片的平台,一张照片在 image 可能卖 1, 000 美元。但是如果 Git image 直接把它卖给大模型公司的话,可能是一把把所有的照片全卖了,一张照片可能就只要一块钱。对 Git image 来说,它就很快能变现,即便一张只卖一块钱,但是它全部卖掉,一次也是一笔很大的买卖,就像 Reddit 把整个数据给卖给 Google,一次性就有几千万的收入,而且对他来说成本几乎是零。
Measurable AI 黄何
你刚刚讲数据单价,我不知道 AI 训练是怎么样的,但是在我目前的领域,历史数据基本上是不值钱的,历史数据基本上是白送的。比如一个打车公司想要买我们的数据,我们就白送过去三年、五年的是历史数据,让他们去验证我们的数据到底准不准?真真正正值钱的数据是未来每个礼拜、每天我们 deliver 给他们的新数据。
Orbifold.ai 朱永钉
大模型公司和传统的企业在数据的需求上是不一样的,传统企业是以 business 驱动,一般越新的数据价值越高。大模型公司希望你把整个数据都给它,历史数据对它来说也是有价值的。这个观察整体是对的。
如果数据要变现,我感觉你们数据是比较垂类的,属于receipt,更多的是像外卖或者打车公司可能需要这样的数据去帮助分析行业和市场。但是大模型一般不是这样的特点,我认为你们的数据,对于外卖公司训练它的垂类模型应该是有很大的价值。所以你们一个最大的市场应该是卖给你们对应行业里面的头部的企业,他们是有比较大的 budget 去训练垂直领域模型的,应该是有一个比较大的市场机会。
Measurable AI 黄何
像现在某个打车公司买我们的数据,也不是用来训练模型,可能也做一些 pricing 模型,但他们更多用这些数据来看他们的市场占比等等。我觉得他们可能并没有真的把这些数据去训练太多东西。
Orbifold.ai 朱永钉
你们数据卖出来的时候,是签一个 framework agreement,还是 specific agreement,specific purpose?
Measurable AI 黄何
我们在每一个国家采集 10 万、 20 万用户,把邮箱授权给我们,像巴西有个二十万人授权邮箱给我们,那我们就看这 20 万用户里面每天有多少人收到,比如说某个打车公司的邮件。我们把这些邮件做清洗完之后,每天做成一个 dataset 给他们,他们就按国家来订阅,每一个国家每一个月给我们钱。 像打车会用我们的数据做大模型,我们大部分客户,交流的时候他们问的问题还是一些比较基础的问题,他们甚至就关心说你的文档太大了,Excel 是打不开等等。
Pangolinfo 张竞
我们专注在做电商亚马逊数据的采集和监控,我们做得比较好的是亚马逊站内的关键词排名的数据,我们可以做到分钟级。我们在时效性、完整性、准确性上面在业内都比较领先。现在很多出海应用公司、头部数据应用的幕后英雄很多数据都是跟我们买。我背景一直是在做企业级服务相关,原来我也在 Salesforce、SAP 工作好多年。
我听到黄同学讲的,我马上就觉得跟我做的事是比较 match 的,再之前很多同学讲的,我觉得又找回了我原来做企业级服务的感觉。一旦是到企业级服务的链条里,这链条很长、非常复杂,对企业来说 ROI 是很重要的、考虑要做还是不做的指标。 第二点感受是,因为原来我们做企业级服务的时候,很多企业连数字化的水平都不是非常高,现在一步就要迈到了 AI 时代,我觉得其实比较跨越。像刚才朱同学讲的部门墙,其实很多企业数字化水平都不高,一步跨到 AI 应用,还是挺跨越的。 第三个感觉是,因为 AI 的出现,数据的获取成为一个 AI 的痛点,因为 AI 对数据的需求有指数级的提升。我们也觉得做私域数据太复杂了,对于我们这种创业公司来说,可能门槛确实是比较高一点。因为我们想去做 public data,就是公有数据的一些获取和挖掘。
MIT Lei Huang
我现在在 MIT 念博士,我们团队最近的一个主要研究方向就是数据定价,数据定价是个很长链条的事情,因为它涉及到很多方的利益群体,比如说 data provider、数据生产了之后类似于数据中台的公司、用这个数据去训练模型的 modeler。所以它一方面有关技术,要去确定数据点,对模型有贡献;但另一方面,从某种程度上来说,你有了这个技术之后怎么去应用?怎么去改变这些人的激励、对生态的影响?所以它确实是一个很交叉性的学科。
我也想简单介绍一下我们现在在做的一份工作,我们现在只在这个长链条中做了一个小点,偏技术型的,就是我现在有一堆训练样本,我来训练了一个模型,因为这个这一堆训练样本使得我的模型表现从 0 变到了100。我怎么样把 100 的 performance credit 分到 training set 里的每一个 point 上?这个划分的过程在文献里有很多方法来做,但是我们如果仔细去看这些方法的话,他们都就是有一些性质,比如说就像刚才说的公平、可溯源,以及能不能把从 0 到 100 的饼整个画完,这些性质都是比较难以满足的。
我们现在这份工作,从一个技术角度来说,就是怎么样有一个比较好地满足公平、可溯源、可加性等性质的算法。你只要告诉 training data 是什么,那我就能告诉你每一个点的 credit 应该是多少。我们现在这份工作是比较偏技术性的,但假如说把模型的 performance credit 分到每个 data point 上这个技术性的工作做完后,对上下游的生态、对这些 data provider 以及 modeler 的 incentive 会产生什么样子的影响、以及对整个 ecosystem 会产生什么影响?我觉得它是一个很复杂,但是值得长期去做的一个事情。我个人认为数据定价一方面技术上来说是一个难点,就是你怎么把 credit 分完;可能很多时候不是和技术有关,而是和你整个分配的系统有关,跟 strategy 有关,所以它绝对不仅是一个技术问题。
Attribuly 李驹
我们主要是做电商的用户行为数据。这个数据在整个电商品牌的运营或者营销里都有蛮多用处,比如说怎么分析营销效率,产品的盈利性,或者通过营销去提升整个库存的周转率,都有很多用处。
关于有效且有价值的数据,我们跟刚刚讲的公有数据集不一样,我们更多是用户私有的、或者是品牌的用户数据,它怎么进一步去加工挖掘,为业务赋能?可能现在做的一个事情就是看这些数据怎么样去通过AI,或者通过更容易的 SQL 方式去让没有那么强的数据分析团队去更好地使用?那可能会去通过不同的指令、过滤方式去把他要的数据快速地抽取出来,并为他的业务提供更多洞察。
这块可能我们也准备在做的是把我们的一些用户自己的数据集,比如说跟他产品相关的,跟他营销相关的,跟他用户相关的,做成几个数据集,然后会给他一些模板。以前可能是通过 SQL 的方式给他提供这样的能力,那未来我们希望能够加上 AI 更有效地让他去把数据抽取出来,再加上 BI 的能力,让它可以在我们一个平台实现数据的加工和可视化,甚至怎么能跟它的营销动作一起来个性化提升用户消费体验、LTV。这个可能是我们看见的,包括美国一些比较大的类似公司,他们一定会做的一件事情,这是想分享的第一点。
第二点,可能刚才几位嘉宾也讲到一个很有趣的是数据分享。我能想到的一个场景,可能是对于私有数据来讲,在营销这个行业蛮重要的就是用户的 targeting。那有没有可能两个卖宠物产品的品牌在我们平台可以去交换一些人群数据,当然肯定是经过加密和脱敏后的数据。这种数据非常有价值,比如说我做产品,我能不能去获取另外一相似产品人群包的数据,并通过我们作为中介去脱敏以后交易给另一方?我觉得它基本上可以根据 CPC 或者人群的购买 LTV 的价值去做动态定价。相应高价值用户的定价肯定会更高,我们应该可以实现按照人群的价值去定价。
但现在这块我们研究也很浅,我们也不清楚比如人群包的交易是否是涉及到一些法律风险。目前我们在基于Google BigQuery做一些早期尝试。
提问:你们在找数据的时候,如何定义找有效且有价值的数据?
Measurable AI 黄何
我们最早是做的是 email APP,做了有十年了,当时也进了YC,但是 mail APP 这么多年来赚不到钱,也没有用户会真的为 Email APP 付钱。我们进 YC 的时候,当时 YC 有一个公司是叫 second measure,他卖给了Bloomberg,他们采集信用卡数据,把用户的消费行为跟上市公司做 Mapping,用这些信用卡数据来预测一些上市公司的销售额,然后把这个数据卖给一些对冲基金,我们就类似于学他的这个模式。
但是因为我们是做邮件的客户端,那我们就从邮件开始找,邮件其实也很多消费的数据。我们当时花了一年的时间做了第一个 use case,结果一个客户都没有,我们第一个 use case 是去清洗苹果给用户发的 inapp purchase,我们就想用这个数来预测比如说每一个游戏的增长率是多少,高价值客户给游戏贡献了百分之多少的收入等等。我们本来是想卖这个东西,结果花了一年一个客户都没找到。后来最早是一个客户主动找过来,因为他们在美国用了一个类似的服务,就想找全世界有什么类似的邮件数据公司可以买,我们也从一个market、两个 market 开始做,然后做到十几二十个market,也同时去找客户的竞争对手,把数据卖给他们的同行们,然后再看一些投资者,他们就会想看一些公司的 performance 和它同行的 performance。这几年其实一直都在外卖、打车、电商这三个是领域做。
AI企业的数据治理需要注意什么?
Measurable AI 黄何
可以代替我们的数据有这么几种,第一种是信用卡的数据,在美国有几个 data provider 做信用卡数据做得非常成熟了,做可能 20 年、 30 年了。第二是 Web scraping 的数据,这也讲到了如何合规获取 public data,用 Web scraping 来爬电商数据在投资领域用了非常久了,可能 20 年来大家都是通过是 Web scraping 爬电商销售额。但是去年有一个非常大关于合规的 milestone,美国最高法院有个判决,前两年微软是收购了 Linkedin,发现有很多数据公司天天在爬 Linkedin 的数据,去看每个公司有多少的员工等等。微软就告了一个去爬 LinkedIn 数据的 data vendor。因为 LinkedIn 整个网页最下角的 terms of service 写的是不能爬我的东西。这个事情一直告到了最高法院,最后那个 data vendor 赢了,最后的判决是在美国,只要这个数据在网页上,在不用登录的情况下你打开这个网页就能看得到的东西,不管这个公司的 terms 怎么写,你去爬都是合法的。这个是 public data 一个非常大的milestone,这件事情之后,大家发现这两年 LinkedIn 很多人的页面都不能直接看了,要登录去看。这是这个判决衍生出来的一些东西。
Pangolinfo 张竞
刚才也讲到了 public data 的合规问题。我觉得那个事情确实是 public data 的一个里程碑,是一个基础,就是合规的边界在哪里?最起码我们看到在美国,这个边界是越来越清晰了,只要不需要用户登录就可以看的信息,而且它不涉及版权,只要能够把它拿到,把它做成这个 AI 可用的数据集,你就可以拿它变现。
如果这样想的话,数据其实是海量的,是非常大的一个池子。可能用这些数据也有门槛,但与其说我们再来关注私域数据的价值、交换、交换过程中的版权保护、还要说服用户愿意贡献这些数据,我觉得那个路径可能更短一点。
所以我们现在在探索什么呢?我们原来主要专做电商数据,现在我们在想办法去做一些通用公有数据挖掘的 Infra,大家做 RAG 也好,或者是做模型训练也好,不管你要的是一次性训练的语料、知识库,还是说你要做 RAG 的实时数据信息,帮 AI 应用做出 action 的这样的数据,我们用一种可以通用的、高效的方式去支撑。 这个事我们也在不断地探索,因为我觉得一旦到了底层的 Infra,就有一些需要考虑的点。我们自己也总结了一下,我们觉得如果要把能直接使用的公有数据 Infra 做出来的话,必须得达到四个条件:第一个是它要有足够的适用性,就是所有的、不管什么样的网页类型、网页结构,只要是公开的可用数据,我们这样的服务或者 API 接口都可以把数据获取到,所以它是个全适用的服务。
第二个,越往底层我觉得拼的不是我们要卖一个 sale value,更多比的是效率,就是我成本要可行。所以我们现在在努力控制,我们获取一个页面信息的成本要在零点零几美分,这样使得成本不再成为 AI 用的障碍。
第三个就是要有能够支撑自己并发,并发也非常重要。因为 AI 使得数据处理的瓶颈极大被突破,未来公有数据、实时的信息可以帮助 AI 模型来做很多的事。举个例子,订机票的行为,这么简单的一个动作基本上没有 AI 应用可以做到,因为他们获取不到最新的机票信息跟数据,就没办法来做出这样的 action。所以我们想追求的就是能够达到每秒钟处理 500 个亿美以上的并发效率。
第四个是能够实时,我们可以分钟级地采集、解析,让 AI 来采取实时行动。
Orbifold.ai 朱永钉
我觉得其实中国和美国可能还不一样,中国可能在数据智能现在有一套完全不一样的法规,但在美国我们可能注意一些完全不一样的问题,比如刚才提到的数据,虽然说我们可以去公开地去查取一些数据,但是可能大家注意的是数据的版权、肖像的权利、 copyright 等等。美国的法律是鼓励创新的,所以它整体的原则是,鼓励大家在别人 copyright 的基础上进行二次创新。这个事情整体来说在法律层面上是非常鼓励的。
比如大家在 YouTube 上经常看到一些解说电影的视频,他其实拿着电影的一些片段组合在一起,然后对他进行解说,这在 YouTube 上可以名而堂之地放,因为做视频的创作者在原来的电影创作基础上做了二次创作,这个法律上叫做 fair use。Fair use 就是对原有的 copyright 做了一些 transformative 的应用,所以其实在数据治理层面,我实结合之前那几个问题。因为数据行业相对来说还是比较敏感,如果做交换数据的话,不要拿原始数据去做,因为原始数据相对来说是比较敏感的,最好是在原始数据上进行过二次创作,比如你的数据进行了一些chunking、在上面做了一些其他的数据提取,或者是一些数据重组,然后才跟其他企业进行数据交换,这样会相对来好一些。
因为我们在 data curation 的过程中看到了很多企业在做这件事情的时候,尤其美国的企业,他做得非常小心,反而在国内可能大家会觉得一本书直接交给自己的乙方就 OK 了,但其实这里面涉及到很多的法律问题,在美国需要特别注意。因为这种问题很有可能会让企业几年的利润灰飞烟灭。数据治理尤其重要的是一些 copyright、内容合规的一些动作,尤其对内向员工要特别去宣传这个事情。
Epsilla 宋壬初
刚才嘉宾也提到了,怎么在非结构化的数据上面增加元数据,使得它的数据在可检索性和可使用性上面有提升?元数据与基于向量检索和基于知识图谱的检索相结合,可以进一步提高检索增强生成系统的性能,这是我们现在主要在看到的一个趋势。
Datastrato 堵俊平
我一直有一个观点,未来数据有很多种变现的方式,卖原始数据是一种方式,更多的可能是加工过的数据产品(本质上模型也算)。我认为未来很多机会是在 data as product 层面。那从原始数据怎么样加工成一个 data product?我觉得有几个层面,元数据的增强和数据访问(API)标准化是一个方面,第二个还是面向不同领域行业的实践,同样一份原始数据可能在不同行业会加工成不同的 data product,我觉得这也是一个值得关注的趋势。我觉得未来会有一些面向行业的数据公司逐渐构建起来。 总体而言,过去的十年、二十年,很多互联网企业是谁采集到数据谁使用数据,谁慢慢形成一个垄断地位。未来十年、二十年会是一个从数据垄断走向数据民主化的过程。当然这个是美好的愿景,需要一步步来实现:实际上大家多多少少在使用数据,利用数据,以及拿到更加有时效性和高价值的数据方面,每个企业肯定有差异,但不会是过去完全黑盒方式的垄断,未来可能是一种白盒方式的竞争。这块体现了很多企业面向未来构建数据竞争力的一个很重要的层面。今天我看到比如电商行业在做这一块,而且都已经意识到、关注到从过去的分析型数据走向AI与数据结合。今天行业的进展和发展让我和团队非常兴奋。
至于合规性,像在欧美,大家对隐私保护是非常重要的,比如说像一些 PII 信息是不能随便被收集或者存储,它对整个生命周期管理有比较严格的限制。另外一个比较重要的,比如我们去看 hugging face上很多公开数据集都是有一些相应的 license,这些 license 并不总是商业友好的。有的数据集可以用于非盈利目的,但是对商业使用有各种各样的限制,这个也是需要格外注意的。
关于在数据使用过程中的隐私保护,我们觉得在这个点上未来大模型会有很多的作用,因为我们现在对于数据的使用,最大的问题还是对人作为数据操作者的不信任,觉得人介入进来可能产生意想不到的结果,但如果是一个比较中立的模型或者算法,那相对来说会更具有信任感,我觉得这是模型和算法可以做到的事情。
Pangolinfo 张竞
刚才讲到数据交换,其实早在 2016 年 Salesforce 买了一家 DMP 的公司,叫 Krux,然后来他在 Krux 基础之上,在 2017 年就推出了customer data platform 解决方案。DMP 也不能说是完全的数据交换,更多的是做 data enrichment,你可以通过自己的一些用户画像,通过 DMP 投广告。我们就简单地分成三类数据,用户自有的数据,我们叫 first party data;通过 DMP 这种交换回来的可用数据叫 second party data,其他大量的大数据,我们叫 third party data。所以我觉得数据交换这个行业由来已久。
DMP 也是遇到一些问题,比如说他自己有数据源,但是他也不能直接去透明地去提供用户数据,所以他只能模模糊糊地做二次加工,脱敏了之后再拿来使用。但是脱敏之后会有信任度的问题,加工后的数据对企业来说是黑盒子,到底你的数据准不准?效果怎么样?所以包括我们的一些客户,他们做电商数据分析、卖报表给卖家用。但是有些卖家就会直接找到我们,说这个数据加工之后,我不知道是什么时候的数据,也不知道这到底对还是错。
它有一个很大的问题,是这种 data 分析会带来内卷。如果大家都是同一个数据源、同一个报表,角度都一样,就会变成什么呢?比如大家投广告,多去 bid 同样的一个我筛出来的品类或者关键词,就会导竞价越来越高。所以数据的使用者会想要原始数据,不要加工过的数据,要用自己独特的一些视角和方法的 knowhow 来处理,来得到业务knowhow。所以这个是我的一个观察,但怎么去做 data exchange?其实我也没有很好的一个方案。
如何提高数据的质量与可靠性?
Orbifold.ai 朱永钉
我们做 data creation,最重要的一个问题就是企业要求数据有多样性,他希望数据能够 cover 他所有的 case,并且如果训练一个比较好的模型的话,那么他的数据不能太偏,在这个领域我们有些比较通用的算法,比如说密度采样 density sampling。美国一般的企业有几个 PB 到几十个 PB 的数据。如果把这些数据全部扔进去训练模型,或者扔进一个 embedding model 里面去把它塞到一个 vector database,其实很不现实,成本非常高,基本是天文数字。所以几乎所有的企业都需要对数据进行瘦身,瘦身的同时会去掉一些数据的多样性,如何去保证多样性是一个非常关键的事情。
首先第一件事情是取样过程中如何做到不偏不颇?刚才提到的 density sampling,一个比较经典的算法是 clustering,你把数据点通过某个 feature 做某种聚类,然后比如有几万个、几十万个、几百万个数据点在这个 cluster 里面,那么你如何取得 representative,这是最关键的。其他多余的数据就可以扔掉了,这几个关键的数据点取对了之后,你就可以把它换成一个比较瘦身的小的数据集,这个数据集拿去训练模型的成本会比较低。因为现在企业训练模型几乎每天都要跑,企业和基础大模型最大的一个不一样是企业模型需要每天跑,它需要最新的数据,而且它的数据对于结果的要求更高。所以对数据集的多样性,对于密度取样的精确性,我们会做很多操作。
还有一个是可能企业的数据多,但是不全。这对于企业来说是个非常常见的现象,这个时候是需要在一些公开的数据集里帮他找到那些比较关键的数据点,补齐现有的数据集。这样训练出来模型才是一个没有那么有偏见的、准确性比较高的模型。
所以本质上做好两件事情,第一个是比较好地做 sampling,另外一个事情是做好数据增强。这两件事情貌似是矛盾的,一个是把它数据变小,另外一件事情把数据变大。但是这两件事情对大部分企业来说同时都要做。而且未来如果我们想企业避免偏见、提高模型的准确性,就要提高它数据的多样性。提高数据的多样性就要从数据的蒸馏(刚才说的 sampling 就是这样一种方法)和数据的增强两个方面同时入手。
我觉得数据的坑实在太多了,我重点提一点,如果真的要提高数据质量和可靠性,一开始要把数据的规则定好,比如说数据的 Meta 在一开始就要有定义。我们可以把它叫做元数据管理的一个 Catalog,把数据的血缘关系够搞得非常清楚。
其实今天大部分企业,尤其企业做得比较大的情况下,部门墙导致了数据的各自为政,大家的标准是不一样的。在美国可能大家用类似于 Fabric 这样的解决方案去解决,在中国可能是数据中台。大家都想解决这个问题,但这个问题都没有得到很好的解决,本质是我们的历史数据实在是太多了,以至于现在去做太重了。一个团队想启动这个项目,很难得到上层的支持。
所以数据已经是这样子了,如何去做这个事情?我一直认为这里面 AI 可以做很多事情,打个比方,有很多元数据,比如说几十万张表,我要去把这些元数据好好做一个理解,其实是要人去写、去告诉我们这个数据到底是干啥的?这个字段、这个 column 到底是什么东西?很花时间的。如果 AI 通过分析 column 的内容可以自己总结出来这个 column 做的事,对于整个数据的管理和质量的提升会起到很大的作用。
并且基于 AI 的总结分析和原数据的提取,可以衍生出很多的上层应用,能更好地数据给管理起来。所以我觉得这个领域未来有很多发展空间,尤其是大模型时代,数据质量尤其重要。我们现在发现今天大模型进入了打补丁时代,就是我发现这个地方不好,我就赶快找个数据集去对他打个补丁。补好这个补丁之后,另外一个地方发现质量又不好,然后我就再去打个补丁。本质上就是数据质量出现了问题。我甚至不知道两三年之内普补丁时代能不能结束。但是大模型起码今天整体是可用的,但总有一些小问题需要去补,而且不是算法层面,就是从数据层面去,其实本质上是数据质量问题。
Datastrato 堵俊平
关于 AI 模型的数据,主要是多模态的问题。刚才讲到了高质量、多样性,从采样的角度,我觉得这是一个思路。那么第二个思路是从另外一个角度,就是大模型的推理端,类似于 build RAG 系统。其实我们不一定要把所有的数据都塞到大模型里面去 train,这个也不现实,我们现在接触下来很多客户还都不是几十 PB 的数据,而是有 1000 PB、 2000 PB 这种超大型的,这么大体量的数据全部给它塞到大模型里也不合适,而且有些数据比如说图表类的、table 型的数据,现阶段也不太适合向量化。
在这个阶段更加可落地的方式是用一个 RAG 系统,在推理端让大模型的部分能力结合数据本身的检索能力,最后合成一个更好的结果。从早期文档类的检索 RAG 到多模态的 RAG,目前来说是快速发展的技术方向。我们现在通过元数据聚合和增强与大模型框架(比如LlamaIndex)的有效配合,把文本与非文本、向量化与非向量化的数据可以有效地结合起来,在复杂语义检索和Data Agent构建方面,实际落地的效果不错。
第二个就是除了在大模型的训练端和推理端,我们发现大模型可以很好地用于数据本身的处理。我觉得这个趋势蛮有意思,传统上我们在数据领域的从业者一般有三种角色,一种是 DataOps,就是做底层data infra 的运维运营;第二部分是 data engineer,把数据通过ETL从 unstructured 形式变成structured形式,或者在各种 structured table之间来回倒;第三个部分就是 data scientist,做 data modeling 这些事。这三部分其实现在跟大模型都很有关系:
比如像 Data Ops,现在越来越多的企业开始开发产品与工具,做一些自动、半自动的 Data Ops 数据运维,比如把收集到的关于 data platform 的 metrics 记录下来,然后扔给大模型或者各种模型去训练,训练好之后用于生产系统的性能上调试与增强,这个事情已经在发生,未来也会逐渐普及。
对于Data Engineering,就是把数据通过 ETL 或者其他方式在不同的地方做转换,那这部分工作目前来看潜力很大,我们当下在做的事情就是通过统一元数据这层做 data fabric,把所有的数据通路建立起来:不管它在哪个云上,或者是在哪个数据库、数据湖里,构建这样一个数据“平流层”。未来随着更好的模型能力,它就可以自动把一些数据,structured 和 unstructured data 可以自由转换,更加自动化。
第三个是关于 data scientist 这部分,其实现在有很多 Copilot 的平台帮助 the scientist,自动生成一些 SQL,或者自动生成一些脚本。
所以我们能看得到, AI 在三个层次上,(Data Ops,Data Engineer,Data Scientist) 都能够让现在数据的工作更有效率。第一个Data Ops在已经发生了,另外两个未来的潜力巨大。
关于数据的质量,现在也有很多不同的评估标准,但我们(提高质量)一般的手段都是传统上的标签、数据的清洗和清理,包括数据的增强。刚才有嘉宾提到不知道数据的时效性,这个时候我们可以做一些数据增强,比如说加一些时间戳等等,甚至赋予一些地理信息,这样就可以有效提升信息的质量。包括还有数据的标准与格式化,刚才有嘉宾也提到很多时候数据质量不高是因为大家的接口不对等,这个问题也挺常见的。我记得有一次在AI基金会的Board闭门会上听到一个业界领先的超大型公司,大家就觉得它数据做得很好,但实际上内部的元数据系统是完全没有对齐的。一个突出的问题是缺少一个统一对非结构化数据的描述和元数据定义,这个问题是当下AI数据质量问题的一个重要原因,需要业界一起努力来增强和改进。
Part 3 机会研讨
AI时代新兴的数据创业机会有哪些?
AWS 王晓妍
我想分享的还是关于大模型未来发展的道路上我们看到的一些对于数据的需求和目前的瓶颈。可能大家都知道现在大模型文本模态的上限,它再往上推高已经非常难了。如果想继续提高模型智能水平,下一步就是必须要更多模态的数据去训练。
这里会涉及图片、视频、3D,以及真实世界的行为数据等等。这些数据该怎么样采集和处理,这一块我们发现现在有很多新兴的创业公司在做,目前也分为两大流派,有一派是坚持要做真实世界数据,他们觉得训练大模型一定要用真实世界采集的数据,所以开发了一些低成本的动捕设备、3D 采集设备、视频的采集设备,用这些方式去收集真实世界数据。另一派认为真实世界数据是不足以支撑的,他们觉得一定得结合仿真数据,或者说真实世界数据收集会太困难,所以他们通过底层的物理引擎,在上面去构建一个非常逼真的仿真环境,让大模型在里面学习,或者产生新的数据。还有一些人认为需要把这两种结合到一起。大家各种方式都在尝试,最终的结果怎么样还是要看训练的效果如何。
还有一块不得不提的是合成数据,其实 OpenAI 和 Anthropic 在接受采访中都已经强调了这一点,他们在训练过程中非常多地采用了合成数据,硅谷现在也有一些创业公司在做这块业务。但针对合成数据也会有一些 concern,有些人认为这种合成数据有点像近亲结婚,之前已经用原始数据训练过一遍模型了,再用原始数据合成的数据去训练模型,之后提升会越来越少。所以也想问问各位嘉宾对合成数据的看法,你们认为合成数据未来的潜力怎么样?
Datastrato 堵俊平
我觉得未来合成数据还是挺有潜力的,因为有些 startup 现在也在做这块的研究。这块我觉得核心是,未来很大程度上取决于我们多模态做得好不好,现在只是靠文本(ChatGPT 成功的本质还是因为 document 的数据),但是对于很多 3D 的、包括 physical 的数据,最好的模型还没有 deliver 出来。
我觉得现在的模型相对于两年、三年之后的可能还是比较初级到阶段,如果到那个时候模型能模拟出来各种各样的仿真环境,产生一些更逼近真实的数据的可能性就会很高。
Way to AGI Sisi
我们现在遇到的多模态数据上,第一个感觉是欠缺很多数据,另外一个是收集数据的时候,我个人比较偏好收集真实世界的数据,因为仿真数据会有一个问题,就是大家在做仿真或者说做合成的时候,你会天然地去根据目标导向,来做一些合成,其实它很难模拟真实世界,有一些不太符合规则,或者说各种低质量,或者说有一些需要处理的 Badcase。所以我推荐用真实数据。
另外一个是,我看硅谷那边比较有意思的是,像群里刚刚有老师提到的数据管理的 SaaS 服务或者 Infra 的平台,可能是很大的机会。我看有一些已经在做了,就说在 AI 的时代,下一个是数据要如何存储,另外一个是这些数据要怎么天然地跟模型、或者说跟公司业务做一个这个很好的契合。
Orbifold.ai 朱永钉
关于合成数据,我在我们公司里其实也要做相关的事情。我觉得合成是数据分两个层面,第一个是你把 AI 生成的数据直接又去对这个 AI 进行训练,我觉得这个是近亲结婚,往往结果都不是特别好。但是如果 AI 生成的数据训练另外一个AI,可能会有比较好的结果。 不知道大家想过没有,如果说我们现在存在的世界本来就是一个 AI,那我们不就是拿着 AI 生成的数据去训练一些东西吗?其实很多时候我们在一个虚拟世界中获得了一些数据,如果我们能够比较好地设置这个 parameter,那么它生成的数是可以比较好地模拟一种现实,它就确实是可以拿来训练现实中的一个模型,我觉得这个道路是行得通的。但是如果你单纯地只是拿着这个 AI 产生的数据又去训练他自己这是一个比较大的问题。
提问:在 insurance、healthcare 行业可能也有很多有效的数据存在在他们自己的空间,可能是比较传统的模式。大家在这一块有什么见解和学习的经验?
Orbifold.ai 朱永钉
医疗这一块确实比较特殊,钱很多,但是要进去也挺难我知道有硅谷有很多 VC 重点就是投资医疗领域的大模型。他们的数据(美国这个问题更严重)更加不愿意开放出来,所以我觉得医疗可能不是属于接下来两年之内我们会去做的事情。 我觉得 regulation 基础上还要做一些放松,然后现在医疗领域,可能医药研制是一个比较好的、可以通过大模型来做的领域。事实上,硅谷大量企业,包括我自己客户里面有很多是做医药研发的,相对来说现在已经开始在大模型上有一些应用,比如说怎么去找到一个新的分子、如何在海量的论文中去找到一些 insight,这些都是一些挺好的方向。
提问:我们有什么好的办法能够提高数据的可解释性?能服务于业务人员细微的口径差异?
Orbifold.ai 朱永钉
我觉得这个问题是数据血缘的问题,还是归结到元数据管理的范畴,这个 topic 其实挺大的。
Datastrato 堵俊平
数据血缘这个概念以前是用于结构化数据的,就表跟表之间的上下游关系。但现在 dataset 之间也非常需要数据血缘,我们碰到好多场景,就是说这些 dataset 从哪里来,被哪些模型用到,版本和生命周期如何管理,对下游的模型有什么影响等等。我觉得这个问题可能会越来越重要,而且这部分的工作相对来说也比传统结构化数据更困难,我们攻克下来也更有价值。
本期笔记整理员:Xinyun
出海同学会内容版权归出海同学会SEAMATE与输出嘉宾共有,如有转载,请引用和联系我们。
内容精选会发送在【出海同学会】,微信同名公众号内,欢迎关注。
更多内容欢迎阅读出海同学会知识库 https://yfqtipm0a9.feishu.cn/wiki/space/6965666313159065604?ccm_open_type=lark_wiki_spaceLink&open_tab_from=wiki_home