datamaster峰会2020

数据掌握是数据驱动企业的关键

 

安迪·帕尔默

首席执行官@ 澳彩

每个企业都希望成为数据驱动型企业,而疫情使这成为一种迫切需要. 但是现代企业数据的期望和遗留IT的阻力系数使其难以实现. 了解为什么掌握数据是启动现代数据驱动企业的关键,是广泛数字转型的催化剂.

 

成绩单

Speaker 2: … Welcome to the 2021 DataMasters Summit, presented to you by 澳彩.

安迪·帕默:嗨,我是安迪·帕默. 我是澳彩的董事长、首席执行官和联合创始人. 很高兴能从马萨诸塞州的剑桥来到这里,欢迎大家加入数据大师. 澳彩推荐今天要讨论的第一件事是,每个企业都需要成为数据驱动的. 许多企业开始投资于他们的数据计划, but only one quarter said that they’ve created an actual data organization.
The human part of the data equation is still a missing piece in the enterprise. 很多人都在增加对数据驱动项目的投资,而且投资规模巨大. 澳彩推荐说的是澳彩推荐的员工在他们的数据计划中投入了数万亿美元,因为他们试图成为数据驱动的,并将他们的企业转变为数字原生公司.
我最喜欢的人之一是Andrew Ng. Andrew has been talking a lot lately about the value of small data. 我觉得安德鲁想要的就是干净, 策划 version data is really what people operate on and use in the enterprise. 澳彩推荐不再谈论大数据了, 澳彩推荐说的不是企业中所有数据的大量收集. 澳彩推荐讨论的是人们可以使用哪些数据.
在安德鲁的情况下, 他对将其用于人工智能应用很感兴趣, 但你清理并用于人工智能的数据对你公司的每个数据公民也非常有用. 数据驱动是一种迫切的需要. 澳彩推荐正在金融服务业看到这种情况, 因为像Upstart这样的新进入者极大地改变了贷款和信贷审批流程, 从一开始就受数据驱动. 与传统的银行和信用机构使用FICO评分相比, 这是非常, 非常小的, 数据量有限.
在过去的两年里, 这种数据驱动的需求加快了像Upstart这样的新公司的竞争步伐, 肉搏战, 和一些世界上最大的银行合作. Upstart现在价值数百亿美元. 而10年前,这家公司甚至还不存在.
对于新的数据驱动的组织来说,存在的一个关键机会是使用新掌握的内部结构化数据, 作为解锁所有企业数据的关键. 几十年来, 人们一直在使用他们的内部网搜索引擎, 但它们真的没有创造多少价值. 清洁, 根据逻辑实体类型组织的精心策划的数据, 当您掌握内部结构化数据时创建的, 可以作为上下文进行企业内部搜索吗, 比如FAST或SharePoint, 多, 更有用的.
也, 你可以用同样干净的, 策划, 有组织的数据和关联的实体, 在外部数据进入组织时对其进行组织. 最后,你可以走出去,从现代网络中获取数据并将其引入. 在这些关键逻辑实体类型的上下文中, 让它对组织内部的人有用. 因此,这种干净的、精心策划的内部结构化数据是整个数据策略的真正基石.
现代企业数据最大的问题和最大的未知现实之一是存在于大多数公司中的数据竖井. 数以百计的操作系统,人们采用的所有新的SaaS应用程序. The dozens of data warehouses and the hundreds of data marts results in many, 您的组织中到处都有数万或数十万个数据表.
这真的是, 非常具有挑战性的问题, to bring all this data together and resolve it into that small amount of crisp, 清洁, 您的数据消费者实际需要的精心策划的数据. 创造清洁, 为高效操作和有效决策而策划和版本化的数据真正开始于使用机器的力量. 将存在于所有数据竖井中的大量数据,用机器驱动来组织这些数据, 人类引导的方法进入这些人们可以关联的关键逻辑实体类型.
客户、供应商、产品、员工. 有时, 也, there are 非常 industry-specific entity types that people need to use, 比如在石油和天然气行业, 油井就是一个典型的例子. 或者,在金融服务业,有价证券. 有许多不同类型的特定于行业的实体以及常见的实体类型. 在澳彩, 澳彩推荐帮助使用机器的功能将公司的所有数据组织成这些通用的实体类型, 这样数据就可以大规模地有效地货币化.
There’s always four sort of key ways that people monetize their data. 第一,他们用它来加速增长,增加收入. 其次,他们利用它来优化支出,找出如何能减少支出,每年都是如此. 三是如何降低风险. 通常, 这是在合规应用程序中确保他们知道他们在和谁做生意. 与他们的客户和供应商一起确保他们遵守所有的政府规定.
最后一种方式是人们大规模有效地将数据货币化, 是通过提高公司的高效运作吗. 不断改进并确保它们尽可能高效地运行. 在澳彩推荐有了大量的系统并运行之后, 人们开始意识到聚合数据的好处,并将来自所有不同操作系统的数据汇集在一起.
上世纪90年代,大数据基础设施应运而生. The first data warehouses came out from companies like Teradata and Oracle. 然后,在21世纪发生了一件惊人的事情. 有一系列的公司, 首先是Tableau、Qlik和Spotfire, 这开启了分析工具的民主化进程. 创造了大量的分析数据市民和大公司想要消费数据. 澳彩推荐经常会关注这个十年前创建的新一代大数据基础设施.
Over the past 10 or 15 years, what happened is we made a little bit of a mistake. 澳彩推荐尝试实现数据湖,并将所有数据转移到HDFS. I think it’s a foregone conclusion now that that was a massive distraction. 我的伴侣, 迈克·斯通布雷克和我试图指出这一点, back in the mid-2000s and we feel like we’ve kind of been vindicated. 现在, 澳彩推荐正处于这样一个阶段:人们正将他们的数据直接转移到云上,而不是转移到他们的数据湖.
下一步可能是从聚合数据方法转向具有数据结构和数据网格的联邦数据方法. 但, one of the most important things to keep in mind throughout this entire history, is we’ve never actually closed the loop and actually delivered 清洁, 高质量版本数据集, 在对企业中的数据使用者很重要的关键逻辑数据实体上下文中. 现在是澳彩推荐这样做的时候了.
有四种方法可以提供这种干净的、经过策划的数据. In spite of all the data variety and the data silos that exist out there, 前两种方法, 合理化和标准化是伟大的, 但它们是一种持续的鼓声.
你总是试图最小化你拥有的系统的数量你总是试图使你的系统尽可能的一致. The place where you can really move the needle is an aggregation and federation. 当人们将他们的数据转移到云上时,这是大多数行动发生的地方.
让我先说一下第一个. 聚合数据是必要的,但不足以解决问题. 澳彩推荐在数据仓库和数据湖中看到了这一点. Even when you aggregate your data and you put it all in one place, 你还是会, 通常, 混乱的数据. 仅仅把数据放在一个地方是不够的.
更糟糕的是,如果您使用联邦方法,您将数据留在原来的位置,并试图查询它的位置, 因为数据会保持一种状态. 你没有机会改变它. So, 数据联合方法, 数据结构和数据网格有一个固有的问题, 在向数据消费者交付混乱数据方面.
澳彩推荐的方法, 在澳彩, 在与数十家大型的全球2000强公司合作后,澳彩推荐首先要确保所有源数据都是连接起来的. 市场上的新数据目录, 来自像兴高采烈这样的公司或所有大型云供应商, 非常, 这是非常有用和重要的工具.
第二件事是跨所有这些不同的域匹配记录和映射模式. This is where 澳彩 comes in, this is really where mastering starts. 然后, 正在纠正所有数据质量问题, 再一次, 您需要的、澳彩等公司可以提供的精通基础设施的另一个核心组件.
The next phase is to have persistent IDs across all the different sources, 不管你的类型. 无论您是如何聚合或联合的. 如果你没有这些持久的id, 这些连接键, 跨许多一致和持久的源, 是很困难的, 如果不是不可能的话, 保持数据的掌握.
最后, 您希望在管理和管理数据时结束循环, to make sure you’re getting feedback from all your data consumers, 至于哪些数据是正确的, 这是错误的. 尽你所能去理解为什么它是错的, 这样你就可以随着时间的推移改进基础设施.
这种对企业数据的双向反馈现在还不存在. 它往往从源头流向消费者,人们没有办法对数据的质量进行反馈, 它是如何组织的,是否有用. 澳彩推荐在澳彩致力于让大公司创建这种关于数据的双向反馈流.
这是现在发生的原因之一, 云计算以及人工智能和ML技术的民主化带来了机会吗. 这两件事放在一起, 是否创造了打破所有数据竖井的机会, 通过使用机动, 在云上原生运行的人工引导技术,使用弹性计算和持久性来快速组织大量的数据. 把它放到干净的地方, 策划, 版本化的数据集, 相对较小的数据集, 大公司中普通数据公民所使用的数据.
制定数据驱动决策以使您的组织成为数据驱动的关键是掌握数据. 对于大规模的转换,还需要很多其他的东西, 你需要像DBT这样的东西. For large-scale movement of data from your on-prem systems into the cloud, 你需要像Fivetran这样的网站.
现代生态系统有许多不同的组成部分. We love this term data ops, because it 非常 deliberately refers to dev ops. 当开发运维在21世纪初出现时, 使软件开发人员能够定期构建测试和发布高质量的软件, 这是一种完全不同的方法. They used lots of tools from many different vendors in a best-of-breed approach, 为了确保他们能够持续地构建测试和发布软件.
同样的事情正在数据中发生. 有一批新的供应商正在出现, 这些都是在云上运行的, 澳彩就是其中之一, that enable large organizations to build test and release data continuously, 给所有数据公民, 作为战略竞争资产使用. We believe in this best-of-breed approach and bringing together the best tools, 而不是购买单一的供应商, 单一平台的方法.
澳彩推荐认为你必须这么做, 作为一个组织, 变得足够成熟,能够辨别出哪些工具是最重要和最强大的. 把它们组合在一起. We’re committed to working with our partners, Fivetran is a great example. 确保所有的端点在技术上是一致的, 因此,连接这些最佳工具是尽可能容易的.
There are five different stages that we see our customers going through, 在数字化转型方面. The journey is a long one and it starts with understanding where you are. 很多时候,澳彩推荐合作的很多公司才刚刚开始这个过程. 只是了解他们的资产以及他们的位置. Trying to figure out what it’s going to take to get through the entire journey.
澳彩推荐看到的第二种类型的公司,澳彩推荐称之为探索者. 他们是澳彩推荐的顾客吗, 纽蒙特公司, that are figuring out exactly what they want to do for their first initiatives. 它将如何发挥作用,他们可能失去的核心能力是什么? 第三个阶段是公司真正尝试做真正的项目和活动. Great example in our customer base is the Department of Homeland Security. 他们确实在运行非常成功的伟大项目,但现在还为时尚早.
澳彩推荐看到的第四类客户是那些正在利用数据和数字技术改变企业的客户. 约翰逊 & 约翰逊就是一个很好的例子. 在J & J,它们工作得非常非常好. They’re beginning to do these kinds of large data projects at extreme scale.
最后,还有“破坏者”. 在澳彩推荐的客户群中,有一个很好的例子,就是Capital one的人. Capital One has been using data as a strategic competitive asset for many decades. 他们是真正的行业领导者, in terms of their ability to use data as a strategic competitive weapon.
这是澳彩推荐在所有项目中看到的关键, 你必须专注于交付真正的业务成果吗. 您不希望它演变成一个沸腾的IT项目. 在澳彩推荐的许多客户, 不管是国土安全部, 桑坦德银行, ThermoFisher Scientific公司或Maersk公司, 澳彩推荐与项目团队合作非常密切, to make sure that we were delivering real business value in weeks and months. Avoiding projects that had life cycles that were measured in quarters or years.
在澳彩,澳彩推荐与许多不同行业的不同公司合作. 但是,澳彩推荐看到的一个共同主题是,所有这些公司都试图成为数据驱动的. 澳彩推荐承诺尽一切努力支持这些公司的数据驱动之旅. 在澳彩, our vision is a world where e非常 business is data-driven. 这就是方法.
Our mission 在澳彩 is to accelerate our customer’s digital journey, 通过使他们能够持续地管理和消费干净, 策划, 版本化的数据. 这是一个非常具有挑战性的任务,需要大量的人力和技术创新, 但是澳彩推荐努力工作, 每一天, 以确保澳彩推荐能对澳彩推荐的客户做到这一点. 澳彩推荐会不惜一切代价让他们成功.
我非常感谢大家加入DataMasters. 澳彩推荐很高兴你决定花一些时间与澳彩推荐在一起,参加这么多伟大的会议. All of the people involved in these sessions care about data deeply. 他们中的许多人特别关注大型企业. 我希望你们能从这些会议中得到和澳彩推荐一样多的东西. 此外,请不要犹豫,与澳彩推荐在塔马尔和/或任何参与者.
澳彩推荐都关心数据. 澳彩推荐都对同样的事情感兴趣. 面临着很多相同的挑战. 核心, 这就是datamaster的真正意义, 试图分享澳彩推荐的经验,从彼此的错误和成功中学习过去10年. 真的,真的非常期待接下来的会议,再次感谢您的加入……