1.流处理实现实时大数据洞察
大数据不断从传感器、智能家居设备、移动设备、社交媒体源等物联网设备中涌出。
直到最近,许多企业仍无法实时处理这些海量数据。结果可能是分析错误、延迟增加以及数据未使用。
一项调查发现,企业仅利用了其收集数据的 57%。
其余 43% 的数据仍未得到利用。
调查显示,超过 40% 的组织数据处于休眠状态。
然而,随着新的技术解决方案的出现,实时流处理已经成为可能。
这使得企业能够立即捕获和分析数据,而不是将其存储起来然后分批分析。
CB Insights 预测,2027 年蒸汽处理市场的价值将达到520 亿美元。与 2024 年相比,这一数字将增加约 200 亿美元。
预计未来五年流处理市场将实现巨大的增长。
Gartner 预测,到 2022 年,超过一半的新业务系统将 据趋势 采用实时数据分析,他们将其称为“持续智能”。
金融行业是实时大数据洞察至关重要的行业之一。
在一个示例中,一家银行能够将实时数据整合到 ATM 机的客户互动中。
根据客户历史记录,ATM 会为特定用户提供较低的信用额度。结果,该银行的贷款总额增加了 400%。
一个大数据流解决方案是Apache Flink。该开源解决方案可以在几毫秒内处理实时数据流。
5 年来,“Apache Flink”的搜索量增长了 108%。
该平台的高性能、容错性和低延迟吸引了企业。
然而,这种解决方案通常仅供大公司使用,全球数据中的海外华人 因为它需要大量的专业知识才能运行。
Immerok是一家几个月前成立的初创公司,致力于向中小企业提供这项技术。
Immerok 的领导团队包括七名 Apache Flink 专家。
他们的解决方案是无服务器的,提供完全托管的 Apache Flink 版本,客户无需维护。
该公司最近完成了1700 万美元的种子轮融资。他们预计明年将招聘 30 名新员工以推动增长。
Confluent是另一家近期取得巨大增长的流处理供应商。
“Confluent” 的搜索量在 5 年内增长了 223%。
2021年中,该公司以91亿美元的估值上市。
他们还报告称,2021 年销售额增长了 66% 。
2. 人工智能和机器学习助力自动化和分析
超过60% 的 IT 领导者表示,他们计划增加对人工智能和机器学习 (AI/ML) 解决方案的支出。
“自动化机器学习”的搜索量在5年内增长了116%。
组织正在使用这些类型的解决方案来分析大数据并以 如何规划完美的意大利拉文纳之旅 比以往更快的速度创建可操作的见解。
举一个医学领域的一个例子,人类研究人员可以花费 4 到 24 小时来分析 30 分钟的视频并观察特定的神经元活动。
当使用基于机器学习的算法分析视频数据时,相同的过程可以在不到 30 分钟的时间内完成。
企业正在使用 AI/ML 来自动化大数据处理、过滤、清理、分析等操作。
事实上,人工智能解决方案可以实现近70% 的数据处理工作和 64% 的数据收集工作的自动化。
人工智能解决方案有可能实现与收集和处理大数据相关的60%以上的工作的自动化。
反过来,机器学习可以自动识别数据中的模式,做出预测并创建决策算法。
这些自动化解决方案是大数据难题的关键部分,因为近40% 的企业表示他们不确定自己是否能够处理未来的大数据涌入。
到 2025 年,超过 80% 的组织认为他们将处理 ZB 级的数据,但 36% 的组织认为他们将无法处理所有数据。
一个新兴趋势是,近年来,这些工具对于各种规模和各种行业的企业来说变得更加可行。
ioCurrents是一家为航运业带来 AI/ML 解决方案的初创公司。
ioCurrents 的 AI/ML 解决方案由机载物联网设备提供数据。
他们的解决方案旨在预测故障、优化燃油效率并延长船舶的维护时间。
该公司报告称,该解决方案在不到一个月的数据收集后就能使机器学习模型启动并运行。
企业使用 AI/ML 分析大数据的一种流行方式是研究其目标受众。
在未来几年,我们期望这些工具能为公司提供越来越准确的目标受众画像,頂級生活之旅 据趋势而这是仅靠人工分析无法实现的。它们能够看到详细的偏好和行为,以及对未来业务成果的预测。
Uber 是一家面向消费者的公司,它利用大数据的力量——数百 PB 的数据。
该公司使用自动化的 AI/ML 解决方案来做出决策,例如估计大规模需求、将司机与乘客匹配以及设定票价。
3.数据即服务提供可扩展、经济高效的管理
数据即服务 (DaaS) 市场规模预计将在 2023 年达到107 亿美元。
过去 5 年中,“数据即服务”的搜索兴趣增长了近 300%。
这个市场包括用于收集、分析和管理数据的基于云的工具。
通过利用DaaS,公司无需构建自己的数据收集解决方案或昂贵的存储平台即可获得大数据的好处。
DaaS 平台可以降低成本,并为那些原本难以管理大数据的组织提供敏捷的决策。
对于许多企业来说,使用 DaaS 提供商是管理其大数据需求最具成本效益和战略性的方式。
近 40% 的 IT 专业人士表示,他们的数据存储和备份是在即服务平台上运行的。
AWS、Microsoft Azure 和 Google BigQuery 都提供 DaaS 选项。
但一些独特领域的初创企业也推出了大数据管理选项。
Tetrascience是一家数据云提供商,为科学实验室提供协调其仪器和系统的所有数据的机会。
Tetrascience 是一个专为科学界构建的云原生数据平台。
Tetrascience 2022 年上半年的年经常性收入增长了 111% 。
据公司高管介绍,全球前25家药品制造商中,有13家使用该DaaS平台。
该公司最近发布了一个新的平台扩展,可以实现行业领导者认为可以促进基于 AI/ML 的制药业发展的那种有凝聚力的数据管理。
DaaS 倾向于另一个大数据趋势:民主化。
过去5年里,“数据民主化”的搜索量增长了近3100%。
这意味着,曾经只为数据科学家和工程师所掌握的大数据权力,如今已经掌握在整个公司的员工手中。
通过 DaaS 平台,非技术人员可以使用用户友好的工具和应用程序,从而有机会获得洞察力并更高效地工作。
在一项调查中,90% 的企业领导者表示数据民主化是首要任务。
4.数据湖和Lakehouse提供优化的存储
想要对大数据进行更深入分析的企业正在投资数据湖或数据湖屋。
自 2018 年以来,“data lakehouse” 的搜索量增长了 99 倍以上。
数据湖允许组织以“先存储,后分析”的原则存储原始、半结构化或结构化数据。数据湖没有大小限制,平台可以以任何速度从任何系统获取数据。
这些平台可以简化数据管理、提高安全性并加快数据洞察。
数据湖屋是数据湖和数据仓库的结合。
数据仓库通常是包含干净、结构化数据的数据库。它们通常用于可重复的报告,例如销售报告或网站流量。
因此,数据湖屋结合了两种选择的优点:数据湖的规模和灵活性以及数据仓库的数据管理功能。
数据湖使团队有机会访问最新数据,而无需接入多个系统。
然而,数据湖的概念仍然相当新,技术也还不成熟。
至于数据湖,Modor Intelligence 预测到 2026 年市场将以近 30% 的复合年增长率增长。
2022 年的一项调查显示,21% 的受访者表示计划在未来三年内将数据湖投资增加 10% 或更多,35% 的受访者计划将支出增加高达 9%。
IT 领导者正在寻找数据湖解决方案来提供他们所需的灵活性和可扩展性。
这种增长很大一部分来自于这样一个事实:小型企业现在正在生成数PB的数据并需要经济实惠的存储解决方案。
Hadoop 长期以来一直是首选的数据湖解决方案。然而,该平台对企业来说可能是一笔数百万美元的开支。
新的云选项正在使数据湖技术广泛应用。
Snowflake是一家基于云的数据湖提供商,使各种规模的企业无需任何管理或基础设施即可加载和优化数据。
2022年,该公司第三季度同比增长67% 。
当时,该公司报告称其拥有超过 7,000 名客户,产品收入达 5.23 亿美元。
Snowflake 的数据湖解决方案使公司能够从单个平台访问结构化、半结构化和非结构化数据。
5.大数据治理的转变
由于大数据涉及隐私、偏见和其他监管问题,专家预测未来几个月公司将特别关注数据治理。近年来,“数据治理”的搜索量增长了213%。
2020 年,全球仅有 10% 的人口的个人数据受到隐私法的保护。
Gartner 预测到 2024 年这一数字将激增至 75%。
对“数据隐私”的搜索兴趣持续增长。
虽然大数据至少在一定程度上受到欧洲 GDPR、加拿大 PIPEDA 和中国 PIPL 的监管,但美国并没有针对大数据的具体联邦法规。
美国立法者指出,《计算机欺诈和滥用法案》(1986 年)、《健康保险流通与责任法案》(1996 年)和《儿童在线隐私保护法案》(1998 年)是确保数据隐私的主要方式。