国际标准期刊号: 2090-4924
多米尼克·斯莱扎克
大数据应用程序需要可扩展的方法来进行数据探索和知识发现。基本 KDD 任务的解决方案适用于更标准的情况,但需要针对真正庞大且复杂的数据源进行修改。随着相应计算问题的复杂性不断增加,与领域专家互动的需求也越来越大,以更好地指定探索目标,并根据迄今为止获得的结果缩小范围。考虑到这一点,目前正在研究如何将复杂的数据挖掘过程的工作流程分解为较小的部分,其结果可以由用户迭代浏览。在本次演讲中,我们报告了一些旨在分析高维数据集的特征选择技术的示例,并讨论了用户交互如何帮助改进它们。
大数据的概念已经存在多年了;大多数组织现在都明白,如果他们捕获流入其业务的所有数据,他们就可以应用分析并从中获得巨大的价值。但即使在 20 世纪 50 年代,也就是人们提出“大数据”一词的几十年前,企业就已经在使用基本分析(本质上是电子表格中手动检查的数字)来发现见解和趋势。
然而,大数据分析带来的新好处是速度和效率。几年前,企业会收集信息、运行分析并挖掘可用于未来决策的信息,而如今,企业可以识别洞察以立即做出决策。更快地工作并保持敏捷的能力为组织提供了前所未有的竞争优势。
大数据分析帮助组织利用数据并利用它来发现新的机会。反过来,这会带来更明智的业务举措、更高效的运营、更高的利润和更满意的客户。IIA 研究总监 Tom Davenport在其报告 《大公司中的大数据》中采访了 50 多家企业,以了解他们如何使用大数据。他发现他们通过以下方式获得了价值:
降低成本。 Hadoop 和基于云的分析等大数据技术在存储大量数据时带来了显着的成本优势,而且它们还可以找到更有效的开展业务的方式。
机器学习是人工智能的一个特定子集,用于训练机器如何学习,使得快速自动生成模型成为可能,这些模型可以分析更大、更复杂的数据,并提供更快、更准确的结果——即使是在非常大规模的情况下。通过构建精确的模型,组织有更好的机会识别盈利机会,或避免未知风险。
数据需要高质量且管理良好才能进行可靠分析。随着数据不断流入和流出组织,建立可重复的流程来建立和维护数据质量标准非常重要。一旦数据可靠,组织就应该建立一个主数据管理程序,使整个企业保持一致。
数据挖掘技术可帮助您检查大量数据以发现数据中的模式,并且此信息可用于进一步分析,以帮助回答复杂的业务问题。使用数据挖掘软件,您可以筛选数据中所有混乱和重复的噪音,查明相关内容,使用该信息评估可能的结果,然后加快做出明智决策的速度。
Hadoop 是一个开源软件框架,可以存储大量数据并在商用硬件集群上运行应用程序。由于数据量和种类的不断增加,它已成为开展业务的关键技术,其分布式计算模型可以快速处理大数据。另一个好处是 Hadoop 的开源框架是免费的,并且使用商用硬件来存储大量数据。
通过分析系统内存(而不是硬盘驱动器)中的数据,您可以从数据中立即获得洞察并快速采取行动。该技术能够消除数据准备和分析处理延迟,以测试新场景并创建模型;它不仅是组织保持敏捷性和做出更好业务决策的简单方法,还使他们能够运行迭代和交互式分析场景。
预测分析技术使用数据、统计算法和机器学习技术来根据历史数据识别未来结果的可能性。这一切都是为了对未来将发生的事情提供最佳评估,以便组织可以更有信心做出最佳的业务决策。预测分析的一些最常见应用包括欺诈检测、风险、运营和营销。 借助文本挖掘技术,您可以分析来自网络、评论字段、书籍和其他基于文本的来源的文本数据,以发现您以前没有注意到的见解。文本挖掘使用机器学习或自然语言处理技术来梳理文档(电子邮件、博客、Twitter 源、调查、竞争情报等),帮助您分析大量信息并发现新主题和术语关系。
大数据分析更进一步,因为该技术可以访问各种结构化和非结构化数据集(例如用户行为或图像)。大数据分析工具可以将这些数据与历史信息结合起来,根据过去的经验确定事件发生的概率。
大数据应用需要适应性强的信息调查和信息披露技术。关键 KDD 任务的安排对于日益标准的情况运行良好,但需要针对巨大且复杂的数据源进行彻底修改。随着相关计算问题的不可预测性不断增强,也越来越需要与太空专家进行交流,以便更容易地确定研究目标,而根据迄今为止的结果,这些目标可能会受到限制。考虑到这一点,我们不断探索最有效的方法,将复杂的信息挖掘表单的工作流程分解成更小的部分,其结果可以被客户迭代地细读。在这次讨论中,我们报告了一些侧重于检查高维信息索引的突出选择策略的实例,并讨论了客户合作如何帮助改进它们。我们还提到了我们正在进行的一项有关煤矿井中管理人员危险的项目,以说明当前的组件确定计算如何帮助最终客户使用庞大的数据调查框架。
海量信息的想法已经存在了相当长的时间。目前,大多数组织都意识到,如果他们捕获了流入其组织的所有信息,他们就可以进行调查并从中获得显着的奖励。无论如何,即使在 20 世纪 50 年代,在人们表达“海量信息”这个词之前几十年,组织就已经在利用基础调查(基本上是电子表格中经过物理分析的数字)来揭示一些知识和模式。
尽管如此,大数据调查带来的新优势是速度和有效性。几年前,企业会积累数据、进行调查并发现可用于未来选择的数据,而如今,企业可以根据经验来做出有保证的选择。更快地工作并保持协调的能力给协会带来了前所未有的巨大优势。
大量的信息调查帮助协会处理他们的信息并利用它来发现新的机会。因此,这会促进更出色的业务行动、更熟练的任务、更高的利益和更满意的客户。IIA 研究总监 Tom Davenport 在其报告《大公司中的大数据》中与超过 50 个组织进行了交谈,了解他们如何利用大信息。他发现他们通过以下方式得到了激励:
1、成本降低。巨大的数据进步,例如 Hadoop 和基于云的计算,在存储大量数据方面带来了关键的成本问题,而且它们还可以识别日益熟练的协作方法。
2. 更快、更好的动态。凭借 Hadoop 和内存检查的速度,再加上分解新信息源的能力,组织可以迅速调查数据,并根据他们所了解的情况做出选择。
3. 新项目和管理。有了通过检查检查客户需求和满足情况的能力,就有能力为客户提供他们所需要的东西。达文波特提醒人们注意,通过大量的信息调查,越来越多的组织正在开发新产品来解决客户的问题。
人工智能是人工智能的一个特殊子集,它帮助机器学习,它可以快速、自然地生成模型,这些模型可以分解更大、越来越复杂的信息,并更快、更精确地传达结果——即使是在很大的范围内。更重要的是,通过建立精确的模型,协会更有可能识别有利可图的机会,或者与隐秘的危险保持战略距离。
数据在被可靠地分解之前应该是高质量的并且具有很强的代表性。随着信息在整个组织中不断流动,建立可重复的程序来制定和维护信息质量准则至关重要。当信息可靠时,协会应该建立一个王牌信息董事会计划,将整个工作集中在同一个地方。
数据挖掘创新使您可以分析大量信息以在信息中查找设计,并且可以利用这些数据进行额外的调查,以帮助回答复杂的业务问题。通过信息挖掘编程,您可以过滤信息中所有混乱而乏味的喧嚣,找出重要的内容,利用该数据来调查可能的结果,然后加快做出明智选择的速度。
Hadoop是一个开源编程系统,可以存储大量信息并在大量产品设备上运行应用程序。由于信息量和种类的不断增加,以及其快速传递大量信息的图形模型程序,它已成为协同工作的关键创新。一个额外的优势是Hadoop的开源结构是免费的,并且使用软件设备来存储大量信息。
通过分解系统内存(而不是硬盘驱动器)中的信息,您可以从信息中快速获取信息并快速跟进。这项创新可以消除数据准备和系统准备延迟,以测试新情况和创建模型;这不仅是协会保持协调并做出更好的业务选择的简单途径,还使它们能够运行迭代和直观的测试环境。
有先见之明的调查创新利用信息、事实计算和人工智能方法来识别依赖于可验证信息的未来结果的可能性。这一切都是为了对以后发生的事情做出最好的评估,因此协会可以逐渐确定他们正在做出最理想的商业选择。预见性检查最广泛认可的用途可能包括敲诈勒索识别、危险、任务和广告。
通过文本挖掘创新,您可以检查来自网络、评论字段、书籍和其他基于内容的来源的文本信息,以揭示您以前没有见过的知识点。文本挖掘利用人工智能或普通语言准备创新来搜索报告 - 消息、网络期刊、Twitter 频道、研究、严肃的知识,并且天空是无限的 - 帮助您调查大量数据并找到新的主题和术语连接。
大数据分析使这一点又向前迈进了一步,因为创新可以涉及各种有组织和非结构化的数据集(例如客户行为或图片)。巨大的信息检查设备可以将这些信息与记录的数据结合起来,根据过去的遭遇来计算出某个事件发生的可能性。