欢迎光临——2018全年免费资料_2019正版免费全年资料_2019全年资料大全正版

帮助中心 广告联系

2018全年免费资料_2019正版免费全年资料_2019全年资料大全正版

热门关键词:

闭于数据湖架构、计谋和理解的8大谬误认知(附链接)

来源:未知 作者:admin 人气: 发布时间:2019-09-22
摘要:本文的宗旨是构修数据湖,并供给顺应企业数据政策的靠山消息。 讨论公司和供给商提出的主睹彼此冲突,以是,这些消息素来连续不透后,令人猜疑。 不幸的是,这些令人猜疑和颇具误导性的发起导致人们无间就手艺平台的靠山消息发问,而不是就一个策略或者交易

  本文的宗旨是构修数据湖,并供给顺应企业数据政策的靠山消息。 讨论公司和供给商提出的主睹彼此冲突,以是,这些消息素来连续不透后,令人猜疑。

  不幸的是,这些令人猜疑和颇具误导性的发起导致人们无间就手艺平台的靠山消息发问,而不是就一个策略或者交易成就来发问。 这种手艺驱动的决定流程试图使主观的计划变得尤其客观,比方,他们会诘问什么是亚马逊数据湖? 或者什么是最好的数据湖软件。 也许有一个供应商急于求成,正正在医疗界限里扩展符适时兴语的、兼容HIPPA的数据湖。 于是,对待那些思要厘清数据湖奈何赋能数据洞察的人来说,这些合于数据湖的计划令人尤其猜疑。

  冲破这些与数据湖政策、架构和杀青发起合系的差池认知,将有助于你判辨数据湖腐化的来由及其杀青面对的百般挑拨,又有助于阐明供应商和讨论公司供给的发起或者与数据湖最佳执行南辕北辙的来由。

  这种务必正在数据湖和数据货仓之间二选一的认知差池地节制了计划的框架。 当人们通过咨询数据货仓是否落伍来开启计划时,类似正在见告是工夫放手你的企业级数据货仓。 这些题目的起点都有误,况且正正在引你误入邪途。

  一样,一家公司须要就某一特定的计划形式举办某种体式的手艺投资时,就会激励这些题目的计划。 比方,他们声称某些操作能够或务必产生正在数据货仓中,然后将这些操作界说为是采用数据湖架构的节制和危机。

  供应商会说数据湖无法像数据货仓那样便于按需扩展打算资源,从而它是受限的。 这是真的,但具有误导性。 就这就像诉苦汤姆布拉迪信任是一名恐怖的运策动,由于他从未正在任业橄榄球生存中打过本垒打。 既然汤姆布拉迪是一名橄榄球运策动,你会企望他成为一名正在芬威棒球场(好吧,也叫Peskypole)投球飞过左外野全垒打墙的全垒打投球手吗? 不。

  本相上,声称数据湖没有打算资源是一种FUD行销伎俩(灌输数据湖的负面观点,正在你的思维里注入疑虑和怯怯,使你误认为除了数据货仓以外,别无采取)。 数据湖无法按需扩展打算资源,是由于没有须要扩展的打算资源。

  正在数据湖系统组织中,打算资源差别是一种重心的空洞,这是Redshift Spectrum、Presto和Athena管理计划存正在的来由。 以Amazon的Athena为例,Athena不是一个数据货仓软件,而是一个基于开源FaceBook Presto开荒的按需盘查引擎,它将按需供给“打算”资源盘查数据行动一项办事来供给。Amazon的Redshift Spectrum和Athena一律能够盘查数据湖中的数据,操纵的是从一个Redshift集群平分离出来的打算资源。

  凭据计划,数据湖中的盘查数据办事能够很好地空洞出这个引擎模子,况且无论你正在Google云上是否有亚马逊数据湖(AWS数据湖)、Oracle数据湖、Azure数据湖或BigQuery数据湖,模子都是犹如的。 能够通过Athena这类的盘查引擎或者像Redshift、 BigQuery、Snowflake等“货仓”来盘查数据湖数据实质,这些办事供给打算资源,而不是供给一个数据湖。

  于是,对待大家半企业来说,数据湖和数据货仓奈何共存才是准确的计划实质,而不是计划奈何二选一。 当有人向你提出只可二选临时,他们或者是甜头合系方,也便是说他们的产物或者贸易伙伴也供给合系的功效。

  差别的供应商和讨论公司会发起行使形式(或其他物理或逻辑组织)来流露数据从“原始”到数仓中其他状况的人命周期,交易所需的任何成熟度数据都能够正在货仓鸿沟内落成。

  守旧上,数仓旨正在反应企业曾经落成的事情,也反应企业落成一系列的划一事情,比方一个曾经落成的事情或者供给相合收入、订单、“最佳客户”和其他界限的首要事情。

  可是,正在数仓“导入所少睹据”模子中,数仓包括统统的数据实质,个中会囊括一时的和易失的原始数据。

  将统统的原始数据从新打包到数仓中的操作更像是操作型数据库(Operational Data Store,ODS)或者数据集市的操作,而不像是数仓的操作。 你能将统统的数据都扔进数仓吗? 不行。 不行仅仅由于你能够正在手艺上做少少事故,就能够使它成为准确的系统组织。

  将所少睹据放进货仓的发起说,事情数据只是逻辑构制数据的一个功效。 正在企业内部界说和扩展这个逻辑界说的人将无法获得判辨,以至更糟的是他将被歧视,来由是这种形式险些便是一种产生正在数仓中的“数据池沼”,尽量教科书上界说数据池沼产生正在数据湖中。 对待任何一个被迫善后管理的人来说,这都是一场数据管理的恶梦。

  这个模子会将你节制正在数仓手艺及其模子中,同时还须要你将所少睹据都导入数仓。 倘使你喜爱到处寻找供应商、设定百般人工节制、下降数据认知才气和背负百般手艺债务,那么这种措施信任很适合你。

  准确的做法是,数据湖能够最小化手艺债务,同时还能够加快企业团队对数据的消磨。 思索到数仓、盘查惹起和数据剖判墟市的转变正在加快,你策略的重心应当是最小化危机和手艺债务。

  你会通常出现有计划和示例将数据湖等同于Hadoop或者Hadoop合系供应商手艺栈,这会给人一种错觉: 数据湖和Hadoop特定的手艺周密合系。

  固然Hadoop手艺能够用于数据湖的构修和运转,但它们并不行反应出所救援的数据湖的基础策略和架构。

  了解到数据湖最先反应的是策略和架构,而不是手艺,这一点很首要。 Pentaho结合创始人兼首席手艺官詹姆斯狄克逊(也便是创建“数据湖”这个词的人)说?

  这种情状和守旧的贸易智能剖判次第构修形式犹如,凭据终端用户给出的数据题目清单,从数据流中筛选出与题目合系的字段属性,并批量纪录到数据集市中。 正在你提出新题目之前,这个措施是可行的。 数据湖能够统统管理这个题目,你能够将所少睹据存储正在数据湖中,填凑数据集市和数据货仓以满意守旧的数据需求,针对新题目,则能够启用数据湖中的原始数据以供即席盘查和天生告诉。

  Hadoop和其它手艺一律,能够救援策略和架构的杀青。 倘使现正在你有一个数据湖,会有许众非Hadoop的采取,尽管这些采取行使了Hadoop合系手艺。 比方,你的数据湖须要同时救援Snowflake如此的数仓管理计划和正在AWS Athena、Presto,、Redshift Spectrum和BigQuery如此的马上盘查形式。

  别认为数据湖只可行使Hadoop杀青,倘使你效力一个谨慎空洞的数据湖架构,那么就能够凭据手艺的繁荣性及其对更寻常的企业生态体系的救援度采取其它手艺,从而最小化危机。

  正在这种情状下,数据湖只是一个存储你所少睹据的地方。 你只须要所少睹据放入数据湖,尔后启用新的数据执掌模子就能够大功变成,这就和将统统的文献都放进札记本电脑上超大硬盘中的“无题目文献夹”一律。

  当供应商将数据湖界说为存储的同义词时,这或者会变得庞杂。 比方,微软将产物打包为Azure Data Lake Storage或Azure Data Lake Storage Gen2,数据湖确实供给了存放数据的功效,但这只是其特质之一。

  如前所述,应当将数据湖视为是企业更为寻常的数据栈中的策略元素,这囊括鄙人逛体系中(如数仓)救援事情数据集成,或者正在Tableau或Oracle ETL等用具中救援数据管理。

  以是,数据湖不但仅能够存储数据,还能够兼容数仓、数据剖判手艺栈中的手艺。 本相上,大家半数据湖是动态的生态体系,而不是静态的关闭体系。 当数仓负载适中时,数据湖是一个活泼数据源,源源无间为其输送数据,反之亦然,负载过重时,数据湖举办对数据举办合意地震态管理,以下降本钱和降低效用。

  数据湖对数据举办合意地构制,以便将下逛价钱转达给行使数据的下逛体系,囊括数仓。 比方,数据湖正在救援数仓整合事情数据方面发扬了主动的用意。

  咱们有一位客户行使数据湖对数十个网站和第三方旅店的标签举办质料把持剖判,这有助于识别担任这项事业的差别团队或者存正在的分歧和奉行差池。 又有一位客户正在将数据导入企业级数据货仓前,行使数据湖过滤来自差别部分、第三方和协作伙伴体系中的不无误订单或反复的众渠道订单。

  这两个例子都夸大了,数据湖正在包管下逛事情数据的无误性和合规性上发扬了主动的用意。

  正如麦肯锡员工所说: “...数据湖不但包管了手艺栈的伶俐性,况且还包管了交易才气的伶俐性。”数据湖行动一种办事模子,是为了交付交易价钱,而不但仅是存储数据。

  和差池认知2合系,“把所少睹据都倒进数仓”的措施流露,数据湖不会扩张价钱,来由是只要原始数据驻留正在数据湖中。 他们思法: “倘使数据湖只管理原始数据,那么就无须忧愁数据湖了,只需将统统的原始数据或者已被管理的数据转存至数仓中”。

  正如之前所说的,这和数仓旨正在反应既定事情数据的基础条件相冲突。 一个更好的史乘数据比拟不是正在数仓和数据湖之间举办,而是正在ODS和数据湖之间举办。

  从史乘数据角度上看,数据湖是一个ODS,而不是一个数仓,由于数据湖从上逛获取粗疏和担心稳的原始数据。 一个ODS数据一样岁月鸿沟很窄,或者只要90天内的数据,针对某一特天命据界限,岁月鸿沟或者更窄。 另一方面,数据湖对待保存的数据没有岁月鸿沟节制,从而岁月鸿沟更广些。

  凭据计划,数据湖应当有肯定水平的数据输入执掌(即执掌什么数据要进入数据湖)。 倘使你没有执掌数据进入形式的认识,那么你其它地方的手艺栈或者存正在题目,这对待数仓或任何其它数据体系也是一律的,垃圾进,垃圾出。

  数据湖的最佳执行应当囊括一个装备初始数据池的模子,正在这个初始数据池里,你能够最低局限地优化模子,认为下逛管理数据或辅助管理数据。 数据管理或者产生正在Tableau或PowerBi之类的剖判用具中,也有或者产生正在加载数据到数仓(如Snowflake、Redshift和BigQuery)的运用次第中。

  与咱们协作的一位客户将Adobe变乱数据发送到AWS,以救援企业Oracle云境遇。 为什么要从AWS到Oracle呢? 由于这是Oracle BI境遇中最高效的和最具本钱效益的数据管理形式,加倍是思索到行使AWS数据湖和Athena行动按需盘查办事的伶俐性和经济性。

  通过最形式限地包管数据的有用性,降低管理数据的效用,你能够最形式限地下降下逛数据管理者所要付出的数据管理本钱。

  倘使你花岁月阅读过数据湖的合系原料,你会以为数据湖只要一品种型,看起来像里海(它是一个湖,尽量名字中有“海”)。 人们将数据湖描写成一个巨大的、留情通盘的实体,旨正在留存统统的常识,以是只会有一个企业大数据湖或者大数据架构的同义词。

  不幸的是,“大数据”角度给人以一种错觉: 数据湖仅合用于里海鸿沟那么大的数据,这当然会让数据胡的观点令人生畏。 以是,用如斯量大的术语来描写数据湖会使那些本能够从中获益的人无法靠近。

  另一个看法是数据湖和大数据只可二选一。 像自然界中的湖泊一律,数据湖有百般差别的形势和巨细。 每一种数据湖都有一种自然状况,一样反应数据的生态体系,就像自然界中反应鱼、鸟或其它有机体的生态体系一律。

  就像里海是大片水域一律,这品种型的数据湖是一个存放百般半组织化和非组织化数据的大型数仓,这些整合了差别数据集的超大数据集反应了来自企业方方面面的消息。

  且则的“Ephemeral” : 就像戈壁能够有小的、且则的湖泊一律,且则的数据湖“Ephemeral”也是短暂存正在的。 它们能够用于项目、试坐褥、PoC或者一个点管理计划,能够很速掀开,也能够很速封闭。

  界限性的“Project” : 这品种型的数据湖和“Ephemeral”一律往往集结正在特定的常识界限中。 然后,和且则“Ephemeral”差别的是,这种数据湖能够赓续一段岁月。 这些数据湖或者也很浅,或者埋头于一个狭隘的数据界限,如媒体、社交、汇集剖判、电子邮件或犹如的数据源。 有一位客户称他们的项目为“Tableau数据湖”。

  通过计划,所少睹据湖类型都应当采用一种空洞,以最形式限地下降危机,并供给更大的伶俐性。其它,它们的组织应当便于数据管理,独立于数据范畴的巨细。 当数据科学家、交易用户或者python代码行使数据湖时,确保它们具有一个易于管理数据和可自界说数据范畴的数据境遇。

  无论你的行使场景是呆板练习、数据可视化、天生告诉依旧为数仓和数据集市输送数据,数据范畴的差别,思量形式差别,有或者创建出行使这些数据湖的新形式。

  数据湖是一个担心全的数据对象会集,可供构制中的任何人行使,而这些人只是思从中得到少少助助,带着他们思要的消息分开。

  审视实际-安然是一种采取,确保你思索的是它从某种意旨上说,人们会依赖于隐性的安然手艺管理计划(即主动的AWS S3 AES对象加密),而不会去构修一个显性的、能够执掌安然性的架构和下逛行使场景,这或者会导致安然缝隙,但这能够说是许众体系的缝隙,而非仅是数据湖自身的缝隙。 以是,以为数据湖本色上担心全的看法是不无误的。

  访候 : 一样,对针对根本数据界说精良的访候政策。 正在AWS中,你能够界说针对S3的IAM政策及其合系办事。 除此以外,微软又有一个描写犹如安然政策措施的Azure数据湖架构。

  用具 : 管理数据的事业和体系也会确保肯定的安然性。 比方,盘查引擎能够有一个外级和列级数据的访候把持机制。 其它,数据管理用具(如Tableau或Power BI)也能够对数据湖中的数据修树访候把持。

  分区 : 逻辑分区和物理分区正在肯定程度长进一步简化了安然政策,比方团队能够将数据从初始数据池ETL至另一个地点,杀青匿名化敏锐数据,以供下逛行使。

  人们能够争执这些差别政策的益处,但假若说数据湖自身是担心全的,这是阻止确的。

  曾有一篇著作评论数据湖最终会形成数据池沼,由于它们只是存储,缺乏统辖、执掌,没少睹据人命周期/保存政策,也没有元数据。

  正在万分情状下,这是真的。 倘使你把一个数据湖看成是你札记本电脑上一个通用的“无题目文献夹”来管理文献,那么就或者会形成一个数据池沼(睹差池认知4),于是,这会存正在危机。 然而,对待任何习性以这种形式举办文献转储的人来说,他们对胜利睡觉职员、流程和手艺都有点不感兴味。

  那么,真正的数据池沼是什么呢? 真正的数据池沼是计划不妥创建出来的,而不是疏于执掌促成的。

  数据湖更大的恐吓不是缺乏统辖、执掌、人命周期政策和元数据,而是缺乏防卫这种情状产生的生态体系,这个生态体系囊括用具、脚色、职责和体系。 数据湖之于是成为池沼,不但仅是由于“倾倒文献”,还由于数据湖的合系职员、流程和手艺睡觉过于庞杂。 倘使你以为你的企业级数仓流程徐徐,那么你的数据湖也会如斯。

  粗略、矫捷和伶俐是数据湖浩繁益处中的一个人,当湖中闪现首要的交易逻辑和流程时,你将面对如此的危机: 创修出来的管理计划缺乏粗略性、无法相应转变、计划过于厉峻,而这便是你须要警戒的数据池沼。 数据池沼是高贵的、费时的,从而无法满意任何人的企望。 这听起来是不是很熟谙?

  对待那些正正在安插或者曾经摆设了数据湖的人来说,要小心数据湖的定位和特质扩张。 通常会看到供应商将其正在守旧数仓和其它ETL产物中出现的特质和功效界说为数据湖的功效,尽量从手艺上讲,能够正在数据湖中举办庞杂的数据管理。

  可是,你或者正在数据湖外曾经有了奉行这些管理操作的事业流、用具、职员和手艺,并不是统统的数据管理都适当你的上下逛流程,请小心思索数据湖嵌套管理数据导致庞杂性激增的危机。

  请警戒,此刻或安插中的数据湖渐渐看起来更像是守旧的ETL用具和数仓的合体,倘使你曾经经验过一个过于庞杂的构修企业级数仓事业,会很容易出现这一点。

  数据湖的繁荣形式和咱们熟知的手艺繁荣形式一律,新的观点闪现,接着被前驱者和手艺江湖骗子采用,跟着岁月的推移,胜利形式才变得明确。 这种明确源自悉力执行的阅历教训,很大水平上是通过腐化来得到胜利。

  结果,数据湖的手艺术语、最佳执行和悉力于构修更好平台的投资都正在刷新。 交易执行的经济性、架构形式和优化措施都正在无间转变,这承诺团队以顺应运用场景的措施将这些数据湖管理计划整合进企业的数据栈中。

  不幸的是,这些批判渐渐形成广为宣扬的“数据湖不堪利”、“数据湖等同于数据池沼”、“数据湖与Hadoop等特定手艺过于周密接洽”等这类消息。 结果,还会闪现“什么是数据湖”界说过于混沌和不固定的诉苦。

  然而,手艺繁荣的枢纽是以退为进,如此做,是由于这些批判并非仅针对数据湖。 本相上,这些评论能够针对任何一项手艺,非常是数据项目。 比方,术语“数据货仓”和数据湖界说一律混沌而无间转变(睹差池认知2),正在谷歌上搜刮“腐化的数据货仓”,也会出现少少合于项目腐化的故事。 这些是否意味着咱们应当放弃“数据货仓”这个短语或者放弃寻求这些项目!

  一样情状下,漠视数据湖的讨论公司或企业都将本身供给的产物和办事视为灵丹灵药,悉力于杀青本身的愿景和最佳执行。 倘使一个讨论公司或供应商不信赖一个模子,为什么要他们参预一个他们不信赖的管理计划呢? 将数据湖事业委托给这类讨论公司或供应商,很有或者是数据湖腐化的一个来由。

  正在长远领略奈何构修数据湖或奈何和企业定制数据湖之前,咱们有少少方法能够助助你举办筹办。

  到目前为止,咱们曾经计划了什么是数据湖或者构修数据湖的举措是什么的基础题目。 咱们还歧视了一个首要本相: 数据湖和数仓不但能够共生,也能够共昌盛。

  以是,放弃置备闪亮的Hortonworks数据湖管理计划,组修软件开荒工程师、客户司理、管理计划架构和救援手艺工程师来构修企业数据湖吧?

  和“Project”管理计划的机缘,确保你能够下降危机,取胜手艺和构制挑拨,从而使你的团队不妨创办对数据湖的信念。

  确保你有一个内部的“福音传道者”或“鼎力首倡者”,这片面对公司内部的管理计划和运用充满激情。

  倘使贫乏如此充满激情的人或团队,你会出现构修数据湖的热忱就很速殆尽,正如健身房新年促销4周会员卡一律。

  缩小数据鸿沟,能够很好地界说数据湖,以便领略从ERP、CRM、Point-of-Sales、Marketing or Advertising data从导出地数据,这个阶段的数据管理经验有助于你领略数据的基础组织、获取、统辖、质料和测试的事业流。

  将你的管理计划和当代BI剖判用具(如Tableau、Power BI、Amazon Quicksight或Looker)贯串起来,这能够让非手艺用户有机缘通过访候数据湖来测试和探究数据,同时也有助于你操纵差别的用户群来评估功能瓶颈,出现刷新机缘,实时添加与现有EDW体系或其它数据体系的结合和其它候补数据源。 除此除外,还承诺你出现对团队故意义的数据湖用具以及适合进入资源的数据湖主动化个人。

  行动一个胜利的数据湖早期采用者,应当要点体贴贸易价钱措施而不是全部杀青的手艺措施,这意味着你不必忧愁Cloudera Data Lake新出了产物、奈何开启AWS Lake Formation事业流、Gartner魔方图或是Azure团队生气你置备哪些数据湖剖判计划。

  数据湖埋头于交易价钱,为你供给了一个正在整个数据剖判的靠山下搭修事业框架的机缘,这会降低你杀青数据湖标的和权衡交易绩效的速率。

  版权声明:本站著作个人自汇集,如有侵权,请接洽:非常戒备:本站统统转载著作言道不代外本站看法!本站所供给的图片等素材,版权归原作家统统,如需行使,请与原作家接洽。

  下一篇:黑客操纵敲诈软件占据MongoDB数据库,210 万条纪录遭锁定。

责任编辑:admin

百度新闻独家出品

新闻由机器选取每5分钟自动更新

手机: 邮箱:
联系电话: 地址: