一文了解什么是流计算技术及流计算流程

  • 时间:
  • 浏览:1
  • 来源:10分彩-10分快3平台_10分赛车网投平台

如何扛住流量“洪峰”,是每年“双十一”的技术大考。随着流量的飙升,你你你你是什么大考无疑变得这麼难。

“双十一”刚过,各大电商纷纷组阁 当日战绩。从目前组阁 的数据好难看出,今年“双十一”的订单创建量峰值创下新高,单日数据处理量纪录也再次被刷新。

“双十一”的数据量不仅大,就有实时变化。都促进说,每个购物数据就有个性化的、动态的,完成处理它们的工作,必须有强大的计算能力作为支撑。

“今年的数据处理工作,除了批处理(对数据进行批量处理)外,还有流处理,但会 实时处理数据。庞大的交易数据每分钟、每秒钟就有变,它们并就有从数据库后面 统计出来的,但会 系统自动一层层把它们汇集上来的。”阿里巴巴集团首席技术官张建锋表示。他口中的“流处理”但会 流计算,即实时计算。对于扛住“双十一”流量“洪峰”,它功不可没。

这麼,那些是流计算?它是如何抗住“双十一”流量“洪峰”的?对此,科技日报记者采访了业内专家。

以内存取代硬盘实现快速处理

北京理工大学计算机学院副院长、教授刘驰在接受科技日报记者采访时解释道,流计算指当二根数据被处理已经 ,立刻被序列化到内存中,但会 通过网络传输到下有一一四个节点,由下有一一四个节点继续处理。“你你你你是什么流式处理技术,是以内存取代硬盘的法子 来实现数据快速处理,这是流计算之然不会够高效处理数据的根本意味着着分析。”他表示。

据刘驰介绍,流计算具有高性能、海量式、实时性、分布式、易用性、可靠性等多项优势,主要的应用方向有,对金融与科学计算中的数据进行快速运算和分析;对位于于社交网站、电子邮件、视频、电话记录、电子感应器中的数字格式信息流进行快速处理并反馈等。

“流式处理可被用于一种生活不同的计算场景:事件流和持续计算。”刘驰介绍道,在事件流场景,系统会持续产生少量的数据,累似 数据最早出现在银行和股票交易领域,也会在互联网监控、无线通信等领域出现。那些领域的相关业务,必须流计算技术以近乎实时的法子 对数据流进行简化分析。

图源网络

“而在持续计算场景,比如大型网站,流计算技术都促进动态实时地刷新用户访问数据,展示网站实时流量的变化具体情况,分析每天各小时的流量和用户分布具体情况。但会 必须实时处理数据的场景促进应用到流计算技术,比如对根据用户行为产生的日志文件进行实半时析,对用户进行商品的实时推荐等。”刘驰介绍道。

流计算的处理流程:实时整理、实时计算、实时查询

刘驰向记者介绍道,流计算的处理流程一般蕴藏高一一四个阶段:数据实时整理、数据实时计算和实时查询服务。

首先,后台工作人员会用实时数据集成工具,将数据实时传输到流式数据存储系统。具体过程是,系统将长时间每段的少量数据,平摊到每个计算时间节点,数据会被不停地进行小批量实时传输。此时,数据可能被源源不断地写入流数据存储系统,不想须预先加载的过程。同時 ,在此过程中,数据是持续流动的,在计算完成后就会被立刻丢弃。

但会 ,不同于批量计算停留数据集成完全完成后才启动计算作业,流式计算作业是一种生活常驻计算服务,一旦启动将老是位于停留事件触发的具体情况,即一有小批量数据进入流式数据存储系统,流计算系统就会立刻计算并得出结果。“同時 ,每段电商平台的流计算团队,还使用了增量计算模型,将大批量数据分批进行增量计算,进一步减少单次运算规模并有效降低整体运算下行速率 。”刘驰说。

最后,采用数据批处理法子 ,通常必须停留数据计算结果得出后,促进批量将数据传输到在线系统。而流式处理法子 可在每次小批量数据计算工作完成后,就立刻将计算结果写入在线系统。“另有一一四个不想停留完全数据计算工作完成,亲戚亲戚但会 人就可在流计算数据查询系统中,查询到在线系统的数据处理结果。技术人员也可将实时结果发送给可视化系统,以实现计算结果的实时化展示。”刘驰说。

技术虽强大但仍位于短板

不过,刘驰表示,流计算我我觉得强大,也位于技术短板。

“可能在系统内存不够的具体情况下,必须满足多个用户的数据请求,这麼每个用户实际被分到的内存就会很少。此时,应用流式处理技术后,可能内存需求量增加,系统会把另有一一四个分给多个用户的内存资源,全每段给有一一四个用户。但会 必须内存的用户,则会可能这麼内存可用,被迫进入停留具体情况,直到那个占有内存资源用户退出后,但会 用户促进使用内存。”刘驰说,同時 ,实时的计算环境会可能各种各样的意味着着分析,比如网络延时等,意味着着分析守护tcp连接到达计算节点的顺序出现变化。

“此外,流计算技术面对的是源源不断涌入的数据,而可能还像批处理那样来计算数据说说,就可能会意味着着分析计算根本无法已经 已经 刚开始 英语 ,或随着时间的推移必须保存的数据这麼来太大,给内存造成巨大压力。”刘驰补充道,“数据不断产生,就必须计算持续进行。但计算时间一长,出难题图片的概率就会大大增加。一旦出现难题图片,但会 在计算过程中缓存下来的数据该被为社 会么会长期保存、为社 会么会恢复就会成为比较大的难题图片。”

注:文章内的所有配图皆为网络转载图片,侵权即删!