用户登录
用户注册

分享至

spark缺点

  • 作者: 不抽烟的小丑
  • 来源: 51数据库
  • 2020-09-28
稳定性方面,由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定,在复杂场景中SQL的性能甚至不如现有的Map/Reduce。
不能处理大数据,单独机器处理数据过大,或者由于数据出现问题导致中间结果超过RAM的大小时,常常出现RAM空间不足或无法得出结果。然而,Map/Reduce运算框架可以处理大数据,在这方面,Spark不如Map/Reduce运算框架有效。
不能支持复杂的SQL统计;目前Spark支持的SQL语法完整程度还不能应用在复杂数据分析中。在可管理性方面,SparkYARN的结合不完善,这就为使用过程中埋下隐忧,容易出现各种难题。



  hadoop和spark的联系和区别
计算数据存储位置
hadoop:硬盘
spark:内存
计算模型
hadoop:单一
spark:丰富
处理方式
hadoop:非迭代
spark:迭代
场景要求
hadoop:离线批处理。(面对sql交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换,导致消耗大量资源)
spark:批处理、实时处理
软件
前端设计
程序设计
Java相关