근 3개월 정도 회사 일이 바빠진 사이, 자연스레 블로그 포스팅도 못하고 Spark 공부도 제대로 못하였다.
그러던 중 드디어 2019년 11월 06일에 Spark 3.0 preview가 공개되었고, 다운로드가 가능해졌다.
Spark 3.0에 대한 논의는 2018년 4월부터 논의되었던 듯 하다.
위 논의는 Spark 1.0이 2014년에 release되었고, Spark 2.0이 2016년에 release되었으니 2018년에 Spark 3.0이 release되면 좋겠다는 논의같다.
이후 논의가 잠잠해지는 듯 싶더니 2019년초부터 Spark 3.0에 대한 논의가 활발해졌고 2019년 9월에는 드디어 Spark 3.0의 구체적인 기능에 대한 이야기도 나오기 시작했다.
아직은 Spark 3.0에 포함되는 구체적인 기능을 알기가 어려운 데 바로 위 mailing list에서 그 기능을 대략 짐작해볼 수 있다. (그런데 아쉽게도 major 버전을 업그레이드할만한 기능 추가가 안 보인다. 2018년에 Spark 3.0에 대한 논의가 더이상 진전되지 못한 것도 3.0 기능에 대한 것인 듯도 싶다.)
부저런한 개발자가 “Apache Spark 3.0 Review — What the Spark is all about”라는 글을 올렸는데, Spark 3.0에 포함되는 글을 여기를 참고해보자.
쑥 훑어봤는데 크게 와닿는 기능은 없고, “Adaptive execution of Spark SQL” 이건 좀 괜찮아 보인다. BigData에서는 모든 게 Big하기 때문에 Cost Based Optimizer에서 사용할 cost가 없는 경우가 많은데, 부족한 정보로 생성한 execution plan을 adaptive하게 변경하는 기능 같다.
본 카테고리의 추천 글
- Kafka Unit Test with EmbeddedKafka
- Spark Structured Streaming에서의 Unit Test
- spark memoryOverhead 설정에 대한 이해
- Spark 기능 확장하기
- Spark DataFrame vs Dataset (부제: typed API 사용하기)
- Spark UI 확장하기
- Custom Spark Stream Source 개발하기
- Spark에서 Kafka를 batch 방식으로 읽기
- SparkSession의 implicit에 대한 이해
- spark-submit의 –files로 upload한 파일 읽기
- Scala case class를 Spark의 StructType으로 변환하기
- Spark on Kubernetes 사용법 및 secure HDFS에 접근하기
- Spark의 Locality와 getPreferredLocations() Method
- Spark Streaming의 History