Data AI Summit은 Spark을 만든 개발자들이 설립한 회사인 Databricks에서 개최하는 컨퍼런스로서 Spark 관련하여 가장 큰 컨퍼런스이다. 처음엔 Spark Summit이었는데 2017년인가부터 Spark AI Summit으로 이름을 변경하였다. 이후 2020년에 Data AI Summit으로 이름을 한번 더 바꿨다
1년에 두 번 (미국 샌프란시스코와 유럽) 개최된다. 한국에서 Spark AI Summit에 참여하려면 비용이 꽤나 드는데 (참가비, 항공권, 숙박비) 다행(?)인 점은 모든 세션의 영상과 슬라이드를 인터넷에 공개한다는 점이다. (본인도 2016년 유럽 컨퍼런스에 다녀왔었는데 돈이 ㅎㄷㄷ)
공짜로 볼 수 있는 것들이니 정리해두고 틈틈히 시간날 때 봐야겠다 (라고 다짐을 하지만 얼마나 볼 수 있을지 모르겠다. 아싸리 비싼 돈 내고 다녀오면 돈이 아까워서라도 챙겨보겠지만)
아래에 있는 주제는 내가 관심있어하는 Engineering 주제의 Internal, Best Practice, use-case 위주의 세션 목록이다.
- https://databricks.com/session/using-apache-spark-to-tune-spark
- https://databricks.com/session/deep-dive-into-the-apache-spark-scheduler
- https://databricks.com/session/oversubscribing-apache-spark-resource-usage-for-fun-and
- https://databricks.com/session/apache-spark-data-source-v2
- https://databricks.com/session/deep-learning-for-recommender-systems
- https://databricks.com/session/99-problems-but-databricks-apache-spark-aint-one
- https://databricks.com/session/tunein-how-to-get-your-hadoop-spark-jobs-tuned-while-you-are-sleeping
- https://databricks.com/session/a-deep-dive-into-stateful-stream-processing-in-structured-streaming
- https://databricks.com/session/extending-spark-sql-api-with-easier-to-use-array-types-operations
- https://databricks.com/session/scalable-monitoring-using-prometheus-with-apache-spark-clusters
- https://databricks.com/session/automated-debugging-of-big-data-analytics-in-apache-spark-using-bigsift
- https://databricks.com/session/sparser-faster-parsing-of-unstructured-data-formats-in-apache-spark
- https://databricks.com/session/sos-optimizing-shuffle-i-o
- https://databricks.com/session/metrics-driven-tuning-of-apache-spark-at-scale
본 카테고리의 추천 글
- Kafka Unit Test with EmbeddedKafka
- Spark Structured Streaming에서의 Unit Test
- spark memoryOverhead 설정에 대한 이해
- Spark 기능 확장하기
- Spark DataFrame vs Dataset (부제: typed API 사용하기)
- Spark UI 확장하기
- Custom Spark Stream Source 개발하기
- Spark에서 Kafka를 batch 방식으로 읽기
- SparkSession의 implicit에 대한 이해
- spark-submit의 –files로 upload한 파일 읽기
- Scala case class를 Spark의 StructType으로 변환하기
- Spark on Kubernetes 사용법 및 secure HDFS에 접근하기
- Spark의 Locality와 getPreferredLocations() Method
- Spark Streaming의 History