search:

Spark Data AI Summit 2020 EU에 관심가는 세션들

14 Nov 2020

Data AI Summit은 Spark을 만든 개발자들이 설립한 회사인 Databricks에서 개최하는 컨퍼런스로서 Spark 관련하여 가장 큰 컨퍼런스이다. 처음엔 Spark Summit이었는데 2017년인가부터 Spark AI Summit으로 이름을 변경하였다. 이후 2020년에 Data AI Summit으로 이름을 한번 더 바꿨다

1년에 두 번 (미국 샌프란시스코와 유럽) 개최된다. 한국에서 Spark AI Summit에 참여하려면 비용이 꽤나 드는데 (참가비, 항공권, 숙박비) 다행(?)인 점은 모든 세션의 영상과 슬라이드를 인터넷에 공개한다는 점이다. (본인도 2016년 유럽 컨퍼런스에 다녀왔었는데 돈이 ㅎㄷㄷ)

공짜로 볼 수 있는 것들이니 정리해두고 틈틈히 시간날 때 봐야겠다 (라고 다짐을 하지만 얼마나 볼 수 있을지 모르겠다. 아싸리 비싼 돈 내고 다녀오면 돈이 아까워서라도 챙겨보겠지만)

아래에 있는 주제는 내가 관심있어하는 Engineering 주제의 Internal, Best Practice, use-case 위주의 세션 목록이다.

전체 Agenda: https://databricks.com/dataaisummit/europe-2020/agenda

2020년에는 Covid 19 때문에 온라인으로 진행되면 무료이다.

Databricks에서는 Delta Lake를 밀려고하는 것 같다. 컨퍼런스 세션의 많은 부분이 Delta Lake에 대한 이야기이다.

  • https://databricks.com/session_eu20/frequently-bought-together-recommendations-based-on-embeddings
  • https://databricks.com/session_eu20/from-query-plan-to-query-performance-supercharging-your-apache-spark-queries-using-the-spark-ui-sql-tab
  • https://databricks.com/session_eu20/spark-sql-beyond-official-documentation
  • https://databricks.com/session_eu20/what-is-new-with-apache-spark-performance-monitoring-in-spark-3-0
  • https://databricks.com/session_eu20/hyperspace-an-indexing-subsystem-for-apache-spark
    • MS에서 만든 Spark용 Indexing Subsystem
    • 이거 꼭 한번 테스트해봐야겠다
    • 발표자 중에는 Kim씨 성을 가진 사람도 있네
  • https://databricks.com/session_eu20/how-the-weather-company-uses-apache-spark-to-serve-weather-data-fast-at-low-cost
  • https://databricks.com/session_eu20/building-a-simd-supported-vectorized-native-engine-for-spark-sql
  • https://databricks.com/session_eu20/containerized-stream-engine-to-build-modern-delta-lake
  • https://databricks.com/session_eu20/using-delta-lake-to-transform-a-legacy-apache-spark-to-support-complex-update-delete-sql-operation
  • https://databricks.com/session_eu20/getting-started-with-apache-spark-on-kubernetes
  • https://databricks.com/session_eu20/apache-spark-3-0-deep-dives-meetup
  • https://databricks.com/session_eu20/migrating-airflow-based-apache-spark-jobs-to-kubernetes-the-native-way
  • https://databricks.com/session_eu20/mats-stack-mlflow-airflow-tensorflow-spark-for-cross-system-orchestration-of-machine-learning-pipelines
  • https://databricks.com/session_eu20/solving-data-discovery-challenges-at-lyft-with-amundsen-an-open-source-metadata-platform
  • https://databricks.com/session_eu20/real-time-health-score-application-using-apache-spark-on-kubernates
    • 한국 개발자, BisTel
    • 한국에서는 BisTel과 SKT분들이 꾸준히 발표 중이시다
  • https://databricks.com/session_eu20/ml-statistics-and-spark-with-databricks
  • https://databricks.com/session_eu20/scale-out-using-spark-in-serverless-herd-mode
  • https://databricks.com/session_eu20/extending-apache-spark-beyond-spark-session-extensions
  • https://databricks.com/session_eu20/improving-sparksql-performance-by-30-how-we-optimize-parquet-pushdown-and-parquet-reader
  • https://databricks.com/session_eu20/apache-spark-streaming-in-k8s-with-argocd-spark-operator
  • https://databricks.com/session_eu20/query-or-not-to-query-using-apache-spark-metrics-to-highlight-potentially-problematic-queries-
  • https://databricks.com/session_eu20/efficient-query-processing-using-machine-learning
    • 교포인지 한국인인지 모르겠으나 이력보니 멋진 분이네
    • https://ddkang.github.io/
  • https://databricks.com/session_eu20/ebays-work-on-dynamic-partition-pruning-runtime-filter
  • https://databricks.com/session_eu20/spark-sql-join-improvement-at-facebook
  • https://databricks.com/session_eu20/radical-speed-for-your-sql-queries-with-delta-engine
  • https://databricks.com/session_eu20/embedding-insight-through-prediction-driven-logistics

본 카테고리의 추천 글