search:

세미나 참석 내용 정리

19 May 2015

세미나 참석했던 내용 정리

  • MySQL User Group 세미나 (2015/04/15)
  • Data Engineer (2015/04/15)

MySQL User Group 세미나

Session 1 - MySQL 5.7

  • Optimizer Improved
  • Hard code를 줄임
  • I/O (Disk, SSD, Fusion I/O)
  • Configurable and Tuable
  • Query Rewrite Plugin
  • Sys schema
  • I/O hotspot
  • GIS Support
  • InnoDB
  • Native Partitioning
  • Replication
  • Multi Source Replication
  • Generated Column
  • Stored generated column
  • Virtual generated Column
  • 이걸 이용해서 json의 특정 키를 indexing할 수 있다.

Session 2 - MySQL Cluster

  • MySQL Cluster 7.2
  • JOIN 성능이 수십배 빨라짐
  • Cluster에서는 JOIN 구문을 던지면, 각 Node에 흩어진 Data를 알아서 조회하나?
  • Apache NDB 전용 API

  • MySQL Cluster 7.4
  • 초당 2억 reads (NoSQL)
  • 초당 2.5M read (SQL)
  • Data를 Memory에 올리는 시간을 단축 시킴
  • 이전보다 5.4배 빨라짐
  • MySQL Cluster는 short transaction에 유리

Session 3 - DokuDB

  • 한국과 미국의 Replication 지연 떄문에 고민
  • Disk size는 1/10로 줄어듬
  • CPU 사용량은 증가 (압축/해제)
  • TokuDB로 바꾼 뒤 초당 2만건
  • InnoDB에서는 못 받던 수치
  • Slave Lack이 자연스레 해소됨
  • Slave Snapshot을 통해 빠른 백업 가능
  • InnoDB와 TokuDB를 섞어서 사용 가능
  • 사용하는 Memory 영역이 다르므로 주의
  • DokuDB를 SSD와 (혹은 Fusion I/O와 사용하면 동시 Read Request가 너무 들어옴
  • CPU 사용량이 너무 높아져서 오히려 SSD, Fusion I/O를 사용하지 못할 정도

Data Engineer

  • 내용은 잘 기억나지 않고, keyword 위주로 정리한다.

  • Data 전달 Channel
  • FLUME
  • KAFKA
  • FLUENTD
  • HIVE TABLE로 저장시킴
  • HAVE가 아니더라도 임팔라나 Tajo로도 접근 가능하다
  • HIVE : 느리지만, 어떤 경우도 job fail이 없다. 느린 것은 장비를 때려 박으면 됨
  • 임팔라 : 돌다가 RAM이 부족하면 뻗어버림
  • Tajo : 왠만하면 잘 돌지만, 불편하다
  • OOZIE : 의존성 규칙 지정. xml로 규칙 설정
  • LUIGI : Data의 의존성. spotify에서 만듬
  • YARN
  • SCALA
  • 최근 SPARK의 등장
  • REAL 환경에서
  • Interpreter을 이용하여 실제 데이터 모습을 보면서 돌려볼 수 있다
  • 내가 짠 프로그램의 오류를 빠르게 확인할 수 있다