Jason Heo's Blog
linkedin

search:

세미나 참석 내용 정리

19 May 2015

세미나 참석했던 내용 정리

MySQL User Group 세미나 (2015/04/15)
Data Engineer (2015/04/15)

MySQL User Group 세미나

Session 1 - MySQL 5.7

Optimizer Improved
Hard code를 줄임
I/O (Disk, SSD, Fusion I/O)
Configurable and Tuable
Query Rewrite Plugin
Sys schema
I/O hotspot
GIS Support
InnoDB
Native Partitioning
Replication
Multi Source Replication
Generated Column
Stored generated column
Virtual generated Column
이걸 이용해서 json의 특정 키를 indexing할 수 있다.

Session 2 - MySQL Cluster

MySQL Cluster 7.2
JOIN 성능이 수십배 빨라짐
Cluster에서는 JOIN 구문을 던지면, 각 Node에 흩어진 Data를 알아서 조회하나?
Apache NDB 전용 API
MySQL Cluster 7.4
초당 2억 reads (NoSQL)
초당 2.5M read (SQL)
Data를 Memory에 올리는 시간을 단축 시킴
이전보다 5.4배 빨라짐
MySQL Cluster는 short transaction에 유리

Session 3 - DokuDB

한국과 미국의 Replication 지연 떄문에 고민
Disk size는 1/10로 줄어듬
CPU 사용량은 증가 (압축/해제)
TokuDB로 바꾼 뒤 초당 2만건
InnoDB에서는 못 받던 수치
Slave Lack이 자연스레 해소됨
Slave Snapshot을 통해 빠른 백업 가능
InnoDB와 TokuDB를 섞어서 사용 가능
사용하는 Memory 영역이 다르므로 주의
DokuDB를 SSD와 (혹은 Fusion I/O와 사용하면 동시 Read Request가 너무 들어옴
CPU 사용량이 너무 높아져서 오히려 SSD, Fusion I/O를 사용하지 못할 정도

Data Engineer

내용은 잘 기억나지 않고, keyword 위주로 정리한다.
Data 전달 Channel
FLUME
KAFKA
FLUENTD
HIVE TABLE로 저장시킴
HAVE가 아니더라도 임팔라나 Tajo로도 접근 가능하다
HIVE : 느리지만, 어떤 경우도 job fail이 없다. 느린 것은 장비를 때려 박으면 됨
임팔라 : 돌다가 RAM이 부족하면 뻗어버림
Tajo : 왠만하면 잘 돌지만, 불편하다
OOZIE : 의존성 규칙 지정. xml로 규칙 설정
LUIGI : Data의 의존성. spotify에서 만듬
YARN
SCALA
최근 SPARK의 등장
REAL 환경에서
Interpreter을 이용하여 실제 데이터 모습을 보면서 돌려볼 수 있다
내가 짠 프로그램의 오류를 빠르게 확인할 수 있다