세미나 참석했던 내용 정리
- MySQL User Group 세미나 (2015/04/15)
- Data Engineer (2015/04/15)
MySQL User Group 세미나
Session 1 - MySQL 5.7
- Optimizer Improved
- Hard code를 줄임
- I/O (Disk, SSD, Fusion I/O)
- Configurable and Tuable
- Query Rewrite Plugin
- Sys schema
- I/O hotspot
- GIS Support
- InnoDB
- Native Partitioning
- Replication
- Multi Source Replication
- Generated Column
- Stored generated column
- Virtual generated Column
- 이걸 이용해서 json의 특정 키를 indexing할 수 있다.
Session 2 - MySQL Cluster
- MySQL Cluster 7.2
- JOIN 성능이 수십배 빨라짐
- Cluster에서는 JOIN 구문을 던지면, 각 Node에 흩어진 Data를 알아서 조회하나?
-
Apache NDB 전용 API
- MySQL Cluster 7.4
- 초당 2억 reads (NoSQL)
- 초당 2.5M read (SQL)
- Data를 Memory에 올리는 시간을 단축 시킴
- 이전보다 5.4배 빨라짐
- MySQL Cluster는 short transaction에 유리
Session 3 - DokuDB
- 한국과 미국의 Replication 지연 떄문에 고민
- Disk size는 1/10로 줄어듬
- CPU 사용량은 증가 (압축/해제)
- TokuDB로 바꾼 뒤 초당 2만건
- InnoDB에서는 못 받던 수치
- Slave Lack이 자연스레 해소됨
- Slave Snapshot을 통해 빠른 백업 가능
- InnoDB와 TokuDB를 섞어서 사용 가능
- 사용하는 Memory 영역이 다르므로 주의
- DokuDB를 SSD와 (혹은 Fusion I/O와 사용하면 동시 Read Request가 너무 들어옴
- CPU 사용량이 너무 높아져서 오히려 SSD, Fusion I/O를 사용하지 못할 정도
Data Engineer
-
내용은 잘 기억나지 않고, keyword 위주로 정리한다.
- Data 전달 Channel
- FLUME
- KAFKA
- FLUENTD
- HIVE TABLE로 저장시킴
- HAVE가 아니더라도 임팔라나 Tajo로도 접근 가능하다
- HIVE : 느리지만, 어떤 경우도 job fail이 없다. 느린 것은 장비를 때려 박으면 됨
- 임팔라 : 돌다가 RAM이 부족하면 뻗어버림
- Tajo : 왠만하면 잘 돌지만, 불편하다
- OOZIE : 의존성 규칙 지정. xml로 규칙 설정
- LUIGI : Data의 의존성. spotify에서 만듬
- YARN
- SCALA
- 최근 SPARK의 등장
- REAL 환경에서
- Interpreter을 이용하여 실제 데이터 모습을 보면서 돌려볼 수 있다
- 내가 짠 프로그램의 오류를 빠르게 확인할 수 있다