Spark UI 확장하기

13 Jun 2021

들어가며

어느 날 갑자기 ‘수행 중인 Spark App의 input/output에 대한 metadata를 spark UI에서 볼 수 있으면 좋겠다’는 생각이 들었다. 코드 주석도 그렇고 시스템 문서화도 그렇고, 시간을 내서 아무리 잘 작성을 한다하더라도 나중에 참조를 잘 하지 않는다. 또한 시간이 지나면 금방 out-of-date가 되서 최신성을 유지하기도 힘들고 투입한 시간 대비 얻는 것도 적다.

이는 Data Pipeline 문서화도 마찬가지인데, 그동안 어떻게 문서화를 하는 것이 시간도 절약되고 참조하는데도 쉬운지 고민도 하고 시도를 해봤는데도 좋은 방법을 찾지 못하였다. 그나마 Apache Atlas를 이용해서 pipline의 lineage를 표현하는 게 좋긴 했는데 이건 lineage를 생성/수정하는데 비용이 너무 컸다.

그러던 중 Spark App에 대한 정보를 Spark UI에 남겨볼 수 있다면 별도의 문서화를 많이 줄일 수 있고, lineage를 수동으로 그리는 수고도 줄일 수 있을 듯 하였다 (여러 개의 Spark app간의 pipeline 전체를 lineage를 그리는 것은 Spark UI 확장만으로는 어렵다. 어떻게 구현할지는 머리 속에 있기 한데, 이건 우선 1개 Spark App에 집중한 뒤 향후 구현 시도하려한다)