2021.12.18 내용 추가
Spark에서 Kafka를 batch 방식으로 읽기 글을 새로 작성하였다.
들어가며
Kafka는 Spark에서 Ingestion을 할 때 주로 Streaming Processing의 Data Source로 사용이 된다. 하지만, Batch Processing에서도 사용될 수 있다는 사실.
Spark 1.x의 DStream과 유사한 Batch
- https://medium.com/@sathishjayaram/batch-processing-of-multi-partitioned-kafka-topics-using-spark-with-example-b686676d33f1
KafkaUtils.createRDD()
를 사용하는 방법 안내- github 링크를 클릭하면 코드가 보인다
Spark 2.x의 Structured Streaming과 유사한 Batch
- https://dzone.com/articles/kafka-gt-hdfss3-batch-ingestion-through-spark
- Batch 읽기에 대한 자료
- 읽을 범위 지정은
startingOffsets
과endingOffsets
옵션을 사용한다
- https://sparkbyexamples.com/spark-batch-processing-produce-consume-kafka-topic/
- Batch 읽기만이 아니라 쓰기에 대한 설명도 포함된 자료