이.빅.스 | 기하급수적으로 수집되는 많은 양의 데이터는 어떻게 처리해야 할까? 안녕하세요. 네 번째 이.빅.스 입니다. HDFS, Amazon S3, Google Cloud Storage 등 다양한 스토리지가 발전하면서 정형 데이터는 물론 비정형 데이터까지 대량으로 수용할 수 있게 되었고, 많은 기업들이 이런 스토리지들을 활용하여 방대한 양의 데이터를 수집하고 데이터 레이크를 만들고 있습니다. 이번 달에는 이러한 대용량 데이터 레이크를 쿼리할 수 있는 쿼리 엔진인 Trino를 소개합니다. Trino는 하나 이상의 다양한 데이터 소스에 분산된 대규모 데이터 세트를 효율적으로 쿼리하도록 설계된 오픈 소스의 분산 SQL 쿼리 엔진입니다. Hive나 Pig처럼 MapReduce 작업의 파이프라인을 사용해 HDFS를 쿼리하는 도구의 대안으로 설계되었으나, 점차 확장되어 관계형 데이터베이스나.. 2023. 5. 25. 이전 1 다음