AWS S3에 있는 CSV파일을 REDSHIFT에서 읽는 방법

IT 자료

AWS S3에 있는 CSV파일을 REDSHIFT에서 읽는 방법

성곤 2024. 6. 30. 09:20

S3에 존재하는 CSV파일을 REDSHIFT에서 직접 CSV파일을 읽어서 테이블처럼 조회하는 방법이다.

CREATE EXTERNAL TABLE spectrum_schema.csv_table_name (
"col_01"  VARCHAR(2000)
,"col_02"  VARCHAR(2000)
,"col_03"  VARCHAR(2000)
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
    'separatorChar' = ',',
    'quoteChar' = '"',
    'escapeChar' = '\\'
)
STORED AS TEXTFILE
LOCATION 's3://aws-bucket/file/path/csvfoldername'
TABLE PROPERTIES (
    'skip.header.line.count'='1',
    'recursive'='true',
    'input.regex'='.*.csv$'
);

drop table spectrum_schema.csv_table;

1. CSV헤더 정보와 TABLE의 컬럼 정보는이름이 아니라 순서대로 매핑된다.

2. 해당 버킷폴더 경로 내에 CSV파일이 생성되면 별도의 추가 없이도 읽을 수 있다.

3. 테이블을 드랍해도 S3 CSV파일은 그대로 존재한다.