• 大規模なデータを処理するRedShiftは、データの圧縮率をあげることがパフォーマンス向上につながります。
  • RedShiftは列ごとに圧縮方式を指定することもできるので、豊富に用意された圧縮方式の中から最適なものを選んで、データを効率的に圧縮することができます。

 

圧縮率をあげることがパフォーマンスの向上につながる

圧縮は、データのサイズを小さくする処理です。
圧縮率をあげることでデータを格納するスペースが少なくなり、ストレージからの転送量が減少するので、パフォーマンスが向上します。

特にビッグデータを扱うAmazon Redshiftでは、わずかな時間に積み重ねが重要です。
Amazon Redshiftがデフォルトの状態では、データを圧縮しないraw形式でデータが格納されますので、パフォーマンスを向上させるために圧縮方式を手動で設定するか、COPYコマンドによって自動的に圧縮方式を適用させなくてはなりません。

 

 

 

列ごとに圧縮エンコードを選択することも可能

Amazon RedShiftでは、以下の圧縮方式がサポートされています。

・raw エンコード
・バイトディクショナリエンコード
・デルタエンコード
・LZO エンコード
・Mostly エンコード
・ランレングスエンコード
・text255とtext32k エンコード

手動で圧縮方式を指定する場合は、CREATE TABLE ステートメントを用います。
既に作成されている列に対して圧縮方式を変更することはできませんが、追加する列に対して圧縮方式を設定することは可能です。

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

参考文献