Записочка для себя.
Redshift - это petabyte-scale cloud based fully-managed data warehouse.
А если проще, это колоночная база (columnar storage) с Постгресом внутри, кластеры которого разворачиваются на AWS и которыми можно управлять с помощью API и через CLI и через веб-интерфейс, интегрированная со всякими другими сервисами Амазона (например, COPY можно сделать с S3, управление доступом через IAM и тогдалие).
Есть вроде как три типа нод, общего назначения, и оптимизированные для storage и вычислений соответственно.
Есть разные типы распределения для таблиц с разными эффектами на используемое место и производительность, есть materialized views, query rewriting для того, чтоб заюзать оные, stored procedures, UDF на питоне и pgSQL, кросс-базовые запросы, возможность какие-то данные показать соседнему кластеру, возможность заюзать нечто внешнее (например, лежащее на S3) в запросе. Ну и, разное.
Comments (1)
По сути, это managed Постгрес. Но штука реально толковая.
Единственное, что у нее не очень - это масштабирование. Все, что быстро - только с одного пресета на другой. А там, где смена типа нод, произвольное их кол-во - ОЧЕНЬ медленно. Порядка 10 часов на терабайт даных