AWS Glue проверяет правильность содержимого файла

У меня есть проект в AWS для вставки данных из некоторых файлов, которые будут в S3, в Redshift. Дело в том, что ETL нужно планировать каждый день, чтобы найти новые файлы в S3, а затем проверить правильность этих файлов. Однако это нужно делать с помощью специального кода, поскольку файлы могут иметь разные форматы в зависимости от их типа, поставщика и т. Д. Я вижу, что AWS Glue позволяет планировать, сканировать и выполнять ETL. Однако я не понимаю, как можно создать свой собственный код для ETL и проанализировать файлы, чтобы проверить правильность, прежде чем выполнять инструкцию копирования из S3 в Redshift. Знаете ли вы, можно ли это сделать и как?

Другая проблема заключается в том, что если все в порядке, система должна загрузить данные из S3 в Интернет через какой-то API. Но если это не так, файл следует оставить в электронном письме ftp. Опять же, знаете ли вы, можно ли это сделать с помощью AWS Glue и как?

большое спасибо!


Вы можете написать свой код клея/искры, загрузить его в s3 и создать задание склеивания, ссылаясь на этот сценарий/библиотеку. Все, что вы хотите написать на Python, можно сделать с помощью клея. это просто оболочка вокруг искры, которая, в свою очередь, использует python ….


Вы можете написать свой код клея/искры, загрузить его в s3 и создать задание склейки, ссылаясь на этот скрипт/библиотеку. Все, что вы хотите написать на Python, можно сделать с помощью клея. это просто оболочка вокруг искры, которая, в свою очередь, использует питон ….

Оцените статью
techsly.ru
Добавить комментарий