Amazon SageMaker Studio Notebook新提供了内置的数据准备功能,让专业人员只需点击几下即可直观地查看数据特征、修复数据质量问题,所有这一切都直接在Notebook环境中进行。当用户在Notebook中显示data frame(即数据的表格形式)时,Amazon SageMaker Studio Notebook 会自动生成图表帮助用户识别数据质量问题,提供数据转换建议帮助解决常见问题。专业人员选择数据转换后,Amazon SageMaker Studio Notebook 会在Notebook中生成相应代码,可供每次运行Notebook时重复应用。
Amazon SageMaker Studio 是一个集成开发环境,它提供了一个基于 Web 的可视化界面,开发人员可以在其中访问各种工具,执行所有机器学习开发步骤,从准备数据到构建、训练和部署机器学习模型,将数据科学团队的生产力提高多达 10 倍。开发人员可以快速上传数据、创建新记事本、训练和调优模型,在各个步骤之间来回切换以调整实验,还可以在不离开 Studio 的情况下将模型部署到生产环境中。
亚马逊云科技还为Amazon Glue推出的一项新功能,叫Amazon Glue Data Quality,可以跨数据湖和数据管道自动管理数据质量。其最终目标也是指向机器学习应用。
Amazon Glue Data Quality可以自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量,将数据分析和规则识别的时间从几天缩短到几小时。Amazon Glue Data Quality可以计算客户数据集的统计数字(如最小值、最大值、直方图和相关性),使用统计数字自动地推荐规则,确保数据的即时性、准确性和完整性。客户可以安排Amazon Glue Data Quality在数据发生变化时定期运行,自动分析数据并提出质量规则的更改建议以确保相关性。一旦出现质量问题,数据工程师无需编写代码即可配置用户提醒或终止数据管道。