华少的博客

谁的头顶上没有灰尘,谁的肩上没有过齿痕

0%

AI 相关认证经验小结

前言

最近AI 发展迅猛,作为相关岗位从业者,我也陆续考了以下三个AI 相关的证书:

以上的证书主要涉及Azure 提供的ML studio 和Databricks 的ML Workspace,认证考试的内容大部分与相关套件的使用相关。由于最近几年AI 技术迭代以及相关云厂商更新也比较快,这里我根据当时自己考试的准备及遇到的一些题目进行总结。以上的考试题都会不断的根据现有AI 技术的更新而调整,请务必查看相关考试的guide。

Microsoft Certified: Azure Data Scientist Associate(DP100)

微软的DP100,我是2023年底考试认证的,当时正好项目上使用了Azure ML studio进行模型线上部署,作为总结记录就顺手考了这个认证。从考试准备及内容来看,难度不大。需要有使用Azure ML Studio的经验,能使用该套件从数据集构建、模型训练、模型评估到部署的全流程。
考试内容节选:
当时总共43道选择题(有单选和多选),总共120分钟。

套件相关的内容占比非常多,如

  1. dataset和datastore的区别,分别如何设置认证及访问控制;
  2. abfss和azureml 的路径访问
  3. 推理集群、计算集群以及附加计算的区别
  4. MLtable 中有一列column1为十进制,判断是否符合正态分布
  5. 如何设置Responsible AI Dashboard
  6. synapse spark pool的链接使用
  7. MLClient framework的一些接口使用
  8. 重置notebook的状态有哪些方法

ML相关知识:

  1. 模型训练时的提前终止策略的设置,超参搜索的算法(Sobol、Grid、Bayesian等)
  2. 阈值优化器的选择
  3. 特征的不公平性,如何降低和防止

有趣的是,考试中会偶尔出现几个和ML不相关的软件工程知识,如:

  1. ssh key的生成指令,如何配置到Azure ML的compute上

最近又看了下Azure ML Studio的一些进展,发现从模型注册到部署支持都有很大的扩充(如 model catalog,serverless deployment),包括对于LLM应用的支持,相信在最新的考试内容上会有所体现。在此,建议备考可以先看看Azure 官方提供的一些考试样题[https://learn.microsoft.com/en-us/training/courses/dp-100t01]

考试番外篇之Azure:

Azure ML Studio感觉还是想打造为企业级AI platform,它的优势是集成了Azure 云上的相关资源,从存储(storage account),计算资源管理,ACR等,为模型最终上线部署提供了很大的便利(managed endpoint提供了丰富的autoscaling策略)。但在实际全流程体验上来看,其提供的分析套件notebook体验很差,权限及状态管理比较混乱,计算资源的runtime也比较落后,不利于分析使用。

Databricks Certified Machine Learning Professional

Databricks 一开始是提供spark集群以作为企业级的大数据平台,结合spark ml lib库可以做一些传统的机器学习应用, 随着AI的发展,databricks workspace套件扩展了自身的feature,也大力发展MLOps全流程实践(MLFlow)。它可以基于多云进行实施,我们在Azure 的资源基础上启动了databricks workspace作为数据集构建和模型训练平台。因此我也考了这个证书。

说回databricks ML professional认证,2小时时间有60道选择题(有单选和多选),也是考察整个ML 流程中的设计和套件使用方面内容。强烈建议先在国外相关考题网站上搜下相关认证的考题,如[https://www.examtopics.com/] 等,可以找到一些参考题目。
这里特定指出一些需要注意的点:

  1. MLFlow对模型全生命周期的管理接口(设置experiment、启动run、记录训练指标以及注册模型)
  2. Delta lake相关使用及优势
  3. 模型监测中Data drift、Model drift及其他drift和相关的检测算法(Jensen-Shannon距离、卡方检验、KS test等)
  4. Feature Store相关特性和接口

总体来讲,考题比较全面和细致,需要了解Databricks在Model的全生命周期上的实践流程和机器学习相关的基础算法。当然,随着现在大模型的发展,Databricks 提供的平台套件也在快速的迭代,也在加入一些LLM相关的tools和out of box的LLM service。

Databricks Certified Generative AI Engineer Associate

这个证书是2025年4月初考的,当时是找了下网上LLM相关的认证,就发现这个,就先考了试试。这个认证从名字上看就能知道内容比较初级,时长90分钟45道选择题,差不多40分钟做完。主要内容还是围绕Databricks提供的toolset去构建一个LLM 应用(RAG 应用):

  1. RAG 的整体流程设计
  2. 结合Langchain 库进行prompt engineering和RAG 应用开发
  3. 当前一些public LLMs的特性
  4. Vector Database的特性与设置(Vector Search算法)
  5. RAG 应用的数据集构建和优化
  6. 使用Unity Catalog做数据的治理,系统的监控
    可以看出Databricks还是紧跟AI 的发展,在LLM应用上做了很多的适配和支持,后续考题肯定也会有相应的调整。

考试番外篇之Databricks:

Databricks 从企业级Data Platform快速进化为Data/AI Platform,拥有多云集成的能力,并且开发了多种套件(Delta Lake、Unity Catalog、MLFlow等)支持从数据接入到模型上线的整个全流程服务,在市场上很有竞争力。后续我认为还需要在模型服务(模型的autoscaling策略)LLM 支持上需要加强。在模型服务上,能提供更灵活的autoscaling的策略,支持更多并发流量且运行环境可以自定义;而在LLM 方面能提供更完善的能力,类似与langfuse 管理企业级RAG 应用开发,同时增加企业级Agent 开发和管理流程,同时增加基础大模型的选择,或者能提供自host基础模型的选项已保障数据不外出等能力。

总体而言,我还是看好Databricks的。企业落地一个AI/LLM 应用需要考虑的方面很多,而Databricks 正在快速迭代,不断完善以支持企业落地这些应用,在国外是很多企业的首选平台。

以上就是本人在这三个认证考试中的一些经验和观察,希望能帮助到读者,有问题可以邮件联系我。

Related Issues not found

Please contact @Devhua to initialize the comment