Zui近在看数据分析的书籍,就来聊聊数据分析的步骤吧。
作为财务人,经常会做一些数据分析工作,比如零售毛利分析、销售达成率分析、预算分析、账龄分析等。
一般情况下会有对应的模板,我们可以直接套数进去得出分析结果。大家有没有想过这种数据分析的模板是如何做出来的?
其实这也不难,所有的数据分析工作都可以分成以下4个步骤:
一、业务理解在数据分析过程中,业务理解有助于确保后续的数据处理、分析与解读能够准确反映并解决实际业务问题。
1.了解业务背景:学习对应行业的基本知识、商业模式、行业动态以及公司战略目标。明确当前项目的具体业务场景。(例如市场推广效果评估、用户行为分析、产品优化或风险管理等)
2.熟悉业务流程:与业务团队紧密合作,了解业务从头至尾的操作流程,包括客户获取、销售漏斗、服务提供、售后支持等环节。确定每个流程节点的关键业务活动及其背后的驱动因素。
3.识别关键业务指标(KPIs):根据业务需求确定核心的绩效衡量指标,比如电商领域的订单量、转化率、客单价、复购率等,或是网站分析中的PV(页面浏览量)、UV(独立访客数)等。分析这些指标之间的关联性和因果关系,理解它们是如何影响业务成果的。
4.构建业务模型:将业务过程抽象成数据模型,明确各个实体间的关系和数据流转路径。确定关键数据字段,理解其定义、计算方式以及数据采集源头。
5.洞察业务问题:明确业务所面临的问题或挑战,分析可能的原因,结合历史数据和行业经验来形成假设。结合实际情况,区分短期波动和长期趋势,判断异常值或变动是否具有实质性意义。
6.数据源审查:深入理解数据来源,确保数据的质量和完整性,包括数据的收集方式、更新频率、存储结构等。审查数据清洗和预处理的必要性,确保用于分析的数据准确反映了业务现实。
7.持续沟通:在整个分析过程中保持与业务团队的沟通,确保分析方向与业务目标一致。根据分析结果反馈调整业务理解,随着业务环境的变化及时更新分析视角。
二、数据理解在数据分析过程中,数据理解是紧随业务理解之后的重要阶段,它是确保数据分析质量、有效性和针对性的关键步骤。
1.数据探索:查看数据集的整体概况:记录数据集的大小、维度(列的数量)、行数(样本数量),以及各列的数据类型(数值、类别、日期等)。使用头几行或尾几行快速查看数据样例,了解数据表结构和大致内容。
2.缺失值和异常值检查:发现并记录数据集中是否存在缺失值,采用适当的方法处理缺失数据,比如删除、填充或插值等。
3.数据分布分析:对数值型变量绘制直方图或密度图,观察数据分布是否接近正态或其他常见分布形态。对类别型变量制作频数表或者饼图,了解各类别占比情况。
4.相关性分析:计算不同变量之间的相关系数,以了解它们之间的潜在关系强度和方向。可以通过散点图、热力图等可视化手段直观展现变量间的相关性。
5.数据质量评估:检查数据的一致性、完整性和准确性,确保数据适合进行分析。验证数据的逻辑合理性,例如日期应符合时间顺序,某些属性值不应超出合理范围等。
6.建立初步假设:基于对数据的理解,结合业务背景知识,初步建立关于数据模式、趋势或关系的假设通过以上对数据集的特点、质量和可用性的理解,为后续的数据清洗、建模分析等步骤打下坚实的基础。与业务团队的沟通,更能确保数据解释符合业务实际和预期目标。
三、数据清洗
在数据分析中,数据清洗是一个关键的过程,用于处理原始数据集中的不一致性、错误、重复项、缺失值等问题,使其更适合分析。以下是一些常用的数据清洗工具: 1.MicrosoftExcel:适用于小型数据集,可通过筛选、排序、条件格式化、查找和替换等功能进行基础的数据清洗工作,还可以利用公式处理缺失值和异常值。
2.Power Query :提供了更为强大的数据清洗和转换功能,能够链接到多个数据源,执行复杂的数据清洗操作,包括连接、合并、重塑数据结构,以及去除重复值、填充缺失值等。(2016版本以上的excel自带这个插件)
2.Python 库(如 pandas、NumPy 和 Scikit-Learnpreprocessors):pandas 是一个广泛使用的数据处理库,可用于读取、写入、过滤、排序、合并等多种数据清洗操作。NumPy 支持数值计算和向量化操作,有助于处理缺失值和异常值。Scikit-Learn 中的预处理器可用于标准化、归一化、特征缩放等预处理步骤。
3.R 语言及其包(如 dplyr, tidyr, readr 等):dplyr 提供了一套数据清洗和转换函数,便于数据操作。tidyr 用于数据集的重塑和清理。readr 则用于高效读取 CSV 文件等。
4.SQL(用于数据库中的数据清洗):在数据库层面上直接进行数据清洗,适合大规模数据集和实时数据流处理。数据库在财务领域应用可以看历史这篇:数据库在财务领域的应用
清洗工具有很多,以上列举对财务人相对简单的工具。
四、数据输出
数据清洗完成后,需要输出结果,一般有书面报告,数据表格,可视化看板等。
常见可视化看板工具:常有Power BI、FineBI、Tableau等。(酋长后边会写可视话看板工具的专题,感兴趣的可以看后期的分享)