作者
Alexandra Jonker
Editorial Content Lead
Tom Krantz
Writer
什么是数据采集?
数据采集是指使用不同方法从各种来源获取数据的过程。它是数据摄取管道中的一个关键步骤,随后则是数据验证、转换与加载。
现代商业基础工作(如数据驱动型决策、数据分析和人工智能 (AI))均取决于大量高质量数据的可用性。数据采集可检索使这些明智决策和技术成为可能的相关数据。此概念虽然看似简单,但获取数据却可能十分复杂,尤其是在大数据时代。
当今的数据集不但庞大且十分复杂。它们的大小可跨越数 TB 或 PB,并采用结构化或非结构化格式,同时存在于不同的数据源中。这些复杂性给整个采集过程中围绕数据量、治理和安全性的管理工作带来了挑战。
然而,若能有效完成数据采集流程,则可使该流程成为各种战略计划的高质量催生管道。事实上,《哈佛商业评论》的一项研究发现,成功利用大数据和 AI 的组织在运营效率、收入增长和客户体验等关键业务指标方面的表现均优于同行。1
数据采集的替代定义
“数据采集”一词也可特指收集用于测量真实情况(通常为传感器数据)的物理信号或电信号。相关示例则包括温度测量、压力和其他物理现象。
这些信号会通过数据采集设备或 DAQ 设备进行处理并转换为可用的数字值。此用法在环境监控、工业自动化和科学研究等领域十分常见。
行业时事通讯
辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明 。
谢谢!您已订阅。
您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的《IBM 隐私声明》。
数据采集的四种方法分别是什么?
根据美国地质调查局的数据,数据采集方法可分为四种:2
收集新数据转换旧数据共享或交换数据购买数据
收集新数据
收集数据的过程涉及通过调查、访谈、传感器或物联网 (IoT) 设备等直接方式来生成原始数据。企业常使用此方法进行市场调研或运营监控。
转换旧数据
此方法侧重于检索组织的旧数据并将其转换为标准化的可用格式。该流程既包括简单的字段转换(如日期),也包括复杂的规范化操作(可能需借助高级数据科学专业知识)。
共享或交换数据
数据交换涉及跨系统与组织的数据传输。它可通过开放数据政府计划、城市数据交换和商业数据提供商来实现。技术交换机制包括应用程序编程接口 (API)、文件传输、流式传输管道以及基于云的平台。
购买数据
此外,组织还可从数据市场购买外部数据。这些平台可弥合买方与卖方之间的差距,从而提供商业可用性、可及性和可扩展性的优点。它们精选的即用型数据产品有助于降低数据收集的开销。
Mixture of Experts | 8 月 28 日,第 70 集
解码 AI:每周新闻摘要
加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。
观看最新播客节目
常见数据源
组织可通过看似无限数量的来源收集数据。数据可能为结构化或非结构化格式,也可能是内部或外部数据。最常见的部分数据源包括:
业务应用程序:来自企业资源规划 (ERP)、客户关系管理 (CRM) 与其他系统的数据
社交媒体:来自社交媒体平台的实时交互数据
开放数据:来自学术机构和政府且用于研究和政策制定的数据集
公共数据:来自政府和组织的数据,例如人口普查与经济数据
交易数据:销售记录、发票和付款信息
调研:通过客户反馈或研究问卷所收集的数据
网络分析:来自网站交互的数据,例如页面浏览量和转化量
IoT 设备:来自联网设备(例如智能电表或电器)的实时数据
数据采集挑战和注意事项
获取数据的组织在整个采集过程中需牢记几个注意事项:
数据隐私和安全数据质量数据兼容性业务需求与成本
数据隐私和安全
数据隐私也被称为信息隐私,它是指人们应对组织如何收集、存储和使用其个人数据拥有控制权。采集期间,组织可能会收集各种用户信息,例如电子邮件地址或生物特征身份验证数据。其中的关键在于,它们在处理这些数据之前须获得用户同意、保护相关数据免遭滥用,并为用户提供主动管理这些数据的工具。
根据《通用数据保护条例》(GDPR) 等法规,很多公司都有法律义务遵守这些实践。然而,即使没有正式的数据隐私法,实施数据隐私措施也有诸多优点。通常,保护用户隐私的实践和工具也有助于保护数字信息免遭未经授权的访问、损坏或窃取。
数据质量
对于从各种来源获取数据的组织来说,确保数据质量应为首要任务。数据质量是指数据集能在多大程度上满足针对准确性、完整性、有效性、一致性、唯一性、及时性以及与其预期用途相关性的标准。高质量的数据可为准确、公平且有效的决策提供支持,从而符合业务目标。
数据质量控制的重要性高于日常运营。高质量的训练数据是有效采用人工智能和自动化的关键所在。然而,广为人知的 AI 格言“进来是垃圾,出去也是垃圾”的适用范围却很广泛—在任意用例中,劣质数据均会导致劣质输出。
数据兼容性
当组织从不同来源采集数据集时,它们需要在将数据加载到自身系统之前解决所有兼容性问题。数据清洗实践和标准化可确保数据遵循一致的格式和结构,从而使其更易于理解和分析。例如,街道名称通常包含方向,如“北 (North)”或“西 (West)”。标准化流程会将这些值的格式转换为“N”或“W”。
身处监管严格行业(如金融或医疗保健)中的组织可能会面临更多的数据标准规则和法规。例如,《健康保险流通和责任法案》(HIPAA) 为诊断和程序制定了标准代码集,从而为医疗保健数据创造了一种通用语言。
业务需求与成本
在采集数据之前,组织应确定其数据需求以及购置成本是否合理。除与数据清洗与标准化相关的所有成本外,企业还应考虑定价、许可费(如果适用)以及购买协议中列出的任何额外费用。
高效的数据采集还需要能处理、管理和存储数据的强大数据基础设施。组织可能需在数据存储、分析、安全和治理等方面进行投资,以帮助确保所采集的数据得到妥善存储、管理和使用。
数据采集是否等同于数据收集?
虽然常被互换使用,但数据采集和数据收集却有不同的含义。
数据收集是指直接从各种来源收集原始信息的流程,且通常由数据科学家和分析师执行此流程。相比之下,数据采集则是包括数据收集在内的一个更为宏观的术语。但是,它还涉及通过其他方法获取数据,如合作伙伴关系、许可协议、数据购买和旧版数据转换等。
机器学习中的数据采集是指什么?
72% 的成绩卓越的 CEO 们表示,获得竞争优势取决于拥有最先进的生成式 AI。然而,即便是最复杂的机器学习算法也受限于它们在其基础上进行训练的数据。高质量的数据对于 AI 系统学习、适应和提供真正的价值至关重要。
然而在实践中,获取足够的相关数据来训练 AI 模型却可能具有挑战性。隐私问题、高昂成本以及法律或监管限制,都会限制人们获取到宝贵的数据采集方法和数据集,如网络抓取或公共数据集。某些情况下,法规可能会完全禁止为 AI 用例收集特定类型的数据。
为缓和这些障碍,很多组织正在转而采用合成数据,即可模仿真实数据的人工生成的数据。合成数据是通过统计方法或先进的人工智能技术(如深度学习和生成式 AI)来创建的,而此类数据具有多种优势:定制程度更高、采集更高效、数据隐私度更出色以及数据总体丰度更优。