帮助中心
采集网页数据

采集网页数据组件可以自动批量提取网页、小程序中的文本内容、链接地址、属性等信息,其中网页支持同区域和不同区域两种采集方式。

# 前置条件

已打开或获取包含目标元素的浏览器窗口、小程序窗口。

# 组件说明

CubeRPA 7.4及以上版本支持Edge浏览器页面自动化。

# 数据采集向导


在进行常规设置前需要指定目标元素,操作步骤如下:

  1. 单击采集网页数据组件中的指定目标元素

  2. 数据采集向导对话框中单击选取目标

  3. 根据向导提示在目标网页中选择类型相同元素的第一个与第二个目标。

  4. 数据采集向导-数据表对话框中,可以查看步骤3获取的数据,并进行窗口配置、采集区域配置、采集目标配置、采集信息去重、高级设置、清空并从头开始、添加下一列数据的操作,详情如下:

    • 刷新
      刷新数据表中的数据。
    • 窗口配置
      配置窗口定位器,可对窗口属性进行设置,目标进行高亮、验证等操作。

    • 采集区域配置
      配置采集区域,可对采集区域属性进行设置,目标进行高亮、验证等操作。采集区域配置仅在区域采集中可见,在跨域采集中不可见。

    • 采集目标配置
      配置采集目标的节点及属性。

    • 采集信息去重
      该功能针对单列数据,在已设置行数与翻页按钮的数据采集中,如果翻页前与翻页后出现数据相同的情况就会造成重复采集,可通过该功能处理重复采集现象。已采集的数据不受影响,采集单页中的数据时信息去重功能不生效。

    • 清空并从头开始
      清空已采集的数据并重新开始采集操作。
    • 添加下一列数据
    • 高级设置

配置项 说明
最大结果数量/行数 可以采集的最大数据量,默认值为全部,也可以自定义。
采集前先下拉加载 设置是否在采集前下拉加载页面,支持不下拉加载先下拉加载特定次数下拉加载至特定元素三种方式。
选择目标元素 选择下拉加载到的特定元素。仅采集前先下拉加载下拉记载至特定元素时需要设置。
拾取新元素 重新选择下拉加载到的特定元素。
最多下拉次数 在每个网页中设置的最多下拉次数。
下拉间隔时间 每次下拉的时间间隔。
翻页模式 在采集过程中是否自动翻页,支持不翻页点击下一页按钮翻页两种方式。
目标元素 下一页按钮元素。
重新选择 重新选择下一页按钮元素。
目标元素配置 配置目标元素,详情请参见定位器 (opens new window)动作验证 (opens new window)
点击模式 设置点击方式,支持模拟输入模拟硬件
后置延时(毫秒) 设置等待加载的时间,可自定义,默认值为1000毫秒。

# 常规设置



配置项 说明
操作窗口选项 获取操作窗口的方式,支持指定唯一操作窗口使用目标元素定位器查找窗口
目标操作窗口 仅操作窗口选项为指定唯一操作窗口时需要设置。
目标区域 要采集数据的目标元素所在区域。
结果暂存为 将采集到的数据暂存为数据表类型的变量,名称可自定义,默认名称为网页数据采集的结果
采集数据预览 预览采集到的数据并进行设置,详情请参见前文数据采集向导。

# 高级设置

采集网页数据支持跨区域采集功能,即可以将不同列表中的内容采集到一个数据表中,默认采集模式为区域采集。

# 区域采集

区域采集可采集单层分叉中的元素或者是多层分叉中相同位置的元素。在采集数据时,通过二次采样的结果比对,将共同部分保留在采集区域配置中,分叉信息在下方预览中展示:



区域 说明
采集区域配置
数据预览处结构信息

# 跨域采集

区域采集只能支持一层单分叉的Web结构,采集场景受限,跨域采集在区域采集的基础上,支持多分叉节点交叉的采集场景,以下以采集携程某酒店客房信息 (opens new window)为例为您介绍跨域采集。 如下图所示,当采集不同房型中的价格时,信息交叉于不同的div中,采集时需要跨不同div来实现。为了突破区域的限制,结合相似元素实现了跨域采集功能。

在采集目标配置中,分叉节点用“—”标识,Index值为*,表示循环采集相似节点信息,默认支持2层分叉,可按实际情况调整。

为了降低使用成本,其它功能与区域采集相同,但是采集场景与效率得到成倍提升。

其他配置项详情请参见高级设置 (opens new window)

# 错误处理

详情请参见错误处理 (opens new window)

# 使用示例

# 区域采集示例

在京东官网首页搜索框中输入iPhone,单击搜索后批量获取手机价格、标题、店铺名称,数据量为100条。

流程示例图

操作步骤

  1. 通过启动应用并获取窗口组件启动并获取京东首页窗口。
  2. 通过输入框中输入文本组件在搜索框中输入iPhone。
  3. 通过在界面元素上点击组件单击搜索图标。
  4. 通过采集网页数据组件批量获取手机价格、标题、店铺名称。 数据采集向导-数据表如下:

    数据采集向导-数据表高级设置如下:

说明:指定下拉次数请根据网页实际显示情况设置。

# 跨域采集示例

携程酒店某客房信息 (opens new window)页面中,采集以下所有客房信息与价格到同一个数据表中。

流程示例图

操作步骤

  1. 通过启动应用并获取窗口组件启动并获取携程酒店某客房信息窗口。
  2. 通过采集网页数据组件获取不同区域的数据,将高级设置中的采集模式设置为跨域采集,如不设置,采集时会提示以下错误:

    采集数据预览如下所示:

最近更新时间: { "value": "2023-09-11", "effect": true }