帮助中心
采集网页数据V6.7

采集网页数据组件可以自动批量提取网页的文本内容、链接地址、属性等信息,其中网页支持同区域和不同区域两种采集方式。

# 前置条件

已打开或获取包含目标元素的浏览器窗口。

# 组件说明

# 数据采集向导



在进行常规设置前需要指定目标元素,支持从元素库选择已获取的元素或拾取新元素,以拾取新元素为例操作步骤如下:

  1. 单击采集网页数据组件中的拾取新元素
  2. 在网页中,拾取第一个目标元素。目标元素所在网页示例:

  3. 数据采集向导对话框中,单击选取第二个目标,选择与图示元素(步骤2中拾取的元素)类型相同的元素。

选取第二个目标元素完成后,系统将自动判定该页面中相同类型的元素并高亮闪烁提示。

  1. 数据采集元素定位器对话框,支持配置数据采集元素。

    • 元素名称
      支持自定义数据采集元素的名称。
    • 所在窗口
      系统根据拾取元素自动识别所在窗口,当流程内存在相同窗口时将自动归堆。更多关于元素窗口归堆的信息,请参见窗口归堆 (opens new window)

    • 修改窗口
      配置窗口定位器,可对窗口属性进行设置,目标进行高亮、验证等操作。

    • 重新采集
      清空已采集的数据并重新开始采集操作。
    • 刷新
      刷新数据表中的数据。
    • 新增一列
      支持拾取多项相似元素,通过新增一列逐个添加目标元素。
    • 截图预览
      支持预览当前采集到的元素窗口的快照。

更多关于数据采集元素定位器的信息,请参见数据采集元素定位器 (opens new window)

# 常规设置



配置项 说明
操作窗口选项 获取操作窗口的方式,支持指定唯一操作窗口使用目标元素定位器查找窗口
目标操作窗口 仅操作窗口选项为指定唯一操作窗口时需要设置。
数据表元素 待采集数据的目标元素所在区域示例。支持对采集元素进行如下操作:
  • 从元素库重新选择:清空已采集的数据并重新在元素库中选择。
  • 编辑定位器:对当前已采集到的元素进一步编辑。更多关于数据采集元素定位器的设置,请参见数据采集元素定位器 (opens new window)
  • 采集多页:当选中时,请添加翻页元素,并设置允许采集的最大数量。
结果暂存为 将采集到的数据暂存为数据表类型的变量,名称支持自定义,默认名称为数据采集增强数据表

# 高级设置



配置项 说明
激活目标窗口 采集网页数据为同一区域采集,默认选中激活目标窗口。
翻页设置 仅当常规设置中选中采集多页时,可以配置翻页选项。
采集前加载 执行网页数据采集前可以设置加载至某一条件,最大提升本组件的运行容错。
  • 无:无需前置处理,直接运行本组件。
  • 至特定元素:下拉指定次数,直至检测到特定元素,触发本组件运行。
  • 特定次数:下拉指定次数,触发本组件运行。指定下拉次数请根据网页实际显示情况设置。

其他通用高级设置项,请参见高级设置 (opens new window)

# 错误处理

详情请参见错误处理 (opens new window)

# 使用示例

# 区域采集示例

在京东官网首页搜索框中输入iPhone,单击搜索后批量获取手机价格、标题、店铺名称,数据量为100条。

流程示例图

操作步骤

  1. 通过启动应用并获取窗口组件启动并获取京东首页窗口。
  2. 通过输入框中输入文本组件在搜索框中输入iPhone。
  3. 通过在界面元素上点击组件单击搜索图标。
  4. 通过采集网页数据组件批量获取手机价格、标题、店铺名称。 数据采集向导-数据表如下:

# 常见问题

使用采集网页数据组件采集到的网页数据为增强数据表类型,在后续操作中可以使用Cube函数获取表头信息。 Cube函数示例: 数据采集增强数据表.获取列索引().转换为列表()

最近更新时间: { "value": "2023-01-13", "effect": true }