采集网页数据V6.7
采集网页数据组件可以自动批量提取网页的文本内容、链接地址、属性等信息,其中网页支持同区域和不同区域两种采集方式。
# 前置条件
已打开或获取包含目标元素的浏览器窗口。
# 组件说明
# 数据采集向导
在进行常规设置前需要指定目标元素,支持从元素库选择已获取的元素或拾取新元素,以拾取新元素为例操作步骤如下:
- 单击采集网页数据组件中的拾取新元素。
- 在网页中,拾取第一个目标元素。目标元素所在网页示例:
- 在数据采集向导对话框中,单击选取第二个目标,选择与图示元素(步骤2中拾取的元素)类型相同的元素。
选取第二个目标元素完成后,系统将自动判定该页面中相同类型的元素并高亮闪烁提示。
- 在数据采集元素定位器对话框,支持配置数据采集元素。
- 元素名称
支持自定义数据采集元素的名称。 - 所在窗口
系统根据拾取元素自动识别所在窗口,当流程内存在相同窗口时将自动归堆。更多关于元素窗口归堆的信息,请参见窗口归堆 (opens new window)。 - 修改窗口
配置窗口定位器,可对窗口属性进行设置,目标进行高亮、验证等操作。 - 重新采集
清空已采集的数据并重新开始采集操作。 - 刷新
刷新数据表中的数据。 - 新增一列
支持拾取多项相似元素,通过新增一列逐个添加目标元素。 - 截图预览
支持预览当前采集到的元素窗口的快照。
- 元素名称
更多关于数据采集元素定位器的信息,请参见数据采集元素定位器 (opens new window)。
# 常规设置
配置项 | 说明 |
---|---|
操作窗口选项 | 获取操作窗口的方式,支持指定唯一操作窗口和使用目标元素定位器查找窗口。 |
目标操作窗口 | 仅操作窗口选项为指定唯一操作窗口时需要设置。 |
数据表元素 | 待采集数据的目标元素所在区域示例。支持对采集元素进行如下操作:
|
结果暂存为 | 将采集到的数据暂存为数据表类型的变量,名称支持自定义,默认名称为数据采集增强数据表。 |
# 高级设置
配置项 | 说明 |
---|---|
激活目标窗口 | 采集网页数据为同一区域采集,默认选中激活目标窗口。 |
翻页设置 | 仅当常规设置中选中采集多页时,可以配置翻页选项。
|
采集前加载 | 执行网页数据采集前可以设置加载至某一条件,最大提升本组件的运行容错。
|
其他通用高级设置项,请参见高级设置 (opens new window)。
# 错误处理
详情请参见错误处理 (opens new window)。
# 使用示例
# 区域采集示例
在京东官网首页搜索框中输入iPhone,单击搜索后批量获取手机价格、标题、店铺名称,数据量为100条。
流程示例图
操作步骤
- 通过启动应用并获取窗口组件启动并获取京东首页窗口。
- 通过输入框中输入文本组件在搜索框中输入iPhone。
- 通过在界面元素上点击组件单击搜索图标。
- 通过采集网页数据组件批量获取手机价格、标题、店铺名称。
数据采集向导-数据表如下:
# 常见问题
使用采集网页数据组件采集到的网页数据为增强数据表类型,在后续操作中可以使用Cube函数获取表头信息。
Cube函数示例:
数据采集增强数据表.获取列索引().转换为列表()
最近更新时间: {
"value": "2023-01-13",
"effect": true
}