博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
日志服务数据加工最佳实践: 从其他logstore拉取数据做富化
阅读量:2401 次
发布时间:2019-05-10

本文共 4162 字,大约阅读时间需要 13 分钟。

概述

使用做富化时, 需要传递一个字典或者做富化. 参考的各种途径比较. 

本篇介绍从使用资源函数res_log_logstore_pull从其他logstore拉取数据的做富化的详细实践.关于res_log_logstore_pull的参数说明, 参考. 该语法目前支持两种模式去logstore拉取数据,一种是拉取指定时间间隔内的logstore 的数据内容,另外一种是不设置结束时间,持续的拉取目标logstore内容

背景

这里我们有两个logstore,一个是存储个人信息的source_logstore,一个是酒店存储客人入住信息的target_logstore ,我们现在将酒店的入住信息拿来做富化。

注意: 这里采用pull_log接口拉取数据, 富化的logstore并不依赖索引.

个人信息 source_logstore

topic:xxxcity:xxxcid:12345name:maki    topic:xxxcity:xxxcid:12346name:vicky    topic:xxxcity:xxxcid:12347name:mary

酒店入住信息logstore

time:1567038284status:check incid:12345name:makiroom_number:1111time:1567038284status:check incid:12346name:vickyroom_number:2222time:1567038500status:check incid:12347name:maryroom_number:3333time:1567038500status:leavecid:12345name:makiroom_number:1111

基本语法

res_log_logstore_pull(        endpoint,        ak_id,        ak_secret,        project,        logstore,        fields,        from_time=None,        to_time=None,        fetch_include_data=None,        fetch_exclude_data=None,        primary_keys=None,        delete_data=None,        refresh_interval_max=60,        fetch_interval=2):

具体的参数说明请参考,需要注意的地方是,res_log_logstore_pull 是一个单独的语法,只负责从目标logstore 拉取数据下来,本身自己并没有做任何富化的操作,所以请不要单独使用res_log_logstore_pull语法,结合e_table_map和e_search_table_map语句一起使用才是有意义的,本篇也会结合e_table_map和e_search_map_table的使用给出一些例子进行演示。

场景1: 获取指定时间内所有的数据

注意: 这里的时间是日志获取时间.

DSL编排语法

res_log_logstore_pull(..., ["cid","name","room_number"],from_time=1567038284,to_time=1567038500)

获取到的数据

#这里我们的语法中 field 填入了 cid,name,room_number 三个字段,,并且指定了时间范围,将会获取这个时间范围内的logstore的所有数据的这三个字段的值cid:12345name:makiroom_number:1111cid:12346name:vickyroom_number:2222cid:12347name:maryroom_number:3333cid:12345name:makiroom_number:1111

场景2: 设置黑白名单参数来过滤拉取的数据

1.DSL 编排语法(只设置白名单)

# 设置白名单,只有 room_number 值等于 1111的的数据会被拉去下来res_log_logstore_pull(..., ["cid","name","room_number","status"],from_time=1567038284,to_time=1567038500,fetch_include_data="room_number:1111")

获取到的数据

# 设置了 ferch_include_data 白名单,只有包含 room_numver:1111的数据会被拉去下来,其他数据不会被拉取。status: check incid:12345name:makiroom_number:1111status:leavecid:12345name:makiroom_number:1111

2.DSL 编排语法(只设置黑名单)

res_log_logstore_pull(..., ["cid","name","room_number","status"],from_time=1567038284,to_time=1567038500,fetch_exclude_data="room_number:1111")

获取到的数据

# 设置黑名单 fetch_exclude_data 当数据包含 room_number:1111的时候丢弃这条数据。status:check incid:12346name:vickyroom_number:2222status:check incid:12347name:maryroom_number:3333

3.DSL编排语法(同时设置黑白名单)

res_log_logstore_pull(..., ["cid","name","room_number","status"],from_time=1567038284,to_time=1567038500,fetch_exclude_data="status:leave",fetch_include_data="status:check in")

获取到的数据

# 黑白名单同时存在的情况下,优先进行黑名单数据的匹配,这里我们填入的是 status:leave的值,当数据包含status:leave的值时候,数据会被直接丢弃,而后匹配白名单,白名单我们填入的是 status:check in 当数据包含 status: check in 的值时候,该数据才会被拉取下来.status:check incid:12345name:makiroom_number:1111status:check incid:12346name:vickyroom_number:2222status:check incid:12347name:maryroom_number:3333

场景3: 开通持续拉取目标logstore 数据

DSL编排语法

如果目标logstore 的数据是持续写入,我们需要持续的去拉取时候,设置 to_time 参数为None 就可以,同时可以设置fetch_interval 设置拉取的时间间隔,和refresh_interval_max 当拉取遇到错误的时候退火重试的最大时间间隔

res_log_logstore_pull(..., ["cid","name","room_number","status"],from_time=1567038284,to_time=None,fetch_interval=15,refresh_interval_max=60)# 需要注意的是,在持续拉取的过程中,如果遇到错误,服务器会一直退火重试,直到成功为止,不会停止数据加工进程。

场景4: 开启主键维护拉取的目标logstore数据(暂时不推荐)

注意事项

目前该功能仅限使用所有数据存储在logstore的同一个shard中,所以暂时不推荐使用该功能。

背景

以我们的个人信息logstore 和 酒店信息logstore的数据进行举例,因为logstore和数据库不同,logstore中的数据只能写入,无法删除,所以有的时候我们希望匹配的时候将已经删除的数据不要进行匹配,这时候就需要开启主键维护功能。

需求演示

现在我们想拉取酒店信息logstore中,所有入住还没有离开的客人信息,当status=leave的时候,表示客人已经离开酒店,所以不需要将该信息进行拉取。

DSL编排语法

res_log_logstore_pull(..., ["cid","name","room_number","status","time"],from_time=1567038284,to_time=None,primary_keys="cid",delete_data="status:leave")

得到的数据

## 可以看到 name为maki 的客人的最后更新status为leave ,已经离开酒店,所以并没有将 maki的数据拉取下来,time:1567038284status:check incid:12346name:vickyroom_number:2222time:1567038500status:check incid:12347name:maryroom_number:3333

注意

需要注意的是 primary_keys 目前只支持设置单字符串,这个需要设置logstore数据中 值为唯一的字段,比如样例中的cid , 类似数据库的唯一主键,并且当设置primary_keys的时候,delete_data 也必须不为 None,这样才有意义。

本文为云栖社区原创内容,未经允许不得转载。

转载于:https://my.oschina.net/u/1464083/blog/3101163

你可能感兴趣的文章
安装配置篇--apache+resin(转)
查看>>
一个开放源码的高级NIDS系统(转)
查看>>
Tomcat5.x中的虚拟主机配置方法(转)
查看>>
AllowOverride以及Options相关指令(转)
查看>>
Tomcat 的过滤诀窍(转)
查看>>
Linux必学60个命令文件处理(转)
查看>>
在Linux下配置TCP/IP(转)
查看>>
深入理解硬盘的 Linux 分区(转)
查看>>
Linux 2.4中netfilter框架实现(转)
查看>>
第一次备份与紧急系统恢复(转)
查看>>
安装、完善slackware的全部过程(转)
查看>>
Windows+Apache+resin配置(转)
查看>>
proxy 相关问题集(转)
查看>>
Linux下NFS网络文件系统设定及管理(转)
查看>>
ORACLE常用傻瓜问题1000问(之十二)(转)
查看>>
已经装了最新的binutils,为什么grub还是不能用(转)
查看>>
网络管理员指南 -10.网络信息系统 -1>熟悉NIS(转)
查看>>
巧用打印口制作笔记本密码破解器(转)
查看>>
Oracle 8 的函数介绍(转)
查看>>
CVSClient/Server连接设置(转)
查看>>