0%

Elasticsearch作为一个分布式的免费开源搜索和分析引擎,目前受到广泛支持,并且也具有丰富的生态

本文尝试基于Elasticsearch以及其下面的Lucene引擎在写入数据时对源码的跟踪来整理Elasticsearch相关的概念,并对压测方案以及优化方案进行简单的调研,同时提供了一些进一步学习的链接

#TODO 对比学习其他分布式OLAP数据库与Elasticsearch的异同

阅读全文 »

最近尝试对分布式数据库进行学习,才了解到目前的主流分布式事务型数据库,其底层也是基于LSM树的

于是为了探究LSM树如何实现分布式以及如何实现事务控制,开始从单机场景的LevelDB,到支持分布式结构化数据表的BigTable,再到支持分布式事务的Spanner(NewSQL),以及在Spanner基础上增加列式存储支持的TiDB(HTAP)进行一系列基本的学习和整理

阅读全文 »

在学习了Spark以及一些日志分析算法后,萌生了对一些算法在spark上进行并行化实现的想法

实际操作时发现从spark的简单示例到真实将使用for循环实现的算法在spark使用map等操作来进行代替还是需要挺多技巧的,本文尝试从elasticsearch获取日志数据,通过对日志分析算法中的AECID-PG这一基于树的日志解释器生成算法进行spark实现来计算kubernetes环境下各个pod对应日志的树解释器

其间参考了一些其他算法的spark实现进行学习,Apriori实现朴素贝叶斯算法以及之前学习GBDT时参考的FATE secureboost

阅读全文 »

希望对日志分析有个大致的了解,尝试学习了《Smart Log Data Analytics: Techniques for Advanced Security Analysis》一书,并就其中一些算法和思路进行整理,学习其中提到的 AECID 轻量级日志分析方案

书中按复杂程度依次介绍的几种日志处理工具包括:增量聚类模板生成时序分析以及基于树的日志解析器等,通过组合这些工具能够实现实时的日志异常检测,并且在此基础之上也能更好的进行日志分析的学习

阅读全文 »

云上开发,高效智能–阿里云ECS Cloudbuild开发者大赛算法挑战赛道是在天池平台进行的以阿里云弹性计算服务为背景的故障预测算法设计比赛,主要是对多个数据文件进行处理后训练模型在线预测样本是否会在2天内宕机

这次比赛也是我第一次参加天池相关比赛,事实上在算法方面也缺乏积累,过程中进行了挺多的尝试和学习,最终虽然有幸以复赛第3进入决赛,但是因为算法方面相较其他组做的就很普通,决赛就答了个第六\捂脸

在比赛记录部分整理了比赛过程中进行的主要尝试,希望能对其他同学有所帮助

https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.9.38cb5bd9ZBI54Q&postId=294919

阅读全文 »

在数据处理时希望结合Spark和Elasticsearch这两大流行的工具,设想了将大量运维数据存储在Elasticsearch中通过Spark访问处理后再返回Elasticsearch,结合Kibana进行展示,或者使用Spark Streaming在入库Elasticsearch前进行预处理两种场景

本文总结了Spark与Elasticsearch进行交互的几种模式及一些demo

#TODO

阅读全文 »

在AIOps了解到RobustPeriod这一算法框架来对时序数据进行处理论文

https://developer.aliyun.com/article/782285

囿于本人相关数学知识的积累不足,本文主要是将整体思路和公式说明进行尽可能准确的简单描述,之后也是计划与RobustPeriod的Python实现进行映证,尝试在自己的AIOps场景中进行实现#TODO

PS:本文只进行了要对算法进行理解复现的最低限度的学习,有兴趣相关研究的还是需要把论文的数学证明和主要的几篇相关文献也看一下了

阅读全文 »

在AIOps挑战赛学习了智能运维相关的内容,尝试在Service Mesh环境下模拟配置挑战赛环境

使用minikube搭建微服务网络,通过Istio进行监控,分别通过Prometheus、Fluented以及Jaeger获取服务的指标、日志和调用链信息,并汇总到Elasticsearch用作后续分析

后续发现使用全栈的Elastic解决方案能够不依赖istio实现轻松可靠的在Elasticseach中汇总指标、日志和性能追踪,于是又尝试了如下的解决方案https://www.qikqiak.com/post/k8s-monitor-use-elastic-stack-1/

除此之外,KubeSphere汇总了包括运维数据获取等的一系列解决方案,可以非常方便地安装与管理用户最常用的云原生工具

阅读全文 »

这篇文章是对在EffectiveJava一书阅读过程中的要点和一些相关资料的整理,旨在对内容进行整理和辅助快速回忆。另外,因为EffectiveJava书中本来的结构比较松散,而且是以一条条建议的形式给出,作为一个没有太多实践经验的初学者,刚开始很难抓到重点,我在文章按照个人理解对结构进行了一些微调,个人感觉会容易理解一点

#TODO

阅读全文 »