写在前面

记录第二份实习收获到的技术,工具以及开发经验等

项目

EasyData(ETL同步工具)

文件扫描工具支持:本地扫描、FTP扫描和SFTP扫描三种扫描方式。通过配置可以定时启动扫描。

SQL LOAD

https://blog.csdn.net/Lqq77s/article/details/89403199

img

具体流程

  1. 文件扫描工具先扫描文件到数据库里进行记录
  2. 数据分析工具通过待完成标识和任务标识去定时处理这些任务
  3. 对于每个新加入的任务,需要在数据库先进行配置任务,任务所需要执行的类,这个类是可以动态扩展的
  4. 需要在代码写入的其实就是一个包含新的处理逻辑的类,这个类去实现指定好的接口后,自定义实现处理逻辑,比如我实现的就是从excel表中读取每行数据交给计划任务(当然不止可以从excel表里读数据,还可以从数据库里从ftp文件,csv文件里读取)
  5. 交给计划任务之后,任务会执行sqlload的操作,去批量操作数据库提高效率

全量同步原理

全量同步只是从数据源S1读取数据,进行一些基本处理后,便将数据导入目的库

增量同步原理

大文件分区分片的过程中,都是按行读取文件,读取一定数量进入内存中然后写入小文件,重复这个过程,直到大文件处理完成,这整个流程使得能够处理大文件,同时避免内存溢出。

多路归并原理

一个分区中的每个分片内部的数据都是有序的,但分片之间并不是有序的。在一次求差异过程中,每个分片,都只取前m条数据,如果S1一个分区中有n个分片,则一共取s=n*m条数据;将这s条数据进行从小到大排序;那么,这s条数据中的前m条数据,就是这整个分区的最小的m条数据。

封装EasyExcel

概述

通过策略模式封装 EasyExcel 实现导入功能,加入心跳检测提升导入的准确性,优化资源利用


封装了一个名为ExcelImportThread的类,该类实现了Runnable接口,意味着它可以作为一个线程运行。这个类主要用于处理Excel文件的导入流程,包括解析Excel文件、数据适配、数据保存到数据库等步骤,并且具备一些额外的功能,如心跳检测和文件清理。

GIS三维引擎开发平台

https://blog.csdn.net/qq_35582643/article/details/137396004

操作geoserver:

https://blog.csdn.net/nolesstime/article/details/120920856

https://blog.csdn.net/qq_31832209/article/details/111561350

  1. 在发布shapefile时候创建数据源前面要加“file://”。
  2. layer图层的名称一定要与shp文件的名称一样。
  3. 如果需要用到压缩文件,压缩文件只能为zip格式,不能是rar格式否则会报错,而且压缩文件的路径是全路径。

Nginx通用模板

一个通用nginx模板, 包含epoll,获取用户真实ip,压缩,缓存,https,http重定向https,限流,防ddos攻击,反向代理,负载均衡,服务高并发保护等配置 还有生成ssl证书的脚本,可以完美解决证书调用链缺失问题和自签证书报x509问题

技术

XXL-Job

定时任务采集数据,完成大屏指标配置

ES

数据检索

工具使用

小乌龟svn:

https://blog.csdn.net/weixin_52799373/article/details/127536617

小乌龟git

Flyway

本站链接