凯通科技实习收获
写在前面
记录第二份实习收获到的技术,工具以及开发经验等
项目
EasyData(ETL同步工具)
文件扫描工具支持:本地扫描、FTP扫描和SFTP扫描三种扫描方式。通过配置可以定时启动扫描。
SQL LOAD
https://blog.csdn.net/Lqq77s/article/details/89403199
具体流程
- 文件扫描工具先扫描文件到数据库里进行记录
- 数据分析工具通过待完成标识和任务标识去定时处理这些任务
- 对于每个新加入的任务,需要在数据库先进行配置任务,任务所需要执行的类,这个类是可以动态扩展的
- 需要在代码写入的其实就是一个包含新的处理逻辑的类,这个类去实现指定好的接口后,自定义实现处理逻辑,比如我实现的就是从excel表中读取每行数据交给计划任务(当然不止可以从excel表里读数据,还可以从数据库里从ftp文件,csv文件里读取)
- 交给计划任务之后,任务会执行sqlload的操作,去批量操作数据库提高效率
全量同步原理
全量同步只是从数据源S1读取数据,进行一些基本处理后,便将数据导入目的库
增量同步原理
大文件分区分片的过程中,都是按行读取文件,读取一定数量进入内存中然后写入小文件,重复这个过程,直到大文件处理完成,这整个流程使得能够处理大文件,同时避免内存溢出。
多路归并原理
一个分区中的每个分片内部的数据都是有序的,但分片之间并不是有序的。在一次求差异过程中,每个分片,都只取前m条数据,如果S1一个分区中有n个分片,则一共取s=n*m条数据;将这s条数据进行从小到大排序;那么,这s条数据中的前m条数据,就是这整个分区的最小的m条数据。
封装EasyExcel
概述
通过策略模式封装 EasyExcel 实现导入功能,加入心跳检测提升导入的准确性,优化资源利用
封装了一个名为ExcelImportThread
的类,该类实现了Runnable
接口,意味着它可以作为一个线程运行。这个类主要用于处理Excel文件的导入流程,包括解析Excel文件、数据适配、数据保存到数据库等步骤,并且具备一些额外的功能,如心跳检测和文件清理。
GIS三维引擎开发平台
https://blog.csdn.net/qq_35582643/article/details/137396004
操作geoserver:
https://blog.csdn.net/nolesstime/article/details/120920856
https://blog.csdn.net/qq_31832209/article/details/111561350
- 在发布shapefile时候创建数据源前面要加“file://”。
- layer图层的名称一定要与shp文件的名称一样。
- 如果需要用到压缩文件,压缩文件只能为zip格式,不能是rar格式否则会报错,而且压缩文件的路径是全路径。
Nginx通用模板
一个通用nginx模板, 包含epoll,获取用户真实ip,压缩,缓存,https,http重定向https,限流,防ddos攻击,反向代理,负载均衡,服务高并发保护等配置 还有生成ssl证书的脚本,可以完美解决证书调用链缺失问题和自签证书报x509问题
技术
XXL-Job
定时任务采集数据,完成大屏指标配置
ES
数据检索
工具使用
小乌龟svn:
https://blog.csdn.net/weixin_52799373/article/details/127536617