Merge branch 'master' of gitee.com:Eyestorm/notes

This commit is contained in:
estomm
2022-01-17 10:23:42 +08:00
3 changed files with 416 additions and 0 deletions

View File

@@ -327,3 +327,378 @@ $ rsync -av --include="*.txt" --exclude='*' source/ destination
上面命令指定同步时,排除所有文件,但是会包括 `TXT` 文件。
# 网络教程
[教程地址](https://zhuanlan.zhihu.com/p/49577967)
## 1简介
### 1.1 认识
Rsyncremote synchronize是一个远程数据同步工具可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远 程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快;
Rsync支持大多数的类Unix系统无论是Linux、Solaris还是BSD上都经过了良好的测试
此外它在windows平台下也有相应的版本如cwRsync和Sync2NAS等工具
### 1.2 原理
Rsync本来是用于替代rcp的一个工具目前由http://rsync.samba.org维护所以rsync.conf文件的格式类似于samba的主配 置文件;
Rsync可以通过rsh或ssh使用也能以daemon模式去运行
在以daemon方式运行时Rsync server会打开一个873 端口,等待客户端去连接。
连接时Rsync server会检查口令是否相符若通过口令查核则可以开始进行文件传输。第一次连通完成时会把整份文件传输一次以后则就只需进行增量备份。
### 1.3 特点
* 可以镜像保存整个目录树和文件系统;
* 可以很容易做到保持原来文件的权限、时间、软硬链接等;
* 无须特殊权限即可安装;
* 优化的流程,文件传输效率高;
* 可以使用rsh、ssh等方式来传输文件当然也可以通过直接的socket连接
* 支持匿名传输
## 2 ssh模式
### 2.1 本地间同步
环境: 172.16.22.12
```
# mkdir src
# touch src/{1,2,3,4}
# mkdir dest
# rsync -av src/ dest/ --将 src 目录里的所有的文件同步至 dest 目录不包含src本身
# rsync -av src dest/ --将 src 目录包括自己整个同步至 dest 目录
# rsync -avR src/ dest/ --即使 src 后面接有 / ,效果同上
```
### 2.2、局域网间同步
环境: 172.16.22.11
```
# mkdir src
# touch src/{a,b,c,d}
# mkdir dest
# rsync -av 172.16.22.12:/data/test/src/ dest/ --远程同步至本地需输入root密码
# rsync -av src/ 172.16.22.12:/data/test/dest/ --本地文件同步至远程
# rsync -av src 172.16.22.12:/data/test/dest/ --整个目录同步过去
# rm -rf src/d --删除一个文件 d
# rsync -av --delete src/ 172.16.22.12:/data/test/dest/ --delete从目标目录里面删除无关的文件
```
### 2.3、局域网指定用户同步
—172.16.22.12
```
# useradd george
# passwd george
# mkdir /home/george/test
# touch /home/george/test/g{1,2,3,4}
```
—172.16.22.11
```
# rsync -av src '-e ssh -l george' 172.16.22.12:/home/george --本地同步至远程
# rsync -av 172.16.22.12:/home/george/test/g* '-e ssh -l george -p 22' dest/
```
## 3 daemon模式
环境192.168.22.11
### 3.1、服务启动方式
1. 对于负荷较重的 rsync 服务器应该使用独立运行方式
```
# yum install rsync xinetd --服务安装
# /usr/bin/rsync --daemon
```
2. 对于负荷较轻的 rsync 服务器可以使用 xinetd 运行方式
```
# yum install rsync xinetd --服务安装
# vim /etc/xinetd.d/rsync --配置托管服务,将下项改为 no
disable = no
# /etc/init.d/xinetd start --启动托管服务 xinetd
# chkconfig rsync on
# netstat -ntpl | grep 873 --查看服务是否启动
```
### 3.2、配置详解
两种 rsync 服务运行方式都需要配置 rsyncd.conf其格式类似于 samba 的主配置文件
**全局参数**
* 在全局参数部分也可以定义模块参数,这时该参数的值就是所有模块的默认值
* address —在独立运行时,用于指定的服务器运行的 IP 地址;由 xinetd 运行时将忽略此参数,使用命令行上的 address 选项替代。默认本地所有IP
* port —指定 rsync 守护进程监听的端口号。 由 xinetd 运行时将忽略此参数,使用命令行上的 port 选项替代。默认 873
* motd file —指定一个消息文件,当客户连接服务器时该文件的内容显示给客户
* pid file —rsync 的守护进程将其 PID 写入指定的文件
* log file —指定 rsync 守护进程的日志文件,而不将日志发送给 syslog
* syslog facility —指定 rsync 发送日志消息给 syslog 时的消息级别
* socket options —指定自定义 TCP 选项
* lockfile —指定rsync的锁文件存放路径
* timeout = 600 —超时时间
**模块参数**
模块参数主要用于定义 rsync 服务器哪个目录要被同步。模块声明的格式必须为 [module] 形式,这个名字就是在 rsync 客户端看到的名字,类似于 Samba 服务器提供的共享名。而服务器真正同步的数据是通过 path 来指定的
**基本模块参数**
* path —指定当前模块在 rsync 服务器上的同步路径,该参数是必须指定的
* comment —给模块指定一个描述,该描述连同模块名在客户连接得到模块列表时显示给客户
**模块控制参数**
* use chroot = —默认为 true在传输文件之前首先 chroot 到 path 参数所指定的目录下;优点,安全;缺点,需要 root 权限,不能备份指向 path 外部的符号连接所指向的目录文件
* uid = —指定该模块以指定的 UID 传输文件默认nobody
* gid = —指定该模块以指定的 GID 传输文件默认nobody
* max connections —最大并发连接数0为不限制
* lock file —指定支持 max connections 参数的锁文件。默认 /var/run/rsyncd.lock
* list —指定当客户请求列出可以使用的模块列表时,该模块是否应该被列出。默认为 true显示
* read only = —只读选择也就是说不让客户端上传文件到服务器上。默认true
* write only = —只写选择也就是说不让客户端从服务器上下载文件。默认false
* ignore errors —忽略IO错误。默认true
* ignore nonreadable —指定 rysnc服务器完全忽略那些用户没有访问权限的文件。这对于在需要备份的目录中有些不应该被备份者获得的文件时是有意义的。 false
* timeout = —该选项可以覆盖客户指定的 IP 超时时间。从而确保 rsync 服务器不会永远等待一个崩溃的客户端。对于匿名 rsync 服务器来说,理想的数字是 600单位为秒。 0 (未限制)
* dont compress —用来指定那些在传输之前不进行压缩处理的文件。该选项可以定义一些不允许客户对该模块使用的命令选项列表。必须使用选项全名而不能是简称。当发生拒绝某个选项的情况时服务器将报告错误信息然后退出。例如要防止使用压缩应该是”dont compress = ”。 .gz .tgz .zip .z .rpm .deb .iso .bz2 .tbz
**模块文件筛选参数**
* exclude —指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 exclude 列表中。这等同于在客户端命令中使用 exclude 来指定模式
* exclude from —指定一个包含 exclude 规则定义的文件名,服务器从该文件中读取 exclude 列表定义
* include —指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 include 列表中。这等同于在客户端命令中使用 include 来指定模式
* include from —指定一个包含 include 规则定义的文件名,服务器从该文件中读取 include 列表定义
**模块用户认证参数**
* auth users —指定由空格或逗号分隔的用户名列表,只有这些用户才允许连接该模块(和系统用户没有任何关系)。用户名和口令以明文方式存放在 secrets file 参数指定的文件中。默认为匿名方式
* secrets file —指定一个 rsync 认证口令文件。只有在 auth users 被定义时,该文件才起作用。文件权限必须是 600
* strict modes —指定是否监测口令文件的权限。为 true 则口令文件只能被 rsync 服务器运行身份的用户访问其他任何用户不可以访问该文件。默认为true
**模块访问控制参数**
* hosts allow —用一个主机列表指定哪些主机客户允许连接该模块。不匹配主机列表的主机将被拒绝。默认值为 *
* hosts deny —用一个主机列表指定哪些主机客户不允许连接该模块
**模块日志参数**
* transfer logging —使 rsync 服务器将传输操作记录到传输日志文件。默认值为false
* log format —指定传输日志文件的字段。默认为:”%o %h [%a] %m (%u) %f %l”
* 设置了”log file”参数时在日志每行的开始会添加”%t [%p]“;
* 可以使用的日志格式定义符如下所示:
```
%o —操作类型”send” 或 “recv”
%h —远程主机名
%a —远程IP地址
%m —模块名
%u —证的用户名(匿名时是 null
%f —文件名
%l —文件长度字符数
%p —该次 rsync 会话的 PID
%P —模块路径
%t —当前时间
%b —实际传输的字节数
%c —当发送文件时,记录该文件的校验码
```
### 3.3、服务端配置
* 编辑配置文件
```
# vim /etc/rsyncd.conf --为 rsyncd 服务编辑配置文件,默认没有,需自己编辑
```
* 配置文件说明
```
uid = root —rsync运行权限为root
gid = root —rsync运行权限为root
use chroot = no —是否让进程离开工作目录
max connections = 5 —最大并发连接数0为不限制
timeout = 600 —超时时间
pid file = /var/run/rsyncd.pid —指定rsync的pid存放路径
lockfile = /var/run/rsyncd.lock —指定rsync的锁文件存放路径
log file = /var/log/rsyncd.log —指定rsync的日志存放路径
[web1] —模块名称
path = /data/test/src —该模块存放文件的基础路径
ignore errors = yes —忽略一些无关的I/O错误
read only = no —客户端可以上传
write only = no —客户端可以下载
hosts allow = 192.168.22.12 —允许连接的客户端主机ip
hosts deny = —黑名单,表示任何主机
list = yes
auth users = web —认证此模块的用户名
secrets file = /etc/web.passwd —指定存放“用户名:密码”格式的文件
```
* 构建备份目录
```
# mkdir /data/test/src --创建基础目录
# mkdir /data/test/src/george --再创建一个目录
# touch /data/test/src/{1,2,3}
# echo "web:123" > /etc/web.passwd --创建密码文件
# chmod 600 /etc/web.passwd
# service xinetd restart
```
## 4 测试
### 4.1、客户端
环境192.168.22.12
```
# yum -y install rsync
# mkdir /data/test
```
### 4.2、小试参数
```
# rsync -avzP web@192.168.22.11::web1 /data/test/ --输入密码 123
```
将服务器 web1 模块里的文件同步至 /data/test参数说明
```
-a —参数,相当于-rlptgoD
-r —是递归
-l —是链接文件,意思是拷贝链接文件
-i —列出 rsync 服务器中的文件
-p —表示保持文件原有权限
-t —保持文件原有时间
-g —保持文件原有用户组
-o —保持文件原有属主
-D —相当于块设备文件
-z —传输时压缩
-P —传输进度
-v —传输时的进度等信息,和-P有点关系
```
```
# rsync -avzP --delete web@192.168.22.11::web1 /data/test/ --让客户端与服务器保持完全一致, --delete
# rsync -avzP --delete /data/test/ web@192.168.22.11::web1 --上传客户端文件至服务端
# rsync -avzP --delete /data/test/ web@192.168.22.11::web1/george --上传客户端文件至服务端的 george 目录
# rsync -ir --password-file=/tmp/rsync.password web@192.168.22.11::web1 --递归列出服务端 web1 模块的文件
# rsync -avzP --exclude="*3*" --password-file=/tmp/rsync.password web@192.168.22.11::web1 /data/test/ --同步除了路径以及文件名中包含 “3” *的所有文件
```
### 4.3、通过密码文件同步
```
# echo "123"> /tmp/rsync.password
# chmod 600 /tmp/rsync.password
# rsync -avzP --delete --password-file=/tmp/rsync.password web@192.168.22.11::web1 /data/test/ --调用密码文件
```
### 4.4、客户端自动同步
```
# crontab -e
10 0 * rsync -avzP —delete —password-file=/tmp/rsync.password web@192.168.22.11::web1 /data/test/
# crontab -l
```
## 5 数据实时同步
环境Rsync + Inotify-tools
### 5.1、inotify-tools
* 是为linux下 inotify文件监控工具提供的一套c的开发接口库函数同时还提供了一系列的命令行工具这些工具可以用来监控文件系统的事件
* inotify-tools是用c编写的除了要求内核支持 inotify 外,不依赖于其他
* inotify-tools提供两种工具一是inotifywait它是用来监控文件或目录的变化二是inotifywatch它是用来统计文件系统访问的次数
### 5.2、安装inotify-tools
下载地址http://github.com/downloads/rvoicilas/inotify-tools/inotify-tools-3.14.tar.gz
```
# yum install y gcc --安装依赖
# mkdir /usr/local/inotify
# tar -xf inotify-tools-3.14.tar.gz
# cd inotify-tools-3.14
# ./configure --prefix=/usr/local/inotify/
# make && make install
```
### 3、设置环境变量
```
# vim /root/.bash_profile
export PATH=/usr/local/inotify/bin/:$PATH
# source /root/.bash_profile
# echo '/usr/local/inotify/lib' >> /etc/ld.so.conf --加载库文件
# ldconfig
# ln -s /usr/local/inotify/include /usr/include/inotify
```
### 5.4、常用参数
```
-m —始终保持监听状态,默认触发事件即退出
-r —递归查询目录
-q —打印出监控事件
-e —定义监控的事件,可用参数:
access —访问文件
modify —修改文件
attrib —属性变更
open —打开文件
delete —删除文件
create —新建文件
move —文件移动
—fromfile —从文件读取需要监视的文件或者排除的文件,一个文件一行,排除的文件以@开头
—timefmt —时间格式
—format —输出格式
—exclude —正则匹配需要排除的文件,大小写敏感
—excludei —正则匹配需要排除的文件,忽略大小写
%y%m%d %H%M —年月日时钟
%T%w%f%e —时间路径文件名状态
```
### 5.5、测试一
检测源目录中是否有如下动作modify,create,move,delete,attrib
一旦发生则发布至目标机器;
方式为 ssh
```
src: 192.168.22.11(Rsync + Inotify-tools) dest: 192.168.22.12
```
两台机器需要做好 ssh 免密登录
```
# mdkir /data/test/dest/ --dest机器
# mdkir /data/test/src/ --src机器
# rsync -av --delete /data/test/src/ 192.168.22.12:/data/test/dest --测试下命令
# vim /data/test/test.sh
#!/bin/bash
/usr/local/inotify/bin/inotifywait -mrq -e modify,create,move,delete,attrib /data/test/src | while read events
do
rsync -a --delete /data/test/src/ 192.168.22.12:/data/test/dest
echo "`date +'%F %T'` 出现事件:$events" >> /tmp/rsync.log 2>&1
done
# chmod 755 /data/test/test.sh
# /data/test/test.sh &
# echo '/data/test/test.sh &' >> /etc/rc.local --设置开机自启
```
我们可以在目标机上也写一个这样的脚本: rsync -a —delete /data/test/dest/ 192.168.22.11:/data/test/src
这样可以实现双向同步。

View File

@@ -8,6 +8,29 @@
不通过作业调度管理系统直接在计算节点上运行将会被杀掉。
常用术语
* user用户名
* node计算节点
* corecpu核
* job作业
* job step作业步单个作业可以有多个作业步
* partition分区作业需在特定分区中运行
* QOS服务质量可理解为用户可使用的CPU、内存等资源限制
* tasks任务数默认一个任务使用一个cpu核可理解为作业所需的cpu核数
* socketcpu插槽可理解为物理cpu颗数
* stdout标准输出文件程序运行正常时输出信息的文件一般指输出到屏幕的信息
* stderr标准错误文件程序运行出错时输出信息的文件一般指输出到屏幕的信息
命令
* sbatch提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务
* sinfo显示分区或节点状态可以通过参数选项进行过滤、和排序
* squeue显示队列的作业及作业状态
* scancel取消排队或运行中的作业
* scontrol显示或设定slurm作业、分区、节点等状态
* sacctmgr显示和设置账户关联的QOS等信息
* sacct显示历史作业信息
* srun运行并行作业具有多个选项最大和最小节点数、处理器数、是否指定和排除节点
## 分区信息查询-sinfo
用户在使用时首先需要了解哪些分区可以使用。在计算服务中使用sinfo命令查询队列信息。根据命令输出可以看到当前节点所在集群的作业调度系统的队列情况并可看到每个分区可访问的空闲节点数量、节点名称。

View File

@@ -0,0 +1,18 @@
## 任务
* [ ] 数据同步已经开启
## 收获
* 周三晚上开始到周五晚上整整两天时间,解决了台式机的性能问题和数据传输问题。
* 因为台式机的性能导致特征提取过程十分缓慢甚至单线程解析的时候都会直接导致cpu爆炸所以寻求性能更好的主机用来提取最基础的特征所以选择了高性能计算中心的台式机。花了一晚上时间学习了高性能计算中心的使用教程。
* 为了将本地的数据集同步到云端,想了各种各样的方法。
* 由于实验室ip封禁问题导致没办法使用实验的的ip地址登录高性能计算中心所以研究了笔记本双网卡的建设通过route add/route print/route delete 等命令设置了双网卡路由使得10.网段的路由经过无线网卡访问外网,能够在笔记本上访问高性能计算中心。
* 为了加快数据传输使用了新的学校内网网口买了网线在李师姐的电脑上进行数据传输。学习了scp命令使用scp实现两个主机文件夹的远程对拷发现进度十分缓慢只有几兆可能要拷贝好几天。学习了xftp拖拽式上传速度是挺快传完了drebin数据集的几个安装包但是因为androzoo文件量太多导致软件经常崩溃没办法通过xftp实现远程同步传输。而且xftp本身提供很强的远程同步功能但是因为缺少压缩文件数量过多软件不稳定等原因传输一直失败。但是总算通过解压drebin安装包的方式完成了drebin数据集的远程同步。
* 思考了一个问题既然传输速度只有10M左右还不如直接自己在本地开30个线程直接下载的速度快所以花了一晚上加一早上重新写了文件androzoo_downloader模块包括直接开始30个进程进行下载并且能够递归访问目录跳过重复的文件避免重复下载等功能。并将下载脚本规范为自己常用的Python脚本企图在高性能计算中心的服务器上直接下载文件但是最后发现高性能计算中心的网卡提供了高额的对内传输速度但是对外网的传输速度惨不忍睹可能也只有三四兆左右下载一晚上就下载了一小部分。
* 在重写androzoo_downloader模块的时候考虑使用高性能计算中心的cpu节点进行计算任务也不是cpu密集型而且用到了30个线程第一次完成了sbatch cpu任务的提交。发现计算节点没有网卡不具有下载连接的功能导致下载失败。学习了sbatch的配置和命令执行以及查看配置的命令smcat等可以显示运行状态还可以将日志输送到指定的位置。
* 至此有点心灰意冷。将硬盘从师姐那取回来欲接受无法快速传输完成并完成文件特征提取的任务开始考虑两边同时工作让台式机慢慢传输文件然后在台式机上进行本地的开发、代码阅读、论文阅读等任务。但是台式机又不能传输公网ip被禁笔记本能通过无线网络传输但是没办法进行开发windows环境没配置好但硬盘数据只有一份彻底没办法。
* 最后突然想起来通过校园网认证界面能够看到登录ip地址然后下午学弟说解封ip地址非常简单然后睡觉的功夫就解封的ip地址。就可以将硬盘连接到台式机上用台式机传输数据并且用台式机完成开发工作。但是仍然缺少一个文件传输的工具像xftp的远程同步功能能够跳过已经传输的文件实现断点续传。至此发现了rsync远程同步工具能够快速压缩传输并且远程同步过程中能够跳过已经传输的文件传输速度非常可观。通过开始10个窗口命令行完成了远程的同步传输。如果出了问题还可以重新运行命令继续之前的传输功能发现非常好用linux下好用的工具和命令果然非常多。
* 接下来要做的就是在数据传输过程中,读论文,看代码。补充后续的特征分析方法、特征嵌入方法、神经网络的基础知识,在传输完成,运行特征提取任务的同时,完后学习任务。然后接着进行后续的步骤!!!!!!!然后下周开始写图特征提取和分析的相关脚本。