当前位置: 首页 > news >正文

docker 基本使用

-do1.安装docker:

   Redirecting…

0. docker内使用gpu, 安装nvidia-docker:

  https://github.com/NVIDIA/nvidia-docker,

  安装后使用:nvidia-container-cli -k -d /dev/tty list, 验证正确,无报错,即为正确

1. docker 启动image,如果启动gpu 版本必须用nvidia-docker, -d detach, -i interactive, -t  with fake terminal , -network=host 与本机一样的网络

nvidia-docker run -dit --name icdl --restart=always  --network=host <image> bash

  连接到已有容器  sudo docker exec -it 775c7c9ee1e1 /bin/bash,  

  加入--always, 就是这个docker 挂掉以后,dockerd会自动把这个container启动。systemd把dockerd启动,dockerd守护always的container

2.用docker 代替nvidia-docker 启动带有gpu, cuda 的container

docker run --device=/dev/nvidiactl --device=/dev/nvidia-uvm --device=/dev/nvidia0 -v nvidia_driver_367.48:/usr/local/nvidia:ro -dit --name=test7 --network=host docker.io/bvlc/caffe:gpu  /bin/bash

新版不用这么麻烦了,按照https://github.com/NVIDIA/nvidia-docker,只需docker --runtime=nvidia  ...

 docker19.03后的版本使用:docker --gpus all

3.带gdb支持的container,  run 时候加上--cap-add=SYS_PTRACE

  echo 0 /proc/sys/kernel/yama/ptrace_scope

4. docker attach 以后,使用Ctrl+P and Ctrl+Q离开

5.docker 离线安装 1)https://download.docker.com/linux/static/stable/x86_64/ 下载后,解压到/usr/local/bin下面,2)然后

vi /etc/fstab

#在结尾添加

none       /sys/fs/cgroup        cgroup        defaults    0    0

重启

    3)如果使用gpu, 就用2中命令启动container

6.有哪些container: docker ps -a

7.有哪些image: docker images

8.删除不用的container: docker rm -f face/face1:version1

9.删除image : docker rmi <image>

10.将当前container 保存成image, commit部分,face/face1是仓库名称,version1是tag, 如果docker里面要使用gpu,那么一定不能用11的方式,一定要commit成image, 再load, 否则回报特别多的错误,/usr/lib/x86_64-linux-gnu/libnvidia-*,下面有些文件大小会是0,就算从host拷贝过去,也会遇到其它非常多的错误。nvidia-docker相当于把host的driver直接透传到docker内部

docker commit c3f279d17e0a  face/face1:version1
将image 导出成压缩包:docker save -o /home/sam/aa.tar  face/face1:version1
导入压缩包到image :docker load --input aa.tar
11.直接把container 导出,然后导入,这样文件大小会大大缩小
docker export test20  -o ./faceexport.tar
gzip --best faceexport.tar
cat /home/faceexport.tar | docker import - face:latest

12. 添加卷

ln -s /u01 /var/lib/docker/volumes/volu01
docker volume create volu01
docker run -dit --restart=always --mount source=volu01,target=/u01 --name icdl1 --network=host 93682a1555c1 bash
如果只是-d 没有it,是无法启动的, volu01后边逗号后不能有空格更复杂的是:
docker run -dit --gpus all --restart=always --log-opt max-size=10m -e LANG='en_US.utf8' -v /etc/localtime:/etc/localtime:ro -v /etc/timezone:/etc/timezone:ro  -e PATH=/root/anaconda3/bin:/bin/:/usr/bin/ -e MXNET_CUDNN_AUTOTUNE_DEFAULT=0 -e LD_LIBRARY_PATH=:/root/anaconda3/pkgs/cudatoolkit-10.0.130-0/lib/  --name aiex4_v20200104 --network=host aiex4:v20200104  /bin/bash -c ". /root/anaconda3/etc/profile.d/conda.sh && echo  && conda activate mxnet && cd /algorithm_hub; python run.py"docker run --gpus all -itd --restart=always --log-opt max-size=10m --log-opt max-file=1 --ipc=host -h face-machine -e DISPLAY=:0 -e LANG='en_US.utf8' --privileged  -v /tmp/.X11-unix:/tmp/.X11-unix -v /data:/data/ -v /etc/localtime:/etc/localtime -v /data/face_terminal/cameraConfigs/camera_xiaofang.json:/data/face_terminal/cameraConfigExample.json --name face_xiaofang ai/face:1012 /data/face_terminal/docker-run.sh
13.开机启动, 之前已经对卷建立软连接,ln -s /u01 /var/lib/docker/volu01在/etc/rc.local里面加入如下行
systemctl start docker
docker volume create volu01
docker start icdl1
docker exec -d icdl1 starticdl.sh

 其中,starticdl.sh位于container内部/usr/bin/目录下面,内容如下,其中server.py里面,加入了守护程序

#!/bin/bash
cd /idcardDriverlisenceRecog/src/ && python server.py

 守护程序部分见:python守护程序_northeastsqure的专栏-CSDN博客_python守护程序

14. alpine极简版linux,含有busybox

   安装bash: RUN apk add --update bash && rm -rf /var/cache/apk/*

    内无管理员权限,在dockerfile里面:USER root

15.docker内部程序开机启动:

  cd /idcardDriverlisenceRecog/src/
  python /idcardDriverlisenceRecog/src/IDcardVehiclelisenceRecog_facepp_youtu.py

  exit 0

16. 让docker 某 container 与docker 一同起来,即永远不停机

  

docker update CONTAINER --restart always

17. 制作ubuntu1604,docker

  从这里连接制作,跟着18命令,https://github.com/tianon/docker-brew-ubuntu-core/tree/010bf9649b1d10e2c34b159a9a9b338d0fdd4939/xenial

18. 从dockerfile得到docker image

   docker build --tag='ubuntu1604:Dockerfile' .

19. 运行docker命令,比如docker ps,遇到:Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.37/containers/json: dial unix /var/run/docker.sock: connect: permission denied

  把当前用户加入到docker组,然后重新登录

 sudo usermod -a -G docker $USER

 不重新登录执行:sg docker -c "bash"

20. 把文件夹复制到docker container里面,或者拷贝出来

  docker cp src/opencv-2.4.13.6 seetaface_ubuntu1604:/

  两个参数倒过来,就是拷出来

21.遇到错误:stderr: nvidia-container-cli: initialization error: cuda error: unknown error\\\\n\\\

    百思不得其解,很多说是驱动问题,我想,驱动什么问题呢,然后查看nvidia docker的架构,启动docker image,是不依赖与host的cuda的,那么为什么报cuda error, 没有理解。后面重启系统,结果好了,系统很久没有重启了。问题还是没有理解,为什么报cuda error呢,不装cuda也是可以的呀。

22.搜索docker错误的时候,遇到说用dmesg查看,那么它是干什么的?

 dmesg是打印 kernel ring buffer

23.什么是kernel ring buffer?

  在syslog daemon启动以前,操作系统把日志保存到kernal ring buffer里面,写到/var/log/dmesg,里面。syslog daemon启动后,内核的消息也是写到这里,同时写到syslog里面。

24.什么是nvidia-uvm?

  uvm:unfied virtual memory.  每个gpu有自己的显存,系统有自己的ram内存,那么如何分别访问呢?如果没有uvm,那么编程者,要指定我的程序是在 ram,还是在gpu, 有了uvm,那么所有的存储空间是统一的。

UVA-1024x407

CUDA 6 Unified Memory explained - StreamHPC

可见,cuda编程,这个模块是必须的,所以nvidia docker启动必须加载这个模块。

25.开启图形显示

xhost local:docker

docker run -it --name xwin -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /home/ckhung/data:/tmp/exdata ubuntu:18.04 bash

apt-get install -y x11-apps

与外面主机用户同名

useradd -m -s /bin/bash -u 1000 silva

su silva

26. container 启动以后如何更改container 的主机名称?

lsns
nsenter --target 1785 --uts hostname hostname_abc
https://serverfault.com/questions/716719/how-do-i-change-docker-host-name-after-the-image-creation/717191

27.如何离线安装 nvidia container toolkit?

   下载 Release v1.17.2 · NVIDIA/nvidia-container-toolkit · GitHub

    然后tar xf解压

    然后dpkg -i 安装   


http://www.mrgr.cn/news/82871.html

相关文章:

  • 25.1.7 基于STM32U575RITX中断实验
  • 06-RabbitMQ基础
  • Unity打包问题集(持续更新)
  • 关于Mac中的shell
  • 3270.求出数字答案题解
  • 基于vue框架的的校园快递管理系统x0xm0(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 排序算法的实现(插入,希尔,选择,冒泡,堆排,快排)
  • 分布式ID生成-雪花算法实现无状态
  • 【C++数据结构——图】最小生成树(头歌实践教学平台习题) 【合集】
  • Kafka集群安装
  • 【C++面向对象——类的多态性与虚函数】编写教学游戏:认识动物(头歌实践教学平台习题)【合集】
  • 【Vue.js 组件化】高效组件管理与自动化实践指南
  • oracle jdk17新版变回OTN 商用收费了
  • 期末概率论总结提纲(仅适用于本校,看文中说明)
  • 【C++数据结构——查找】顺序查找(头歌实践教学平台习题)【合集】
  • Linux查看服务器日志
  • 【Vue.js】监听器功能(EventListener)的实际应用【合集】
  • 《Vue3 六》组件间通信
  • NLP项目实战——基于Bert模型的多情感评论分类(附数据集和源码)
  • 【C++数据结构——栈与队列】链栈的基本运算(头歌实践教学平台习题)【合集】
  • 从 TiDB 学习分布式数据库测试
  • 大模型搜索引擎增强问答demo-纯python实现
  • Linux应用软件编程--网络通信(传输层:udp协议,tcp协议,应用层:http协议)
  • nlp培训重点-2
  • Kali系统(Debian 10.3) 遇到的问题
  • 【ROS2】☆ launch之Python