当前位置：首页 > news >正文

AI学习记录 - 依据 minimind 项目入门

news 2025/4/3 11:17:44

想学习AI，还是需要从头到尾跑一边流程，最近看到这个项目 minimind, 我也记录下学习到的东西，需要结合项目的readme看。

1、github链接

https://github.com/jingyaogong/minimind?tab=readme-ov-file

2、硬件环境：英伟达4070ti

3、软件环境：

1、使用conda环境

conda create --name minimind python=3.9

2、python==3.9
3、torch版本安装方式：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

官网：https://pytorch.org/
在这里插入图片描述

4、安装英伟达显卡驱动

5、安装cuda版本：12.1
在这里插入图片描述
6、按照readme的说法，下载了四个数据集文件

4、为什么需要训练一个词汇表：

找出高频词汇

5、将预训练用的文本语料按照词汇表进行分割

6、语料分割之后，还需要进行对句子进行掩码语料的分割，用于训练阶段预测下一个词

你知道光速是多少吗？

你 * * * * * * * * *
你知 * * * * * * * *
你知道 * * * * * * *
你知道光 * * * * * *
你知道光速 * * * * *
你知道光速是 * * * *
你知道光速是多 * * *
你知道光速是多少 * *

7、给语料添加开始符号，结束符号

8、直接开始训练

执行python命令：

python data_process.py：这一步具体做什么还在看，猜测就是按照特定的策略从超大文本预料当中获取自己需要的语料。

python 1-pretrain.py：这一步开始训练，耗费时间太长了，2个小时连一个batch都没有跑完，我就没有训练完，就截个图看看：
在这里插入图片描述

学习参考资料

别人的一些学习心得：
https://github.com/jingyaogong/minimind/issues/26

B站大佬解释：
https://www.bilibili.com/video/BV1Sh1vYBEzY?spm_id_from=333.788.player.player_end_recommend_autoplay&vd_source=73f0f43dc639135d4ea9acffa3ad6ae0

推荐在线显卡租赁市场：
在这里插入图片描述

查看全文

http://www.mrgr.cn/news/80233.html

算法刷题Day18: BM41 输出二叉树的右视图

gitee仓库的使用

【考前预习】3.计算机网络—数据链路层

【conda/cuda/cudnn/tensorrt】一份简洁的深度学习环境安装清单

Mac上使用ln指令创建软链接、硬链接

HarmonyOS Next 元服务新建到上架全流程

扩展tinyplay使其自适应不同声道数量的媒体

17、ConvMixer模型原理及其PyTorch逐行实现

网络工程师常用软件之配置对比软件

【kubernetes】kubectl get nodes报NotReady