Yizhou's Website – Page 2 – 念念不忘，必有回响

理解连续数据和离散数据

2022年10月27日
No Comments
Post view:566 views

统计学中，将一种类型的数据总称为变量，而变量的数据称为观测，而变量的具体取值为观测值，比如下面的数据中，age和name都是变量，而18和’大红’都具体的取值被称为观测值。

age,name
18,’大红’
21,’小花’

同理，在统计学中，离散数据也被称为离散变量，连续数据也被称为连续变量，而如何区分两种变量的区别？连续变量可以理解为取值范围在理论上是连续不断的，而离散变量则可以理解为取值范围是间断不连… Read the rest “理解连续数据和离散数据”

GPU服务器的多人环境搭建

2022年10月21日
No Comments
Post view:400 views

环境

CPU: Intel(R) Xeon(R) Gold 6154 2

Momery: 128G GPU: 3080TI 2

Disk: 16T HD & 512 SSD

System: Ubuntu 22.04 Server

前言

因为最近团队对于GPU的需求量增加，但之前都是在工作电脑上直接使用GPU进行训练和使用，而几个人中只有一两台电脑有显卡，所以后期就更新了服务器。随之而来的就会产生一个问题，大家直接用账号密码链接上去每个… Read the rest “GPU服务器的多人环境搭建”

Google Hacking Test

2022年10月11日
No Comments
Post view:236 views

前言

学习Google搜索，其目的是用于让自己得到更精准的信息，所以善用Google搜索对于信息收集、安全测试、查找答案等都有着非常大的帮助。而随着时间的变化Google对于语法的更新、规则都在改动，这些改动对于结果都有影响，所以使用前进行测试是非常有必要的。查阅了诸多资料过后，将Google搜索的操作分为了三个等级，分别为基础搜索、布尔操作符、高级操作符，每个级别的都可以进行配合使用，有些组合起来… Read the rest “Google Hacking Test”

基于LXC容器的Openwrt搭建

2022年9月6日
No Comments
Post view:301 views

前期工作

环境和机器配置：

机器：5105v4 i226-v版本
pve： 7.1.2，内核Linux 5.13.19-2-pve

准备工作：

将网线连接到pve管理口，如果已安装openwrt，然后关闭原openwrt虚拟机，删除直通的网卡。
准备一份没有引导的openwrt固件包，可以是img也可以是tar.gz，但一定是没有引导的包，可以看文件名中包含rootfs字符，比如openwrt-x86-64-gen

… Read the rest

前端的技术栈理解

2022年4月22日
No Comments
Post view:232 views

最近几年单页应用程序发展非常迅速，从早期通过Javascript写入大量html模版去做单页程序（SPA），到现在的React、Vue（最为流行），但不得不说，前端的技术进步太快了，稍不关注技术，就会出来很多的新的技术。

但归根结底，每次新的技术出来，埋头深入发现远比想象的复杂，而到了一定的时间后则能够想明白一些事情，这也就是”深入浅出”的道理。单页应用是一个复杂的技术，要解… Read the rest “前端的技术栈理解”

人工智能基础名词理解

2021年7月26日
No Comments
Post view:247 views

人工智能

人工智能是一个比较广泛的概念，这个概念实际上指的是让机器像人一样思考，其最早由计算机科学之父阿兰图灵在1950年的一篇《计算机器与智能》论文中写出“如果电脑能在5分钟能回答由人类测试者提出的一系列的问题，且超过30%回答让测试者误认为人类所答，则电脑通过测试”，这段话也直接启蒙式的开启了人工智能领域的研究。而“人工智能”一词，第一次出现在1956年，达特茅斯大学召开的学术会议室，由人工智能… Read the rest “人工智能基础名词理解”

(二)漫话中文分词：Trie、KMP、AC自动机

2020年11月18日
No Comments
Post view:236 views

Trie树

在上一篇文章当中，说到了一些匹配的算法，但是算法有了，还得需要一个高效的数据结构，不能只是通过[‘中国人’, ‘中东人’]等结构来进行存放，可以想象一下，如果有几十万的词，那么这个列表的占用的内存非常大。 Trie树，也被称为前缀树，该词源自单词retrieval，发音和try相同，Trie树可为词库提供一种高效的分词数据结构，该结构本质上是一种树状数据结构，比如”中国人R… Read the rest “(二)漫话中文分词：Trie、KMP、AC自动机”

(一)漫话中文分词：最大匹配,双向最大,最小词数

2020年11月8日
No Comments
Post view:221 views

中文分词是指将文本拆分为单词的过程，而结果集合连接起来是等于原始的文本，而中文分词一直作为NLP领域的比较重要的领域，而大多数的文本挖掘都是以分词为基础，但中文不同于英文，英文每个单词是用空格分隔，整体语义上相对于中文难度低很多。而业务上一直有中文分词的需求，但是之前因为在忙于另外一个项目，所以一直没有研究。近期稍空闲开始研究了相关的中文分词算法，发现中文分词总体算比较成熟，但是其中对于未登录词或… Read the rest “(一)漫话中文分词：最大匹配,双向最大,最小词数”

理解条件概率

2020年11月3日
No Comments
Post view:268 views

样本空间（Ω）

样本空间通常指实验或随机所有可能的集合，我们常在说一个概率的时候，实际上是默认忽略掉了样本空间，比如说事件A的概率，实际上指样本空间中，事件A的数量与样本空间的占比。

比如丢硬币，硬币只有正面和反面，那么硬币的样本空间则为：

$$ \displaystyle \{正面，反面\} $$

这个时候常说的正面的概率为二分之一，实际指的是正面事件的数量与样本空间的占比，也就是$ \frac{1}{2} $。 … Read the rest “理解条件概率”