作者归档:trick

每周分享-第18期

我会将我每周看到的文章、文档、趣闻中比较有意义有趣的分享在这里,你可以点击标题查看原文,该周分享于每周星期五分享,我将会同步发布在博客以及微信公众号,微信公众号为:trickbox,欢迎关注。

因为微信公众号无法支持外链,所以点击正文下面的阅读原文可以访问我的博客进行查看原文。

新闻

1、现代可充电电池的创造者共享诺贝尔奖

如果每天早晨必须将几个一次性电池放入智能手机中以查看电子邮件,浏览微博并给你的朋友发短信,那么移动革命可能就没有那么革命性了。幸运的是,发明了可充电锂离子电池,这一项长达数十年的任务,其中三人刚刚获得了诺贝尔化学奖。

这三人分别为斯坦利·惠廷汉姆(M. Stanley Whittingham),约翰·古德诺(John Goodenough)和吉野彰(Akira Yoshino)的奖励,他们都为发展当今最常见的便携式电源做出了贡献。

2、用废弃的风力发电机零件建造的儿童游乐场

尽管目前全球提倡使用太阳能作为电能,但是根据调查研究,全球每年将生产225,000吨转子叶片复合材料,而每年也有大量的淘汰部件。

而在荷兰,废弃的风力涡轮机叶片利用进游乐场成为一种具有未来派风格的儿童游乐场,该游乐场是一个迷宫般的结构,由五个废弃的风力涡轮机叶片制成,这些叶片被切成零件并重新上漆,回收的刀片组成滑梯塔,监视塔,隧道,桥梁,坡道和滑梯。

3、普通美国人在5年内没有结交新朋友

经常在好朋友的陪伴下度过的时间对健康积极的影响。但是对于许多美国人来说,成年后的社交随着年龄的增长而变得越来越困难。最近的一项调查显示,有45%的成年人承认他们很难结交新朋友。调查显示,事实上,成年人在过去五年中没有结交新朋友。

埃维特(Evite)委托对2,000名美国人进行的调查,探究了美国人与新友谊挣扎的原因。大约五分之二(42%)的人说,由于内向或害羞,他们在交朋友方面遇到困难。

三分之一的成年人将自己对酒吧的厌恶归咎于他们缺乏新的友谊,在酒吧里,潜在的新朋友经常去社交。同样,三分之一的受访者也觉得其他人的朋友圈已经形成,这使得加入该团伙更加困难。

4、丰田、通用、NVIDIA 等公司合力开发新的自驾车通用运算平台

自驾车的研发需要涉及到很多方面,功耗、安全、UI、数据管理等等,所以若想打造出一个通用的运算平台,只靠一家公司之力往往不够。因此丰田、通用、NVIDIA、ARM、博世、Continental、电装、NXP Semiconductors 这几家公司决定合作,他们创立了新的自驾车运算联盟(Autonomous Vehicle Computing Consortium),希望将多方资源集合到一起来促进方案的开发。

根据官方介绍,联盟的第一步计划是制定一系列运算平台系统架构的发展建议,未来它也会向其它感兴趣的厂商敞开大门。

5、「卫星延命太空船」即将发射

地球同步轨道上的卫星对通讯商来说是一笔极大的投资,但每一枚卫星能携带的燃料都是有限的,一旦燃料用尽,无论卫星本身是否还正常运作,卫星都无法维持在原来的轨道位置上,也就无法继续服务了。为了能便宜地为卫星「延命」,Northrop Grumman 开发了一款名为「Mission Extension Vehicle(MEV)」的特殊太空船 —— 它其实本质上也是一枚卫星,但并未携带一般卫星的通讯设备,而是装备了卫星补捉设备和大量的燃料。

在发射后,它会依指示前往要服务的卫星处,并且「抓住」要服务的卫星,就算目标没有对接设备,MEV 也能固定住约 80% 的地球同步轨道卫星。之后五年以上的时间,都由 MEV 来提供卫星的轨道维持服务,直到服务的卫星退役后,MEV 才会分离,并且前往下一个要服务的目标。MEV 预计可以持续提供服务 15 年之久,所以在生命周期内约可服务两到三枚卫星。

6英特尔想靠 AI 来重连受损的脊髓神经

英特尔与布朗大学日前开始了一项由 DARPA 拨款支持的「智能脊柱接口」计划,希望借助 AI 之力,来帮助那些脊髓神经受到严重损伤的患者重拾运动和对膀胱的控制能力。据介绍,在这项暂定周期两年的研究中,科学家们将会利用基于植入受损位置两端电极的「智能搭桥」,来捕捉源于脊髓的运动和感觉信号。以此为基础,运行在英特尔产品上的神经网络将有机会依靠搜集到的相关数据,重新在脊柱上建立起联系,恢复受损脊髓神经的功能。

根据官方介绍,初期的「智能脊柱接口」将会使用外部的运算硬件来处理信号,但最终的目标是开发出一套可以完全植入体内的方案。当然,对于计划成功的可能性,在现阶段我们只能说拭目以待。但在该项目的工程助教看来,不管结果如何,此次合作都将有助于「发掘(跟脊髓有关的)新知识」,而且对「促进(治疗)创新」也有着非常积极的意义。

7、夜间经济报告:男性、年轻、未婚人士更为活跃

QuestMobile 数据显示,对于移动互联网行业来说,夜间,特别是 18-22 点是用户高度活跃时段,蕴含着巨大商机。南方省市的夜间用户更加活跃,上海、重庆、广州、深圳位居 Top 5,新疆、西藏、青海等西部省市由于地理位置原因,活跃占比也偏高。

互联网夜间用户中,男性、年轻、未婚人士更为活跃,特别是越到深夜,男性、未婚用户的熬夜精力更旺盛,三线及以下城市的用户在 21 点以后活跃比重也偏高。

8、比尔·盖茨承诺再捐赠 7 亿美元抗击艾滋等疾病

微软联合创始人比尔·盖茨承诺捐赠 7 亿美元,以帮助抗击每年导致全球数百万人死亡的疾病 。 这笔资金将由比尔及梅琳达·盖茨基金会在未来三年捐给抗击艾滋病、结核病和疟疾全球基金(简称全球基金),从而使其自 2002 年以来向该基金的捐赠总额达到近 30 亿美元。全球基金希望至少筹集 140 亿美元,包括从私营部门筹集 10 亿美元。

9、中国移动宣布:高频骚扰电话防护功能全国正式上线

10月9日中国移动宣布中国移动高频骚扰电话防护业务全国上线了,volte用户可以发送ktfsr至10086即可免费开通。

该功能可以让用户自定义号段允许用户自由设置特定号段,以拦截由此号段开头的号码发起的骚扰电话。

10、NASA 拟建望远镜监视威胁地球的小行星

美国国家航空航天局(NASA)计划建造一款红外望远镜,希望其能监视可能与地球发生碰撞的小行星,该望远镜将于 2025 年升空 。这款望远镜名为「近地天体监视任务」,将耗资 5 亿 – 6 亿美元,脱胎于 15 年前提出的酝酿已久的「近地天体照相机」项目。

每周分享-第17期

我会将我每周看到的文章、文档、趣闻中比较有意义有趣的分享在这里,你可以点击标题查看原文,该周分享于每周星期五分享,我将会同步发布在博客以及微信公众号,微信公众号为:trickbox,欢迎关注。

因为微信公众号无法支持外链,所以点击正文下面的阅读原文可以访问我的博客进行查看原文。

新闻

1、Apple公司将认可第三方维修服务商

Getty Images

近日,苹果正式公布了全新的「苹果认证服务供应商」计划,将接受第三维修服务商,并为第三方维修服务商提供:原厂替换件、工具、培训和修理指南,这就意味着你可以从认证的第三方维修服务商那里获取到官方级别的维修。而认证的要求则是维修服务商必须有一名技术人员参加并通过了40个小时的免费培训和测试,才能成为认证维修服务商。

目前该计划个人感觉处于一个测试阶段,只在美国本地进行了上线,并且目前第三方维修服务商只能进行维修过保的iPhone,这就意味着除了过保的iPhone,其他的产品都没有官方的认证维修服务。

2、为什么客户服务热线很糟糕?

CSA IMAGES / GETTY IMAGES

在美国,消费者每年平均会花费13个小时在打电话语音等候的时间上面,根据Mike Desmarais在“ 成本管理 ”期刊2010年的一项研究三分之一的客户抱怨必须拨打两个或更多电话才能解决他们的投诉,而根据亚利桑那州大学凯瑞商学院的2017年的一项调查,超过四分之三的抱怨消费者对他们在给定公司的客户服务部门的经验不满意。

而这个原因在于很大部分公司对于客户服务热线使用的分层结构来筛选客户的诉求,比如当你对于一件产品很不满意的时候,你拨打的客户热线一般情况下都属于一线,而对于大多数公司来说,一线是不能处理退款的,但是部分公司规定一线能够在一定的范围内给予客户一些小的补偿,如果此时你还坚持退款,那么可能会要求你稍等接通二线或者是叫你通过拨打另外的电话号码进行处理。

而这样的结构对于我们来说是不好的,因为会增加我们时间上的成本,但是对于公司来说,这个结构能让这些公司加快其客户服务的处理速度,避免处理退款的客服和咨询商品的客户进行无效的沟通,并且还能够筛选出一些不符合退款的人群,除此之外分层结构更能够让客户觉得“麻烦”而导致的不想退款。

3、Netflix即将上映比尔盖茨的纪录片

Netflix

“我不希望我的大脑停止运转”,这是Netflix近期的新纪录片《Inside Bill’s Brain: Decoding Bill Gates》两分钟预告片中比尔盖茨回答导演的一句话,该正片将于 9 月 20 日上线。

在这段两分多钟的视频中,穿插着导演跟 Gates 及其妻子 Melinda 的对谈,以及 Gates 的工作状态和大量的回忆画面,按照 Netflix 的说法,在看完《Inside Bill’s Brain: Decoding Bill Gates》以后,你将能触及到 Bill Gates 最真实的一面。

4、8K协会公布8K规格标准

Visitors look at Samsung QLED 8K TV’s during the preview day of the IFA, the leading trade show for consumer electronics and home appliances, in Berlin, Germany, August 30, 2018. REUTERS/Christian Mang

近期,8K协会公布了8K规格标准,而该协会则是由三星电子、三星显示、松下、英特尔、海信、TCL 等厂商组成的,而该协会由多个在显示行业的龙头组成,不难看出以后的8K设备可能将会以此为标准。

而此次公布消费类8K电视制定的规格标准,除了要达到 7,680 x 4,320 的分辨率外,输入帧率需为 24/30/60 fps,最高显示亮度超过 600 辉度,同时还要有 HEVC Code 和 HDMI 2.1 界面,而除了这些基本的要求之外,产品在8K 输入参数(位深、帧率、色度子采样)、显示性能(分辨率、亮度峰值、黑电平、色域、白点)和界面媒体格式(HDR、Codec)这几个方面也都有更为细致的门槛。

而在今年早时候日本通过卫星第一次发布了8K的节目,然后到现在各种规范、标准都开始着手制定,这也让我感到8K时代越来越近,但是根据以往的经验来看,当标准规范发布到消费者阶段至少还有2-4年的时间才能普遍,这也是因为生产厂商目前更新换代还需要一定的过渡,以及目前市场上消费者家里的电视1080p和2k的分辨率普遍存在,而4k也并没有一半以上的普及率。

5、法国使用噪音雷达监测噪音汽车

REUTERS/Charles Platiau

近几年法国居民针对于汽车的噪音投诉越来越多,其中包括汽车引擎发出的声音、汽车鸣笛等噪音,之后当地噪音组织为了解决这个问题,准备在巴黎附近使用噪音雷达来抓取这些产生噪音的汽车,该雷达利用四组麦克风来定位声音来源,并将对准发出嘈吵声的汽车进行拍摄取证并提交给相关部门,而随后法国就有人宣布将在秋季提交一份草案,该草案就是建议使用噪音雷达作为执法的工具之一。

6USB4规范正式公布

USB4

2019年9月3日,USB规范组织USB-IF正式公布USB4的规范,新的USB4命名和以往命名的不一样,比如“USB 3.0”,即在数字和字母之间有一个空格,而在新的规范中字母和数字是没有空格的,即”USB4″。

USB组织的负责人Brad Saunders也宣布,对于以后的USB版本将只会迭代更新大版本,即4、5、6,不会存以前的小版本迭代,比如”4.1,4.2″,这样做的原因是为了防止出现可能会让消费者感到困惑的版本号。

除此之外,此次USB4基于Intel贡献给USB推广组织的Thunderbolt3技术,而新版本的USB4同样与Thunderbolt3有着一样的速度,最大的传输带宽能够达到40Gbps,并且同时向下兼容和支持多种数据、USB PD供电、显示协议,包括DisplayPort。

7、Android 10 已推送至Google pixel

Pixel

2019年9月4日,Google率先正式向自家产品Google pixel推送Android 10系统,该系统已经可以在Pixel进行更新,并且官方声称,将会与Android生态圈的各个厂商进行协商,要求在其今年内推出Android 10的版本更新。

Android 10此次更新增加的功能非常多,如系统级的深色模式、新的专注模式能让使用者在特定时间静音某个特定的 app、对折叠屏幕手机更好的支持性。

而在安全性和隐私性方面也对其加强,如对定位权限会有更细致的管控。另外 Google 现在还会通过 Play 商店来更新系统中某些特定的部分,这样不用等待系统层面的大升级,就可以及时更新某些特性了。

8、亚马逊开始测试手掌支付

WHOLD FOODS

亚马逊代号为“Orville”的新生物识别支付项目可以在不到300毫秒的时间内扫描你的手并处理你的交易,并且该项目将计划在2020年初前在Whole Foods零售店推出。

该生物识别与iPhone等手机的生物识别不一样,该项目不需要用户将手掌触摸到扫描表面,而使用计算机视觉和深度几何来处理和识别每只手的形状和大小,而据文章称,系统的识别误差在百万分之一以内,但亚马逊的工程师们计划在产品正式推出前将其进一步提升至一亿分之一。

9、Google将面临1.7亿美元的罚款

2019年9月4日,联邦贸易委员会宣布对Google公司罚款1.7亿美元以解决关于Youtube非法收集儿童信息,该事情主要由于Youtube违法《儿童在线隐私保护法案(COPPA)》规则,该规则要求要求收集13岁以下儿童的个人信息之前应通知并获得父母同意。

而这次事件要求谷歌和YouTube向联邦贸易委员会支付1.36亿美元,并向纽约支付3400万美元涉嫌违反儿童在线隐私保护法案(COPPA)规则,这是自美国于1998年颁布法律以来,美国联邦贸易委员会在这类案件中获得的最高金额为1.36亿美元。

10、美国“USA 244“卫星暴露

近期特朗普在Twitter上发布了一张关于伊朗在测试火箭发射的一张卫星照片,本身该事情与特朗普的作风没有什么区别,但该事情中的图片则引起了大家的注意,首先引起大家注意的是图片中间的反光点,疑似是用手机拍摄并开启闪光灯反射而形成的,那么拍摄的对象应该是情报部门提供的类似于纸质的文档,而这也说明了美国通过卫星在监视并获取情报进行分析。

其次从图片上来看该图片中的细节非常吓人,至少在目前来说能形成这样的卫星成像的卫星并不多,所有这就引起了很多人的关注,而其中一名荷兰的天文学家Marco Langbroek利用了图像的角度确定该图片由卫星进行成像,在根据计算和照片拍摄的可疑时间,该名学家推测出该成像是美国代号为“USA 224”光学侦查卫星,而该卫星实际上就是美国研发的KH-11间谍卫星。

资源

1、SoftU2F:MacOS平台下的一款双因素验证客户端

每周分享-第16期

我会将我每周看到的文章、文档、趣闻中比较有意义有趣的分享在这里,你可以点击标题查看原文,该周分享于每周星期五分享,我将会同步发布在博客以及微信公众号,微信公众号为:trickbox,欢迎关注。

因为微信公众号无法支持外链,所以点击正文下面的阅读原文可以访问我的博客进行查看原文。

新闻

1、VMware近期以48亿美元收购了两家公司

近日,全球最大的虚拟化服务商VMware以21亿美元收购Carbon Black和以27亿美元收购Pivotal,其中的Carbon Black公司主要提供安全服务为主,并有自己的一套框架和产品线,而在我查询到的资料中,Carbon Black公司有多个产品涉及到了云服务安全。

而收购的另一家公司Pivotal则是一家大数据公司,该公司主要方向是研发能在所有客户所在的云服务器上运行的软件以及平台的开放标准,该公司的目的是要成为云计算领域的Linux。

2、星巴克的金融帝国

该篇文章的作者在研究星巴克财务报告的时候,发现了其中星巴克储蓄卡以及APP余额总和负债约为16亿美元,而这16亿美元能代表什么?就相当于是全球所有客户在星巴克中存了16亿美元,换个思维来说,星巴克这是从客户那里获取了免费的借贷。

与Paypal不同,Paypal的负债余约为200亿美元,Paypal的客户就是Paypal的债卷人,但是与星巴克不一样的是Paypal可以随时将余额兑换为法定货币,而星巴克则没有兑换法币,兑换为咖啡是对债卷人的承诺,所以Paypal需要随时保证其资金池中有大量的现金来维护其业务正常运转。

而星巴克则更像一种预支付购买的方式,所以星巴克则完全可以将该负债的金额进行投资,即使亏损也不会影响到正常的运转,并且星巴克每年都会发布一个负债永久丢失,这部分是星巴克客户的储值卡到期后,该金额将会失效,而这部分的负债永久丢失则是星巴克的纯利润。

3、将CPU嵌入到内存设备中

2019年8月19日,法国硬件公司UPMEN宣布,他们成功的将CPU嵌入到内存中,这样的做法在于数据中心和应用程序变得越来越数据密集,处理它们会受到内存和处理内核之间数据移动的能源成本以及它们之间有限带宽的限制。

而从文章中了解到该类设备目前主要针对的客户人群为以AI和ML研究方向的人群,而现在针对于手机的AI处理要求、计算机的AI处理要求提高,不排除以后该类型的硬件设备证明优于现有的硬件设备,而平民化。

4、谷歌建议使用“隐私沙盒”来开发以隐私为重点的广告

8月23日,Google宣布了一项名为“ 隐私沙盒”的新计划,这是一套开放标准,从根本上增强网络隐私,该标准主要提出了一些增强隐私保护的标准方法和接口,其中包括下面的三项:

  • 按类别跟踪用户,而不是单独跟踪 :将广告投放到大型相似人群中,而不会单独识别数据。
  • 不让广告商跟踪特定用户的情况兴趣定位:将访问的网站内容和个性化使其关联,而无需广告商跨网站跟踪特定用户。
  • 检测并防止欺诈行为:例如,解决虚假交易和伪造广告活动

但该标准还在初始阶段,目前Google正在寻求出版商,广告商,网络和技术社区,开发人员以及隐私权倡导者的想法和反馈。

5、流行Javascript库开始在终端显示广告

funding是一个JS流行库,但是在2019年8月19日发布的14.00版本中,开发者宣布安装该库的时候,将向终端输出一个广告,但是该举动导致了社区巨大的反响,其中有人支持,也有人不支持。

而著名的主机服务商Linode则是该项目的第一批签约者,但是该服务商面对巨大的压力,最终在其Twitter上宣布退出该项目的签约。

这也让我想到了另外一个项目OpenCollective,该项目用于输出捐赠请求,而不是广告,这是常见的一种非商业性广告,但同样为广告,该项目则在开源社区中越来越流行,并加入到了更多的开源项目中。

6、博通收购赛门铁克企业安全业务

2019年8月8日,博通正式宣布,将以107亿美元收购杀毒软件厂商赛门铁克旗下企业安全业务,该计划将在2020年1月完成收购。

而博通本身持续在网通应用相关业务发展,但在目前网路连接越来越重视安全防护情况下,博通此次的收购让软件安全防护技术资源与自身的业务进行结合,能在软硬件整合发挥更大效益。

7、可自动修复的生物混凝土

该文章是一篇早期的文章,但是我觉得非常有趣,就发布了出来,该文章指出传统混凝土的裂缝是一种普遍现象,需要在裂开之前进行维护和修复,而代尔夫特大学的微生物学教授Henk Jonkers发明了一种名为“生物混凝土”的产品。

该产品将产生石灰石的细菌以及乳酸钙以胶囊的形式均匀的和混凝土浇筑在一起,正常情况下该产品细菌可以睡眠200年,而如果混凝土产生的裂缝,那么空气和水将激活该细菌,然后细菌以乳酸钙作为其营养素来产生石灰石,进而来自动修复混凝土的裂缝。

8、著名Cam Scanner扫描应用中发现了恶意代码

如果你不熟悉CamScanner软件,但你看到上图中的图片中的LOGO,你可能会听过或者用过该软件,该软件主要用于将纸质文档扫描至手机并形成电子档。

但近日研究人员发现其安卓免费版的应用中隐藏着一个Trojan Dropper模块,可能允许远程攻击者在用户不知情的情况下秘密下载和安装恶意程序,目前Google以将其在应用商店下架。

9、DVD 还没死,Netflix 租出了第 50 亿张 DVD

在现在,家里大部分的人都是使用的流媒体进行观看,比如盒子、类似ChromeCast的投影设备等,而说起DVD,现在只有很少的人在使用DVD观看音像,但就在2019年8月27日,Netflix在DVD业务的官方Twitter上面宣布,Neflix官方宣布他们租出了第50亿张DVD。

可能有很多人在想Netflix不是流媒体服务商吗?Netflix确实是现今美国市场份额最大的流媒体服务商,但是Netflix也是靠DVD租凭起家的,并且通过线上租凭打败了当时美国影视的三大连锁店。

但即使这么多年过去了,Netflix的2019年第二季度财务报告显示该DVD业务依旧为该公司共享了4600万美元的利润。

10、Microsoft将使exFAT支持Linux

微软开发的exFAT文件系统是十多年前在2006年推出的,并且该文件系统一直是作为私有专利在使用,作为FAT系列文件系统中FAT32的继承者,该文件系统广泛的被闪存设备使用。

本月28日,微软官方宣布将开发在Linux内核中包含用于支持USB和SD卡的exFAT文件系统,并且该代码将以GPLv2的许可证进行发布。除此之外,微软还提供了用于的exFAT技术规范来促进开发的需求。

资源

1、用F#100行代码写出一个Excel:该教程用100行F#语言写了一个简单功能的excel

2、salsify:由斯坦福大学研究的开源实时互联网视频系统

3、Airgeddon:用于Linux系统审计无线网络的多用途Bash脚本

4、IPRotate:BurpSuite的插件,使用AWS API Gateway请求,来达到每次BurpSuite的请求能以一个新的IP进行请求

5、NetNewsWire:Mac平台下开源的RSS订阅器

6、PHPStan:PHP的静态BUG分析工具

中文文章无字典新词发现

该文章主要基于《基于改进互信息和邻接熵的微博新词发现方法》[1],以及博客文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》[2]

我参考其两篇文章并用Nodejs实现了其算法,当然,我提供了我实现的代码[3],该代码包含了高于ES5的语法,所以如果你需要运行其代码可能需要使用到Babel转换,该代码提供了基于ES6的import语法导出的接口,你可以直接使用。

该文章主要是针对于文章进行算法运算后,可以做到不基于任何词典进行发现中文新词,中文分词相对于英文分词来说是非常困难的,首先英文分词有空格来分隔每个单词,并完全能够准确切割,但是中文分词来说是非常困难的,比如说"所以如果你需要运行其代码可能需要使用"这段话,让计算机很难区分到底是两个字为一个词还是三个字为一个词。

所以基于上述的问题,国内有非常多的人在着手解决,有很多则是使用机器学习进行训练,采用大量的单词数据进行训练,而还有一部分则是自然语言处理(NLP),而本文章以及参考的文章都是属于NLP范围。

目录

文章主要的算法围绕着下面的三个点进行阐述,而下面的三个点也对应了相应的顺序,并在之后对三个点作出详细的解释以及代码分解后的演示:

  1. N-Gram算法
  2. 互信息
  3. 邻接熵

N-Gram算法

N-Gram算法的基本思想在于将待处理的语料,按照预定大小N的滑动窗口进行切分,按照窗口进行切分后的语料称为一个gram,并统计所有gram的词频率,比如下面的文本,因为词的基本单位为2个字符,所以我将起始值设置为2,最大的宽度为3,即切分文本最长为3个字符组成字符串,通过N-Gram算法,可以很容易的将一段文章切分为词:

原始文本:国内有非常
窗口大小为2的切分结果:国内、内有、有非、非常
窗口大小为3的切分结构:国内有、内有非、有非常

统计词频的意义在于一篇文章的主题在其文章中会多次出现,所以通过控制其词频率,即可以筛选出一批不合格的词,还可以为后期的筛选输入优质的备选词。比如该链接的文章主题为"防敏感信息泄露",然后该"信息泄露"词在整个文章中出现了14次,而我挑选了一个非主题词"场景"只在整篇文章中出现了两次,这个样的单词很明显是属于不需要的词,因为该词与当前文章的关联不高,即使发现出来新词也毫无意义。

互信息

互信息:互信息的作用在于判断一个词在预料中的内部凝固程度,即这个词是偶然拼在一起的还是确实是一个完整的词,而计算互信息实际上就是计算词的整体概率除以词的多种组合的概率,比如北京京后这两个词,北京明显对比京后更像是一个词,而京后这个词更像是偶然拼接到一起的。

比如直接借鉴参考文中的数据,如果“电影”和“院”真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。在整个 2400 万字的数据中,“电影”一共出现了 2774 次,出现的概率约为 0.000113 。“院”字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,“电影院”在语料中一共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得“的”字的出现概率约为 0.0166 ,因而“的”和“电影”随机组合到了一起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,这与“的电影”出现的真实概率很接近——真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。

而通过上面的方式,然后结合其N-Gram分词后的结果,然后计算其互信息,就能够得到一批内部凝固程度高的词,其公式为:

邻接熵

邻接熵:邻接熵的作用在于判断一个词是否是完整词,汉字很难去区分到底是否为完整的词,而邻接熵可以很好的解决这个问题,而邻接熵是基于信息熵来判断,信息熵能够反映一个事情的结果能带来多大的信息量,如果一个已发生的结果概率为p,那么信息熵就为-log(p),而p越小则信息量越大,比如说有一段下面的预料:

原始:说四川省今天天四川省今天听四川省后天

整理后:
说四川省今
天四川省明
听四川省后

这个时候判断四川是否是一个完整的词,可以先列出两边的字并组成一个列表,大概结果如下:

左:[说,天,听]
右:[省,省,省]

而从上面来看,明显可以看出其左边的列表信息量比右边的列表信息量大很多,因为左边的列表有三个不一样的字,而右边则三个一样,所以反向来思考,则可以理解为该词四川左边属于一个完整词开始,而右边则很有可能存在还存在一个字会将四川这个词构造得更完整。而从上面的文本中确实也是这样,因为在这篇语料中四川省更像一个完整的词。

而通过上面的方式,然后结合其互信息筛选后的结果,然后再计算其邻接熵,就能够得到一批整体度很高的一批词,其公式为:

左邻接熵:

右邻接熵:

阀值

从上面三个步骤中都可以设置其阈值,通过N-Gram中的词频来进行设置阈值可以达到让一些偶然出现在文章中的词去除掉,因为这个词在文章中意义不大,即使我们筛选到,而通过互信息则可以筛选出一批内部凝固程度很高的词,最后在通过其设置邻接熵的阈值,可以筛选出一批完整度高的词。

对于邻接熵,在我代码实现的时候,我做了如果不满足我的邻接熵阈值,那么则向相应的方向进行扩展1个字,共扩展4个字,如果还是不满足则丢弃,这样的好处是在于尽量可能的去挖掘去完整的词。

最后附上参考文中的算法流程图,结合上面的信息能够很明白的看懂这张图:

mbn-gram

Footnotes
  1. 基于改进互信息和邻接熵的微博新词发现方法》于2016年发表于计算机应用,作者为:夭荣朋, 许国艳, 宋健. 

  2. 互联网时代的社会语言学:基于SNS的文本数据挖掘》该文章为《基于改进互信息和邻接熵的微博新词发现方法》初版,作者为:Matrix67 

  3. WordsGuess》是基于互信息和邻接熵实现的新词发现工具 

该文章主要基于《基于改进互信息和邻接熵的微博新词发现方法》[1],以及博客文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》[2]

我参考其两篇文章并用Nodejs实现了其算法,当然,我提供了我实现的代码[3],该代码包含了高于ES5的语法,所以如果你需要运行其代码可能需要使用到Babel转换,该代码提供了基于ES6的import语法导出的接口,你可以直接使用。

该文章主要是针对于文章进行算法运算后,可以做到不基于任何词典进行发现中文新词,中文分词相对于英文分词来说是非常困难的,首先英文分词有空格来分隔每个单词,并完全能够准确切割,但是中文分词来说是非常困难的,比如说"所以如果你需要运行其代码可能需要使用"这段话,让计算机很难区分到底是两个字为一个词还是三个字为一个词。

所以基于上述的问题,国内有非常多的人在着手解决,有很多则是使用机器学习进行训练,采用大量的单词数据进行训练,而还有一部分则是自然语言处理(NLP),而本文章以及参考的文章都是属于NLP范围。

目录

文章主要的算法围绕着下面的三个点进行阐述,而下面的三个点也对应了相应的顺序,并在之后对三个点作出详细的解释以及代码分解后的演示:

  1. N-Gram算法
  2. 互信息
  3. 邻接熵

N-Gram算法

N-Gram算法的基本思想在于将待处理的语料,按照预定大小N的滑动窗口进行切分,按照窗口进行切分后的语料称为一个gram,并统计所有gram的词频率,比如下面的文本,因为词的基本单位为2个字符,所以我将起始值设置为2,最大的宽度为3,即切分文本最长为3个字符组成字符串,通过N-Gram算法,可以很容易的将一段文章切分为词:

原始文本:国内有非常
窗口大小为2的切分结果:国内、内有、有非、非常
窗口大小为3的切分结构:国内有、内有非、有非常

统计词频的意义在于一篇文章的主题在其文章中会多次出现,所以通过控制其词频率,即可以筛选出一批不合格的词,还可以为后期的筛选输入优质的备选词。比如该链接的文章主题为"防敏感信息泄露",然后该"信息泄露"词在整个文章中出现了14次,而我挑选了一个非主题词"场景"只在整篇文章中出现了两次,这个样的单词很明显是属于不需要的词,因为该词与当前文章的关联不高,即使发现出来新词也毫无意义。

互信息

互信息:互信息的作用在于判断一个词在预料中的内部凝固程度,即这个词是偶然拼在一起的还是确实是一个完整的词,而计算互信息实际上就是计算词的整体概率除以词的多种组合的概率,比如北京京后这两个词,北京明显对比京后更像是一个词,而京后这个词更像是偶然拼接到一起的。

比如直接借鉴参考文中的数据,如果“电影”和“院”真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。在整个 2400 万字的数据中,“电影”一共出现了 2774 次,出现的概率约为 0.000113 。“院”字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,“电影院”在语料中一共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得“的”字的出现概率约为 0.0166 ,因而“的”和“电影”随机组合到了一起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,这与“的电影”出现的真实概率很接近——真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。

而通过上面的方式,然后结合其N-Gram分词后的结果,然后计算其互信息,就能够得到一批内部凝固程度高的词,其公式为:

邻接熵

邻接熵:邻接熵的作用在于判断一个词是否是完整词,汉字很难去区分到底是否为完整的词,而邻接熵可以很好的解决这个问题,而邻接熵是基于信息熵来判断,信息熵能够反映一个事情的结果能带来多大的信息量,如果一个已发生的结果概率为p,那么信息熵就为-log(p),而p越小则信息量越大,比如说有一段下面的预料:

原始:说四川省今天天四川省今天听四川省后天

整理后:
说四川省今
天四川省明
听四川省后

这个时候判断四川是否是一个完整的词,可以先列出两边的字并组成一个列表,大概结果如下:

左:[说,天,听]
右:[省,省,省]

而从上面来看,明显可以看出其左边的列表信息量比右边的列表信息量大很多,因为左边的列表有三个不一样的字,而右边则三个一样,所以反向来思考,则可以理解为该词四川左边属于一个完整词开始,而右边则很有可能存在还存在一个字会将四川这个词构造得更完整。而从上面的文本中确实也是这样,因为在这篇语料中四川省更像一个完整的词。

而通过上面的方式,然后结合其互信息筛选后的结果,然后再计算其邻接熵,就能够得到一批整体度很高的一批词,其公式为:

左邻接熵:

右邻接熵:

阀值

从上面三个步骤中都可以设置其阈值,通过N-Gram中的词频来进行设置阈值可以达到让一些偶然出现在文章中的词去除掉,因为这个词在文章中意义不大,即使我们筛选到,而通过互信息则可以筛选出一批内部凝固程度很高的词,最后在通过其设置邻接熵的阈值,可以筛选出一批完整度高的词。

对于邻接熵,在我代码实现的时候,我做了如果不满足我的邻接熵阈值,那么则向相应的方向进行扩展1个字,共扩展4个字,如果还是不满足则丢弃,这样的好处是在于尽量可能的去挖掘去完整的词。

最后附上参考文中的算法流程图,结合上面的信息能够很明白的看懂这张图:

mbn-gram

Footnotes
  1. 基于改进互信息和邻接熵的微博新词发现方法》于2016年发表于计算机应用,作者为:夭荣朋, 许国艳, 宋健. 

  2. 互联网时代的社会语言学:基于SNS的文本数据挖掘》该文章为《基于改进互信息和邻接熵的微博新词发现方法》初版,作者为:Matrix67 

  3. WordsGuess》是基于互信息和邻接熵实现的新词发现工具 

每周分享-第15期

我会将我每周看到的文章、文档、趣闻中比较有意义有趣的分享在这里,你可以点击标题查看原文,该周分享于每周星期五分享,我将会同步发布在博客以及微信公众号,微信公众号为:trickbox,欢迎关注。

因为微信公众号无法支持外链,所以点击正文下面的阅读原文可以访问我的博客进行查看原文。

新闻

1、三星手机三款设备获得STIG认证

SITG是美国国防信息管理局为商用移动设备制定的一套《安全技术实施指南》,如果通过了其规范,则意味着美国国防部以及其下属组织将可以使用这些设备介入安全环境中。
而近期,三星宣布旗下的Galaxy s10全系列(包含5G版)、Galaxy s9以及Galaxy Note9通过其SITG规范。

2、2019年有望成为数据泄露最糟糕的一年

2019年下半年的数据泄露事件数量在2019年上半年同比增长了54%,并且这些数据泄露的数据数量增加了52%,但今年上半年有超过3800个数据泄露事件被报告,其中只有8个暴露了超过32亿条记录,占截至到8月的2019年所有记录的80%。

3、Windows 记事本上线微软应用商店

自从记事本推出以来,这些年来并未发生太大变化。然后在2018年5月,微软宣布他们正在为UnixMac EOL角色添加急需的支持。从那时起,微软推出了一系列新的现代功能,例如环绕搜索,文本缩放,以及更好的UTF-8支持

微软在Windows 10 Insider Build 18963 发布说明中宣布Windows 10 Notepad现在将通过Microsoft Store分发,Windows 10发布周期之外,并允许开发人员尽快推出新的更新和修复。

4、研究发现晚上短时间玩手机可能更易入睡

据国外媒体报道,一项针对老鼠的最新研究表明,偶尔深夜玩手机可能更容易入睡,夜间短暂的手机光线照射并不一定会扰乱你的生物钟,包括睡眠习惯。

这项研究声明白鼠实验并不能完成代表人类,但有一点是很清楚的,长期夜间暴露在灯光下,以及由此导致的睡眠中断,可能对人体健康非常不利。也就是说,人们不能以这项研究为借口,用智能手机通宵看视频。

5、2019年高温已经超过了以往的记录

随着现代的人类活动导致的长期全球变暖,例如燃烧化石燃料用于能源和运输,砍伐森林用于农业和其他目的,都是导致变暖的原因,根据数据统计在记录中前20个最热的年份,只有一个是发生在2000年之前,这也就意味着2000年后,全球大力发展的同时,也让地球的气候正在以一种不可思议的速度上升。

点击该新闻标题,可以查看全球的气候数据,该网站并将1921年-1969年的气候数据与1970-2018年的气候数据制作成了图表,可以非常直观的看见之间的对比。

6、澳大利亚法院裁定手机不是电脑

该事情起因是因为澳大利亚联邦警察以《犯罪法》中的3LA条例获得了一份逮捕令,用于解锁一名男子车中的三星金色手机,但是该男子声称这部电话不属于他的,并且不知道手机的解锁密码。

而在之后时间里,联邦法院裁定联邦警察不能授权进行解锁其手机,这是因为手机不是联邦“犯罪法”所定义的计算机或数据存储设备。

因为在该法律中没有定义计算机的概念,而是将数据存储设备定义为“包含供计算机使用的数据的设备”,而移动电话的主要目的是用于通讯的设备。

7、黑客公布IOS-12.4越狱漏洞

8月19日早晨,知名的IOS黑客Pwn20wnd发布了针对于IOS12.4的越狱漏洞,并且该漏洞可能会影响到IOS当前版本以及更旧的版本。

除此之外,该Pwn20wnd还提到,该漏洞利用代码可能包含在为iPhone用户开发的恶意软件之中,并且可能已经有人在利用这个漏洞。

8、Chrome不再支持FTP协议

近期Chrome将逐步淘汰FTP协议,宣称该协议因安全问题而放弃和浏览器中FTP的使用率低,目前谷歌Chrome的FTP剩余功能仅限于显示目录列表或通过未加密的连接下载资源。

而在计划中2020年第二季度也就是计划的Chrome82版本,将彻底删除FTP相关的代码和资源。

9、Apple Card今天面向所有美国客户推出

在早些时候,Apple发布了Apple card,但是一直没有在任何地区开放使用,直到在2019年8月20日,官方宣布其产品Apple card正式对全美的用户发放使用,除此之外一起开放的还有Apple Card的奖励计划,该奖励计划力度非常大,会将每一笔消费金额的2%返利给消费者,如果是在Apple的自身的应用商店、服务消费,那就将以3%进行返利给消费者,并且该3%适用于通过App Store的内购。

除此之外,与传统卡相比,Apple Card更符合现代的信息安全设计,其卡上没有卡号、CCV号码以及有效期和签名,所以对比传统卡更加的安全。

10、雪球网12 万人数据被泄露

8月21日左右,网上流传称雪球网数据泄露,涉及12万人的数据只卖75美元,包含姓名,身份证,手机,账号/邮箱,密码,持股前3支,持股数,交易风格。对此雪球回应称,不会以任何方式将个人信息泄露给第三方,对此问题已进行核实,并且雪球网还称,会持续提升对用户信息的保护能力。

资源

1、Balsamiq mockups:一款支持多平台的原型设计工具,风格偏手绘风

2、OpenDrop:一款开源的数据传输项目,该项目特点是能与Apple产品中的AirDrop协议兼容。

3、httpd-asm:在X86汇编中的静态服务器

4、Mayan EDMS:一个开源的文档管理系统。其主要目的是存储,内审和分类文件,并且它还可以OCR,预览,标签,签名,发送和接收文件。