layout
default

嵌入式AI简报 (2019-08-30)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

国产AI框架再进化！百度Paddle Lite发布：率先支持华为NPU在线编译，全新架构更多硬件支持 | 量子位
摘要：Paddle Lite，高扩展、高性能、轻量化，还是首个支持华为NPU在线编译的深度学习端侧推理框架，剑指加大力度攻占移动端侧场景。
不仅涵盖ARM CPU、Mali GPU、Adreno GPU、华为NPU等移动端芯片，也支持FPGA等边缘设备常用硬件，并具备可兼容支持云端主流芯片的能力。
华为麒麟990下周发布，搭载Mate 30，集成5G基带芯片成关注焦点 | 芯潮
摘要：美国科技网站GSMArena表示，麒麟990将采用自研达芬奇架构NPU，有可能采用ARM的Cortex-A77 CPU内核和Mali-G77 GPU，将成为全球首发采用ARM A77架构的芯片。
华为史上最强芯片昇腾910面世，算力超Tesla V100一倍，AI框架MindSpore明年开源 | 机器之心
摘要：这是迄今为止华为推出的最强芯片。刚刚，华为在深圳宣布其自研的 AI 训练芯片「昇腾 910」正式上线。与此同时，一同推出的还有华为全场景 AI 计算框架 MindSpore。
面向服务器的芯片昇腾（Ascend）910 采用 7nm 制程，而设计功耗为 310W，其算力比英伟达 Tesla V100 还要高出一倍，半精度（FP16）达到了 256 TeraFLOPS（英伟达 Tesla V100 为 125），整数精度算力（INT8）则为 512TeraOPS。在这块芯片上，华为还加入了 128 通道全高清视频解码器。此外，华为表示，昇腾 910 达到规格算力所需功耗仅 310W，明显低于设计规格的 350W。
MindSpore 是华为提出的全场景 AI 框架，与 TensorFlow、PyTorch、PaddlePaddle 等框架并列。是一款支持端、边、云独立的和协同的统一训练和推理框架。
AMD自曝全新GPU架构手机也能用 | 安兔兔
摘要：日前，AMD官方发布了RDNA架构白皮书，详细介绍了自家的下一代GPU相关架构。其中介绍了RDNA架构首款产品RX 5700的设计细节，还对未来的超低功耗方案画了大饼。
架构方面。RDNA架构中每一对CU共享L1缓存，从而减少读写次数进而降低功耗，L2缓存可在64KB~512KB之间配置。工作机制上，AMD将工作负载分配到更多的核心上，此前的GCN架构是单核64次并行计算，而RNDA架构则收窄到32次，更有利于省电、降低最带宽的侵占。
AI方面，RDNA架构支持64、32、8、4位并行整数运算、矢量ALU的宽度是GCN的2倍、这都服务于FMA操作。而ARM最新的公版Mali-G77架构中，底层专门设计了硬件区块来为FMA操作服务。
AMD称，RDNA架构适用于高能效的笔记本，智能手机或者超算领域。三星已经确认首款产品不会早于2021年推出。
紫光展锐发布T618，T710：12nm工艺、影像/AI升级 | 安兔兔
摘要：紫光展锐推出全新8核架构的LTE移动芯片平台，命名紫光展锐虎贲T618，主要升级了影像处理和AI能力，为全球用户提供旗舰级的终端使用体验。
虎贲T618采用12nm制程工艺，由两颗2.0 GHz的Arm Cortex-A75 CPU 和六颗1.8 GHz的Arm Cortex-A55 处理器组成，配置Mali G52 GPU，可提供更高品质的图像显示效果。
同时发布的还有紫光展锐虎贲T710，采用8核CPU架构，由4颗2.0GHz的Arm Cortex-A75及4颗1.8GHz的Arm Cortex-A55组成，搭载工作频率为 800MHz 的IMG PowerVR GM 9446 图形处理器。虎贲T710包含了 CPU、GPU、NPU、ISP、VDSP等处理单元，为各类丰富的AI应用提供了高效能、低功耗的技术基础。
虎贲T710支持多种AI训练框架、多种AI模型量化方式，包括INT4、INT8、INT16和FP16，并且整合了如4K@30fps编解码，802.11AC，BT 5.0等多媒体和无线通信能力。
超硅技术里程碑！全球首款可编程碳纳米管芯片问世，RISC-V架构，14000+晶体管 | 芯潮
摘要：MIT和ADI公司的研究人员们创造了第一个完全可编程的16位碳纳米管微处理器。它是迄今基于碳纳米管的CMOS逻辑最复杂的集成，拥有14000多个晶体管，基于RISC-V架构，可执行与商用微处理器相同的任务。在测试中，它还执行了经典的“Hello World程序”。

论文

共享学习：蚂蚁金服提出全新数据孤岛解决方案 | 机器之心
摘要：当前，业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条。一条是基于硬件可信执行环境（TEE：Trusted Execution Environment）技术的可信计算，另一条是基于密码学的多方安全计算（MPC：Multi-party Computation）。
蚂蚁金服提出了希望通过技术手段，确保多方在使用数据共享学习的同时，能做到：用户隐私不会被泄露，数据使用行为可控，我们称之为共享机器学习（Shared Machine Learning）。

开源项目

Tensorflow Lite人体姿势跟踪功能上线：基于PosNet的实时人体姿态估计 |机器之心
摘要：Tensowflow Lite 是移动端计算机视觉应用程序中的明星产品。这个夏天，Tensorflow Lite 再度进化，加入了 PosNet 人体姿态估计模块，性能再度加强！
通过它在安卓设备上通过使用「PoseNet」模型来实现人体姿势估计。「PoseNet」是一种视觉模型，它可以通过检测关键身体部位的位置来估计图像或者视频中的人体姿势。例如，该模型可以估计图像中人的手肘和/或膝盖位置。
谷歌开源手势识别器，手机能用，运行流畅，还有现成的App | 量子位
摘要：借助TensorFlow Lite和MediaPipe，谷歌刚刚开源了一款手势识别器，可以直接在手机上运行，实时跟踪，并且已经开源。有了这项应用，你可以开发手语识别、AR游戏，甚至用它来玩石头剪刀布。
谷歌已经把这款手势识别器做成了一款名为“Hand Tracking GPU”的App，在安卓端有对应的apk安装包，下载到手机上，安装成功后，无需联网就可以直接用了。当然，iOS用户也可以安装，但是没有现成的安装包，可以下载源代码自行编译。App默认调用前置摄像头，如果屏幕中出现的是你的脸，它是没有反应的。伸手到屏幕前，就可以和官方演示的一样，识别出手部的各种姿势，123456789都可以识别。
中科视拓开源SeetaFace2人脸识别算法 | 中科视拓订阅号
摘要：来自中科院计算所的人工智能国家队中科视拓宣布，开源商用级SeetaFace2人脸识别算法。SeetaFace2采用商业友好的BSD协议，与2016年开源的SeetaFace1.0相比，SeetaFace2在速度和精度两个层面上均有数量级的提升。地址：https://github.com/seetafaceengine/SeetaFace2 。
didi/DoraemonKit: 简称 "DoKit" 。一款功能齐全的客户端（ iOS 、Android ）研发助手
摘要：每一个稍微有点规模的 App，总会自带一些线下的测试功能代码，比如环境切换功能、帧率查看功能等等，这些功能的切换入口往往放在各式各样的入口中，比如一些特殊的手势，双击 statusBar，双击某一个功能区块，或者新建一个 keyWindow 始终至于 App 最上方等等，而且每一个 App 里面的线下附带功能模块很多是相似的，比如帧率查看、内存和 CPU 监控等等，但是现在基本上都是每个 App 都是自己实现了一份，经历了以上的问题之后，DoraemonKit 就有了它存在的意义。
DoraemonKit 是一个功能集合面板，能够让每一个 App 快速接入一些常用的或者你没有实现的一些辅助开发工具、测试效率工具、视觉辅助工具，而且能够完美在 Doraemon 面板中接入你已经实现的与业务紧密耦合的一些非通有的辅助工具，功能强大，接入方便，便于扩展。

博文

移动的王者：深入分析ARM最强处理器Cortex A77 | MikesICroom
摘要：ARM在今年5月份新推出的Cortex A77架构，采用TSMC 7nm工艺，3GHz峰值频率，性能提升20%。之前一篇文章介绍过X86最强处理器ZEN的架构，详见。本文基于同样原则来分析ARM架构最强处理器A77，深入探讨其设计方案以及和X86架构的异同。
华为的通用AI之路：深度解读达芬奇架构硬件篇 | MikesICroom
摘要：2019年的hotchip如期闭幕。其中很多AI相关的报告，最想了解的当然是华为的达芬奇架构。从半年前昇腾处理器的各种新闻就吊足了胃口，不过一直没有细节部分的展示。这次hotchip的presentation终于可以一窥真目了。由于没有听过现场的演讲，只能根据ppt的内容进行解读。
达芬奇架构追求的是一个全场景的scalable设计，以一个通用的硬件架构，实现从低端到高端的全覆盖。这是一个很宏大的目标。由于各个应用领域的具体需求不同，比如嵌入式领域对成本和功耗非常注重，移动端更关注性能和功耗的平衡，而云端是极致性能的追求者。通常来说很难有一种架构适配全部应用场景。像ARM这样的通用处理器架构，也针对应用领域的不同需求，设计了M/R/A三个系列，分别针对嵌入式、实时系统和应用领域。这一篇主要是针对达芬奇的硬件结构。
如何看待Google的MLIR项目 | 知乎
26秒训练ResNet，用这些技巧一步步压缩时间 | 量子位
摘要：谷歌AI掌门人Jeff Dean转发推荐了一个训练ResNet的奇技淫巧大礼包，跟着它一步一步实施，训练9层ResNet时，不仅不需要增加GPU的数量，甚至只需要1/8的GPU，就能让训练速度加快到原来的2.5倍，模型在CIFAR10上还能达到94%的准确率。
Reddit热议：为什么PyTorch比TensorFlow更快 | 新智元
摘要：PyTorch可以和TensorFlow一样快，有时甚至比TensorFlow更快了？这是怎么回事？最近Reddit的一个帖子引起热议。
从模型到部署，FPGA该怎样加速广告推荐算法 | 机器之心
摘要：在这篇文章里你可以了解到广告推荐算法 Wide and deep 模型的相关知识和搭建方法，还能了解到模型优化和评估的方式、将模型部署到 FPGA 上做硬件加速的方法。
通过Termux打造免root安卓渗透工具 | 原创:D0m4nce 信安之路
摘要：学习信息安全有一段时间了，之前在信安之路看到过关于树莓派和 badusb 的文章，不过一直没有尝试。前几天偶然看到termux这个 app，于是想尝试看能不能作为替代品使用。
Termux 简介：Termux是一个Android下一个高级的终端模拟器,开源且不需要root,支持apt管理软件包，十分方便安装软件包，完美支持Python、PHP、Ruby、Go、Nodejs、MySQL等（推荐从 Google Play 下载）。

往期回顾

2019-08-15
2019-07-30
2019-07-15
2019-06-29
2019-06-17
2019-05-30
2019-05-15
2019-04-27
2019-04-13
2019-03-31

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-08-30.md

2019-08-30.md

嵌入式AI简报 (2019-08-30)

业界新闻

论文

开源项目

博文

往期回顾

Files

2019-08-30.md

Latest commit

History

2019-08-30.md

File metadata and controls

嵌入式AI简报 (2019-08-30)

业界新闻

论文

开源项目

博文

往期回顾