谷歌发论文披露TPU详细信息，比GPU、CPU快15-30倍

自从google去年透露自己开发了一款名为tpu的专用芯片，用于提高人工智能计算任务的执行效率，关于这种新芯片的猜测就从未停止。

今天，google终于披露了关于tpu的更多信息。除了发表一篇有75位联合作者的论文《in-datacenter performance analysis of a tensor processing unittm》外，文章的第四作者david patterson还在美国国家工程院的活动上发表了演讲。

关于tpu的论文将正式发表于今年6月在多伦多召开的计算机体系结构国际研讨会（international symposium on computer architecture, isca），google目前已经在google drive上将其公开。

△ tpu的印刷电路板

该公司从2015年开始就一直在内部使用tpu，并在去年5月的google i/o开发者大会上，对外公布了这种芯片的存在。

tpu是一种asic（专用集成电路），google将其用在神经网络的第二个步骤。使用神经网络首先要用大量数据进行训练，通常在使用gpu加速的服务器上进行。之后，该公司便会开始使用tpu加速新数据的推断。谷歌表示，这比直接使用gpu或基本的x86芯片速度快很多。

他们在论文中写道：“尽管某些应用的利用率较低，但tpu平均比gpu或cpu速度快15至30倍左右。”其中的gpu或cpu具体指的是英伟达的tesla k80 gpu和英特尔的至强e5-2699 v3芯片，后者可以成为tpu的底层平台。

过去5年，英伟达等公司的gpu已经成为经济型深度学习系统的默认基础架构，而谷歌也对此做出了贡献。但谷歌和微软等公司还在探索其他类型的人工智能芯片，包括fpga（现场可编程门阵列器件）。谷歌的项目因为其来源和使用范围而受到关注，该公司工程师norm jouppi在博客中写道，这套系统已经应用于谷歌图片搜索、google photos和谷歌云视觉应用api等服务。

该论文称，一个tpu的片上内存容量达到tesla k80的3.5倍，而且体积更小。每耗电1瓦的性能则高出30至80倍。谷歌目前可以将两个tpu安装到一台服务器中，但这并不表示他们不会开发其他更强大或更经济的硬件系统。

谷歌对人工智能网络的重视高于很多科技公司，他们2013年就认定这项技术广受欢迎，可以将其数据中心的计算需求扩大一倍。如果完全使用标准芯片，成本将十分高昂，难以承受。所以谷歌开始开发自己的技术，希望实现10倍于gpu的成本效益。

“我们没有与cpu密切整合，为了减少延迟部署的几率，tpu设计成了一个pcie i/o总线上的协处理器，使之可以像gpu一样插到现有的服务器上。”论文还写道，“另外，为了简化硬件设计和调试过程，主服务器发送指令让tpu来执行，而不会自主执行。因此，与tpu更加接近的是fpu（浮点单元）协处理器，而非gpu。目标是在tpu运行完整的推理模型，降低与主cpu的互动，并使之足以灵活地满足2015年及之后的神经网络需求，而不仅仅适用于2013年的神经网络。”

论文称，通常而言，在tpu上运行代码跟使用谷歌领导的tsensorflow开源深度学习框架一样简单。

提示：google在论文中提到的测试结果，都是基于该公司自己的测试标准。

原文发布时间为：2017-04-06

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“bigdatadigest”微信公众号

谷歌发论文披露TPU详细信息，比GPU、CPU快15-30倍

继续阅读

疾病研究：重症肌无力

Nacos 2.0 升级前后性能对比压测

人工智能如何有效地运用于自然语言处理

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

[HTML5]自定义属性 data-* 和 jQuery.data 详解

9.spark Core 进阶2--Cashe

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

浅谈企业活动中进行数据分析的重要性

无人机--飞控科普

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark