forked from chenzomi12/AISystem
-
Notifications
You must be signed in to change notification settings - Fork 0
/
05.srt
1752 lines (1314 loc) · 28.7 KB
/
05.srt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1
00:00:00,975 --> 00:00:03,639
字幕生成:慎独 校对:游吟外星人
2
00:00:04,929 --> 00:00:06,560
Hello,大家好
3
00:00:06,600 --> 00:00:09,680
我是五一终于有空过来更新的ZOMI了
4
00:00:09,720 --> 00:00:13,240
现在还是在AI芯片里面的GPU详解
5
00:00:13,280 --> 00:00:16,760
这里面的GPU主要是特指英伟达的GPU
6
00:00:16,975 --> 00:00:18,858
在上一节其实已经给大家汇报了
7
00:00:18,858 --> 00:00:22,138
从Fermi到Volta架构的具体的详细的内容
8
00:00:22,178 --> 00:00:24,578
今天来从Turing到Hopper架构
9
00:00:24,618 --> 00:00:26,978
去看看具体有什么不一样
10
00:00:27,178 --> 00:00:30,418
今天主要去分开几个内容给大家介绍的
11
00:00:30,538 --> 00:00:32,138
第一个就是从Turing的架构
12
00:00:32,178 --> 00:00:33,978
Ampere的架构到Hopper的架构
13
00:00:34,018 --> 00:00:35,858
主要讲解这三个架构
14
00:00:35,898 --> 00:00:40,587
这三个架构也是近5年来才慢慢的出现的
15
00:00:40,587 --> 00:00:43,858
Turing架构更多的是应用在游戏领域
16
00:00:43,858 --> 00:00:46,075
而Ampere架构对于AI训练
17
00:00:46,075 --> 00:00:48,618
或者AI的从业者来说是用的最多的
18
00:00:48,618 --> 00:00:51,178
这个系列里面很重要的有几个内容
19
00:00:51,178 --> 00:00:54,858
就是Tensor Core迎来了3.0就第三代了
20
00:00:54,898 --> 00:00:57,698
而NVLink也迎来了第三代了
21
00:00:57,738 --> 00:01:00,844
最后我至少我现在还拿不到货的
22
00:01:00,844 --> 00:01:02,170
就是Hopper的架构
23
00:01:02,170 --> 00:01:04,258
Hopper架构其实非常的惊艳
24
00:01:04,258 --> 00:01:07,378
除了使用了4nm的制程以外
25
00:01:07,418 --> 00:01:10,172
里面的晶体管对比起Ampere架构
26
00:01:10,172 --> 00:01:11,648
翻了接近三倍
27
00:01:11,756 --> 00:01:14,218
整个架构的设计也是非常惊艳
28
00:01:14,218 --> 00:01:16,898
后面会给大家去介绍展开的
29
00:01:17,098 --> 00:01:18,218
回到今天内容
30
00:01:18,218 --> 00:01:20,578
今天主要是回顾一下Volta架构
31
00:01:20,578 --> 00:01:23,978
Volta架构是第一代的Tensor Core
32
00:01:23,978 --> 00:01:25,508
通过第一代的Tensor Core
33
00:01:25,508 --> 00:01:27,258
更好的支持了AI的运算
34
00:01:27,258 --> 00:01:30,938
后面每一代架构都会对Tensor Core进行迭代
35
00:01:30,938 --> 00:01:31,935
在2018年
36
00:01:31,935 --> 00:01:35,658
Turing架构更多的是一个RT Core光线追踪的核心
37
00:01:35,658 --> 00:01:38,778
所以我说它主要是用在游戏领域
38
00:01:38,778 --> 00:01:40,858
后来有了Ampere架构和Hopper架构
39
00:01:40,858 --> 00:01:42,578
今天来详细的看看
40
00:01:42,618 --> 00:01:46,098
这4个架构或者后面三个架构有什么不一样
41
00:01:47,808 --> 00:01:48,702
英伟达的教主(皮衣刀客)
42
00:01:48,702 --> 00:01:51,458
黄仁勋就发布了Turing架构
43
00:01:51,618 --> 00:01:53,978
这一代架构确实也是非常的惊艳
44
00:01:53,978 --> 00:01:57,298
Turing架构里面有两个主要的更新
45
00:01:57,298 --> 00:01:59,498
第一个更新就是Tensor Core
46
00:01:59,498 --> 00:02:00,658
新一代的Tensor Core
47
00:02:00,658 --> 00:02:04,378
第二个更新就是引入了RT Core光线追踪
48
00:02:04,378 --> 00:02:06,938
而这里面这两代的架构很有意思的
49
00:02:06,938 --> 00:02:10,978
基本上都引入到了消费级的显卡
50
00:02:10,978 --> 00:02:13,855
也就是GTX系列里面
51
00:02:13,978 --> 00:02:15,938
第一个内容就是刚才说到的
52
00:02:15,938 --> 00:02:17,978
Turing架构引入了Tensor Core
53
00:02:18,258 --> 00:02:19,883
这个Tensor Core新增了
54
00:02:19,883 --> 00:02:22,578
INT8到INT4的支持
55
00:02:22,578 --> 00:02:26,578
更好的为深度学习的推理引擎进行加速
56
00:02:27,117 --> 00:02:29,418
第二个内容就是RT Core了
57
00:02:29,418 --> 00:02:33,138
RT就是Ray Traced光线追踪的核心
58
00:02:33,138 --> 00:02:36,768
主要是用来做一些三角形和光线的求交
59
00:02:37,033 --> 00:02:39,596
这个RT Core是在Block之外的
60
00:02:39,596 --> 00:02:43,058
相对于ALU,INT32,FP32这种计算来说
61
00:02:43,058 --> 00:02:45,298
两者之间是异步的关系
62
00:02:45,554 --> 00:02:47,098
现在简单的看看RT Core
63
00:02:47,098 --> 00:02:50,418
RT Core分为左边的框框和右边的框框
64
00:02:50,498 --> 00:02:53,258
左边的框框一部分是用来做碰撞的检测
65
00:02:53,258 --> 00:02:56,218
另外一部分就真正的去求交面的
66
00:02:56,498 --> 00:02:57,858
下面来看一下
67
00:02:57,858 --> 00:03:01,578
有RT Core和没有RT Core的一个不同点
68
00:03:01,778 --> 00:03:03,538
上面就是没有开RT Core的
69
00:03:03,538 --> 00:03:05,058
下面就是开了RT Core
70
00:03:05,058 --> 00:03:09,058
可以看到这里面的人物的光线是更进一步的
71
00:03:09,058 --> 00:03:10,809
就看出来更加逼真
72
00:03:10,809 --> 00:03:12,698
右边的没有RT Core的时候
73
00:03:12,698 --> 00:03:13,898
就没有做光线追踪
74
00:03:13,898 --> 00:03:16,804
这里有fire,有火焰的时候
75
00:03:16,804 --> 00:03:19,098
其实在车上是没有反映出来的
76
00:03:19,138 --> 00:03:20,704
而开了RT Core之后
77
00:03:20,704 --> 00:03:24,418
整个光线的反照是变得非常之有意思的
78
00:03:24,418 --> 00:03:25,858
非常之真实逼真
79
00:03:25,858 --> 00:03:30,298
而这里面连车头车灯这些反光全都映射出来
80
00:03:30,298 --> 00:03:33,589
这就是光线追踪非常有意思的一个话题点
81
00:03:33,589 --> 00:03:37,178
光线追踪也是英伟达最擅长的事情了
82
00:03:37,338 --> 00:03:38,507
下面看一看
83
00:03:38,699 --> 00:03:39,760
Turing架构出现在
84
00:03:39,760 --> 00:03:42,818
RTX2090,3090到40X系列
85
00:03:42,818 --> 00:03:45,298
就是40系列到现在能够卖的
86
00:03:45,298 --> 00:03:47,698
整体来说我个人是非常喜欢的
87
00:03:47,698 --> 00:03:51,138
因为真正的把AI变成一个消费级的显卡
88
00:03:51,138 --> 00:03:54,418
像我这种下班就没有更好的卡去用的时候
89
00:03:54,418 --> 00:03:56,618
我在家里还可以去玩一玩
90
00:03:57,495 --> 00:04:00,698
下面来到了Ampere架构(安倍架构)
91
00:04:00,698 --> 00:04:03,351
安倍架构也是2020年推出的
92
00:04:03,351 --> 00:04:04,738
三年前的一个架构
93
00:04:04,738 --> 00:04:07,938
其实现在在市场上还是抢断货的
94
00:04:08,443 --> 00:04:10,378
所以说安倍架构在AI领域
95
00:04:10,378 --> 00:04:12,578
还是非常经得住考验的
96
00:04:12,578 --> 00:04:15,923
现在看看安倍架构有哪些主要的特点
97
00:04:15,923 --> 00:04:16,757
首先第一个特点
98
00:04:16,757 --> 00:04:21,138
就是有超过540亿个晶体管所组成
99
00:04:21,138 --> 00:04:24,018
也就是当时候应该是2020年的时候
100
00:04:24,018 --> 00:04:27,498
世界上最大的7nm的处理器
101
00:04:27,498 --> 00:04:30,037
就是英伟达的A100
102
00:04:30,037 --> 00:04:30,893
而第二个(特点)
103
00:04:30,893 --> 00:04:33,498
就是新增了第3代的Tensor Core
104
00:04:33,498 --> 00:04:37,378
这里面包括新增了一个特别有意思的数据位
105
00:04:37,378 --> 00:04:40,778
就是TF32专门针对AI进行加速
106
00:04:40,778 --> 00:04:42,258
后面三个我觉得很重要
107
00:04:42,258 --> 00:04:43,658
简单的列一列
108
00:04:43,898 --> 00:04:45,553
这个就MIG Multi Instance GPU
109
00:04:45,553 --> 00:04:46,778
Multi-Instance GPU
110
00:04:46,778 --> 00:04:47,948
多实例的GPU
111
00:04:47,948 --> 00:04:49,736
将单个的A100 GPU
112
00:04:49,736 --> 00:04:51,698
划分成为多个独立的GPU
113
00:04:51,698 --> 00:04:54,058
为不同的用户提供不同的算力
114
00:04:54,058 --> 00:04:55,698
这个工作我觉得更多的
115
00:04:55,698 --> 00:04:59,978
是为云服务器厂商提供一种更好的算力切分的方案
116
00:05:00,242 --> 00:05:01,060
接着还引入了
117
00:05:01,060 --> 00:05:02,858
第3代的NV-Link和NV-Switch
118
00:05:02,858 --> 00:05:04,058
NV-Switch很有意思
119
00:05:04,058 --> 00:05:08,216
就把多台机器通过NV-Switch进行互联
120
00:05:08,216 --> 00:05:10,822
单卡之间也就单机多卡之间
121
00:05:10,822 --> 00:05:13,088
通过NV-Link进行互联
122
00:05:13,088 --> 00:05:15,938
这个顾名思义就是稀疏性的加速
123
00:05:15,938 --> 00:05:19,498
利用数学的稀疏性对AI的矩阵乘进行加速
124
00:05:20,138 --> 00:05:22,806
下面看看整体的Ampere架构
125
00:05:22,806 --> 00:05:25,148
右边就是Ampere架构的架构图
126
00:05:25,148 --> 00:05:26,818
A100是2020年的时候
127
00:05:26,818 --> 00:05:29,938
7nm里面最多晶体管的一款芯片
128
00:05:29,938 --> 00:05:33,698
里面就有6912个CUDA的内核
129
00:05:33,698 --> 00:05:35,778
和430个Tensor Core
130
00:05:35,778 --> 00:05:37,498
Tensor Core非常多
131
00:05:37,498 --> 00:05:40,658
所以A100是非常善于去处理深度学习的内容了
132
00:05:40,658 --> 00:05:44,898
整体的晶体管数已经到了540亿个晶体管
133
00:05:44,898 --> 00:05:48,938
108个SM,SM非常多
134
00:05:48,938 --> 00:05:51,098
而采用了第3代的NV-Link
135
00:05:51,098 --> 00:05:52,538
看看NV-Link在哪里
136
00:05:52,538 --> 00:05:54,578
对,NV-Link在下面
137
00:05:54,578 --> 00:05:56,378
采用了第3代的NV-Link
138
00:05:56,378 --> 00:06:00,378
GPU和服务器之间的双向带宽是4.8TB每秒
139
00:06:00,378 --> 00:06:04,282
而GPU跟GPU之间是600GB每秒
140
00:06:04,282 --> 00:06:06,458
至少我现在遇到很多友商
141
00:06:06,458 --> 00:06:08,498
他们在训练大模型的时候
142
00:06:08,498 --> 00:06:10,858
用的更多的都是Ampere架构
143
00:06:11,433 --> 00:06:12,825
Ampere架构里面很重要的
144
00:06:12,825 --> 00:06:14,898
就是Tensor Core的新一代
145
00:06:14,898 --> 00:06:16,818
引入了TF32 BF16
146
00:06:16,818 --> 00:06:19,298
还有FP64的支持
147
00:06:19,298 --> 00:06:24,098
在Tensor Core里面很重要的就是BF16和TF32
148
00:06:24,098 --> 00:06:25,218
这两个很有意思
149
00:06:25,218 --> 00:06:29,005
平时用的更多的是FP32和FP16
150
00:06:29,005 --> 00:06:30,658
在指数位有8个
151
00:06:30,658 --> 00:06:33,159
FP16在指数位有5个
152
00:06:33,159 --> 00:06:35,298
总体来说FP32的位宽
153
00:06:35,298 --> 00:06:38,690
也就是它的Range会比FP16更多
154
00:06:38,690 --> 00:06:41,018
后面的是小数位,小数位决定精度
155
00:06:41,018 --> 00:06:43,258
小数位在FP32有32个
156
00:06:43,258 --> 00:06:44,418
而整体来说
157
00:06:44,418 --> 00:06:45,898
FP16只有10个
158
00:06:45,898 --> 00:06:47,538
后来在训练AI的时候
159
00:06:47,538 --> 00:06:50,098
其实发现FP16很多时候是够用的
160
00:06:50,098 --> 00:06:51,658
但是会遇到部分情况下
161
00:06:51,658 --> 00:06:54,018
动态范围其实表示的不是很大
162
00:06:54,018 --> 00:06:56,498
于是英伟达就推出了TF32
163
00:06:56,498 --> 00:07:00,338
TF32就是指数位保持跟FP32相同
164
00:07:00,338 --> 00:07:03,138
而小数位也就是后面的小数位
165
00:07:03,138 --> 00:07:04,978
跟FP16相同
166
00:07:04,978 --> 00:07:07,258
后来又出现了BF16
167
00:07:07,258 --> 00:07:09,498
也就是从Ampere架构去引入的
168
00:07:09,498 --> 00:07:11,258
BF16用的指数位
169
00:07:11,258 --> 00:07:13,498
其实跟FP32
170
00:07:13,498 --> 00:07:15,178
还有TF32相同的
171
00:07:15,178 --> 00:07:18,218
但是小数位小了三位
172
00:07:18,218 --> 00:07:21,098
把三位让给了Range
173
00:07:21,098 --> 00:07:23,618
其实我听过坊间很多传言说
174
00:07:23,618 --> 00:07:27,023
FP16在在训练大模型的时候不够用
175
00:07:27,023 --> 00:07:28,662
更多的是用BF16
176
00:07:28,662 --> 00:07:31,058
其实我在训练大模型的时候
177
00:07:31,058 --> 00:07:33,498
用的很多FP16是够用的
178
00:07:33,498 --> 00:07:36,818
如果可以肯定是用TF32更好
179
00:07:36,818 --> 00:07:39,107
但是其实发现用FP16
180
00:07:39,107 --> 00:07:40,538
至少我现在训练的LLAMA
181
00:07:40,538 --> 00:07:41,618
还有GPT-3
182
00:07:41,618 --> 00:07:44,098
是没有遇到精度不收敛的问题
183
00:07:44,098 --> 00:07:46,778
或许我的大模型还没训练完
184
00:07:48,058 --> 00:07:49,818
下面看看Ampere架构的
185
00:07:49,818 --> 00:07:52,119
一个稀疏化的情况
186
00:07:52,119 --> 00:07:54,538
右边这个图就是Ampere架构的
187
00:07:54,538 --> 00:07:57,546
一个细粒度的稀疏化流程图
188
00:07:57,546 --> 00:08:00,338
Tensor Core除了执行乘加的操作以外
189
00:08:00,338 --> 00:08:03,898
它还可以支持稀疏的结构化的矩阵
190
00:08:04,413 --> 00:08:06,418
假设现在有一个稠密的矩阵
191
00:08:06,418 --> 00:08:08,818
稠密的矩阵是在训练的时候得到的
192
00:08:08,818 --> 00:08:10,338
但是真正在推理的时候
193
00:08:10,338 --> 00:08:12,338
做了一个简单的剪枝
194
00:08:12,338 --> 00:08:13,779
剪枝它是有比例的
195
00:08:13,779 --> 00:08:14,665
剪枝完之后
196
00:08:14,665 --> 00:08:16,098
我会做一个Fine-tunel的剪枝
197
00:08:16,098 --> 00:08:19,653
然后得到一个稀疏的矩阵或者稀疏的权重
198
00:08:19,653 --> 00:08:21,338
接着在英伟达架构里面
199
00:08:21,338 --> 00:08:23,778
就会对矩阵进行压缩
200
00:08:23,778 --> 00:08:25,458
变成一个稠密的矩阵
201
00:08:25,458 --> 00:08:27,538
稠密的矩阵有一个很有意思的点
202
00:08:27,538 --> 00:08:29,898
就是除了矩阵的数据之外
203
00:08:29,898 --> 00:08:31,698
它还有一个indices
204
00:08:31,948 --> 00:08:34,358
所以去把那些压缩过的数据
205
00:08:34,378 --> 00:08:36,173
进行检索记录
206
00:08:36,173 --> 00:08:38,118
最后进行一个矩阵乘
207
00:08:38,143 --> 00:08:39,138
这个是activation
208
00:08:39,138 --> 00:08:39,998
矩阵乘之后
209
00:08:40,018 --> 00:08:41,778
得到output的activation
210
00:08:41,778 --> 00:08:44,103
整体的逻辑那就是右边的这个图
211
00:08:44,323 --> 00:08:47,098
那现在来到了Ampere架构里面
212
00:08:47,098 --> 00:08:49,113
比较后期的一些内容了
213
00:08:49,168 --> 00:08:52,178
可以看到这里面是多实例分割
214
00:08:52,178 --> 00:08:53,778
也就是提到的MIG
215
00:08:53,778 --> 00:08:57,413
每个A100可以分为7个不同的GPU实例
216
00:08:57,463 --> 00:08:59,673
被不同的任务所执行
217
00:08:59,683 --> 00:09:02,618
所以可以看到有很多不同的user
218
00:09:02,618 --> 00:09:04,313
分为7个实例
219
00:09:04,383 --> 00:09:06,713
这些用户可以将这些虚拟化的GPU
220
00:09:06,738 --> 00:09:09,083
当成实际的GPU去执行
221
00:09:09,083 --> 00:09:10,983
所以ZOMI觉得A100架构
222
00:09:11,058 --> 00:09:13,418
就是为很多云计算的厂商
223
00:09:13,503 --> 00:09:17,178
提供了算力切分和多用户的租赁的任务
224
00:09:17,603 --> 00:09:19,178
这个也是Ampere架构
225
00:09:19,178 --> 00:09:20,698
被更多的人去用到(的原因)
226
00:09:20,698 --> 00:09:22,658
因为大家去租用服务器厂商(的服务)
227
00:09:22,658 --> 00:09:24,258
或者用云的时候
228
00:09:24,258 --> 00:09:26,378
用的很多的Ampere架构
229
00:09:26,378 --> 00:09:28,058
或者A100的服务器
230
00:09:28,833 --> 00:09:31,138
再往下看看就整个英伟达的
231
00:09:31,138 --> 00:09:33,778
A100的整体的硬件的规格
232
00:09:34,018 --> 00:09:35,698
放开硬件左边的硬件规格
233
00:09:35,698 --> 00:09:37,778
看看右边的图
234
00:09:37,783 --> 00:09:41,303
很有意思的就是现在它整块
235
00:09:41,448 --> 00:09:45,238
上面的这些,上面这一坨都是散热板
236
00:09:45,248 --> 00:09:48,448
而真正的A100是下面的贴片
237
00:09:48,498 --> 00:09:49,778
下面的芯片
238
00:09:49,778 --> 00:09:52,858
这里面不再是通过PCIE插进去
239
00:09:52,858 --> 00:09:56,018
而是直接焊在主板上面
240
00:09:56,018 --> 00:09:59,098
英伟达卖呢,是卖整一个节点
241
00:09:59,273 --> 00:10:03,258
整一个节点就有8个A100的芯片了
242
00:10:03,733 --> 00:10:05,038
在训练大模型的时候
243
00:10:05,058 --> 00:10:07,218
大家会感受的特别深刻
244
00:10:07,218 --> 00:10:10,393
我在同一个节点里面进行模型并行的时候
245
00:10:10,398 --> 00:10:11,678
是非常方便的
246
00:10:11,678 --> 00:10:14,253
但是跨节点跨机器之间训练大模型
247
00:10:14,273 --> 00:10:18,098
带宽就会成为整个网络制约的瓶颈
248
00:10:18,123 --> 00:10:20,823
或者整个大模型训练的瓶颈
249
00:10:21,058 --> 00:10:23,658
在这一个整机里面我发现有个很有意思的点
250
00:10:23,658 --> 00:10:25,728
就是整一个整机