인공지능에서 있는 문제들

2023. 11. 13. 17:04카테고리 없음

트레이닝에 있어서 메모리 용량 문제가 있을 수 있다.

 

1. activation ( input to neural network layer ) 이 큰 경우 

GPU에 큰 메인 메모리를 요구한다.

: 하나의 GPU에 딸린 메인 메모리 크기가 작아서 여러 GPU를 배치로 쓰는 경우가 있음

2. 라지 모델 문제

: GPU가 모든 파라미터를 저장할 수 없음.

 

여러 기업들의 해결법 

메타 : pooled memory라고 해서 10TB 이상의 메모리를 CXL을 활용해서 사용하고 있음.

딥스피드 : 1Trillion parameter

3D 병렬성으로 해서 GPU를 파이프라인 

ZionEX : GPU가 다른 노드에 있는 GPU와 communicate하기 위해 RDMA NIC를 사용함.

 

embedding table은 categorical 데이터를 low dimension 벡터로 나타내는 것이다. categorical feature을 neural network가 처리할 수 있는 포맷으로 바꿔준다. 

 

quotient-remmainder 기법은 embedding table을 분산시키는 기법이다. quotient-remainder 기법은 메모리 크기를 줄이는데는 좋지만 모델 정확도를 낮춘다는 문제점을 가지고 있습니다. 

해쉬 기법으로 나눠서 저장한다.