수급과 나의 전망 - 향후 스마트폰 시장에서의 온디바이스 SLLM
결론 부터 말하면 시장에서 내 생각이 옮은것 보다 수급이 어디로 흘러 들어갈까가 더 중요합니다.
수급은 앞을 확실 히 알 수 없으니 이전처럼 흘러갈듯.
공장완료 되기 훨씬 전 부터 가격 떨어지고 그럼 같이 빠지고 그런데 생각과 달리 계속 매출 늘어나네 그럼 다시 오를듯.
메모리 반도체가 사이클 산업이라서 다 왔나 걱정하는데 이번엔 이전 보다 더 오래 꾸준히 갈 수 있을듯 하단 생각이 들었습니다.
RAM은 현재 노이만 컴퓨터 특성상 주기억장치에 올려 놓고 사용하는 방식으로 적당히 많으면 무조건 좋습니다.
하고싶은 말은 간략히 말하면 램용량이 크면 클 수록 그에 맞는 큰 용량의 SLLM 사용가능하기 때문에 RAM 용량 크기 자체가 성능 UP!!
개인정보나 업무에 민감하지만 LLM를 사용해야 되는 경우는 기본 제공되는 더 성능 좋은 외부의 대형 모델보다 로컬 LLM 사용.
현재 PC에서 32G 정도 끼워 사용하는 컴퓨터에선 30B 정도 되는것 못돌리고 형편없는 품질의 7B 정도 테스트로 해볼 수 있는데 사용하는 바보는 없을 듯.
(여기서 형편 없다는 것은 실제 실무에 사용하는 사람이 없을 것이기 때문에 형편 없다는 것입니다.)
최소 64G는 되어야 하고 128G는 되어야 좀 더 큰 거 테스트 해보고 괜찮으면 회사에서는 추가 컴퓨터 구매해서 업무에 적용 시킬 수 있음.
(좀 비싸지만 큰 모델은 빌려서 테스트 하는 방법도 있습니다.)
▷ LLM에서 자주 쓰이는 관련 용어
- Quantization (양자화) - 비트 수를 줄여 모델 크기 축소
- Pruning (가지치기) - 불필요한 가중치를 제거
- Distillation (증류) - 큰 모델의 지식을 작은 모델로 이전
- GGUF Q4_K_M Q5_K_S 같은 표기 - 양자화된 모델 파일의 정밀도를 나타내는 규격
요즘 위처럼 해서 메모리 적어도 사용 가능하다고 하지만 본인이 쓰고 있지도 않으면서 모델은 크면 클 수록 성능이 무조건 좋습니다. 좋지 않으면 나오지도 않겠지요.
적다보니 계속 늘어나는데 위에서 양자화는 양자역학 양자컴퓨팅에서 쓰는 완전히 다른 개념으로 LLM 경량화와는 관련이 없고.
한국어로 "양자화"라고 쓰면 "양자(quantum)"와 글자가 겹쳐서 오해하기 쉽지만 여기서 양자화의 "양자(量子)"는 "양을 잘게 나눈 단위" 라는 의미로 영어 Quantization의 번역으로 물리학의 quantum과는 한자까지 같지만 맥락이 완전히 다릅니다.

삼성 애플 구글을 비롯한 주요 스마트폰 제조사들은 지금 자사 기기에 탑재할 소형 언어모델 경쟁에 본격적으로 뛰어들고 있으며 소비자 역시 더 이상 카메라 화소나 화면 크기만으로 기기를 고를 수 없는 시점에 와 있다.
클라우드 기반 AI의 지연 속도와 개인정보 문제를 해결하기 위해 온디바이스 AI가 빠르게 표준이 되어가고 있고 2026년을 기점으로 플래그십 모델의 램 용량이 이전 세대와 확연히 다른 모습을 보이기 시작할 것이다.
서버가 아닌 스마트폰 내부에서 직접 모델을 구동하는 방식이 핵심이며 이는 오프라인 환경이나 항공기 안에서도 AI 기능을 쓸 수 있게 해주는 대신 기기 자체의 하드웨어 자원을 상당히 요구한다.
스마트폰에서 SLLM을 제대로 돌리려면 최소 30B 정도의 모델은 되어야 답변 품질이나 반응 속도 면에서 그나마 쓸 만한 수준이 나오며 그 이하 크기의 모델은 번역이나 간단한 요약 정도에는 쓸 수 있어도 복잡한 추론이나 긴 문맥을 처리하는 작업에서는 한계를 드러낸다.
30B급 모델을 메모리에 올려두고 다른 앱이나 백그라운드 작업과 함께 원활하게 사용하려면 램이 최소 64GB는 확보되어야 하기 때문에 앞으로 스마트폰에서 램 용량은 지금보다 훨씬 더 큰 비중으로 늘어날 수밖에 없고 제조사 입장에서도 모바일용 저전력 고용량 램 확보가 핵심 경쟁력이 된다.
결국 어떤 크기의 SLLM을 탑재하느냐에 따라 스마트폰의 가격대와 실사용 성능이 확연하게 갈리는 시대가 올 것이며 소비자는 이제 CPU 속도나 배터리 용량뿐 아니라 램 용량과 탑재 모델 크기를 함께 따져보고 기기를 선택해야 하는 상황에 놓이게 된다.
