전자, 닉스 메모리 압축으로 인한 하락에 관해서
제 생각을 결론부터 말하면 이건 핑계이고 팔때 되었으니 팔아야 하니 이유가 필요한거라 봅니다.
이게 의미가 없는게 지금도 메모리 때문에 컨텍스트 크기 문제가 있는데 이것은 앞으로도 계속 커져야 하는 문제가 있기 때문에 그나마 좋아지는 것이지 수요가 줄거나 할일이 없습니다.
본래 10개 필요한데 앞으로 5개면 된다. 이런 의미가 아니라는 것입니다. 그리고 캐쉬라고 하잖아요 캐쉬. 캐쉬. 캐쉬.
그리고 난 요약을 압축으로 잘못 말한것 아니었나 했는데 그건 또 아니라고 하네요.
정말 하고 싶은 말은 어떤 이유를 대서 패대기 치는것은 국장이나 미장이라 크게 다를것 없다!!

아래는 뭔지 알고 싶으면 읽어봐도 되는데 알아서 뭐합니까??
보통 양자화를 하면 비트를 줄이는 만큼 정보 손실이 생기기 마련인데
예를 들어 기존 모델 가중치 양자화(GPTQ, AWQ 등)에서 16비트를 4비트로 줄여도 약간의 성능 저하가 발생하는데
TurboQuant는 32비트를 3비트까지 줄이면서도 정확도 손실이 없다고 주장하는 거라 파격적인것.
이게 가능한 이유는 두 단계 접근 방식 때문
첫 번째로 PolarQuant 단계에서 벡터를 랜덤 회전시켜서 각 좌표가 균일하고 예측 가능한 분포를 갖게 만듭니다.
데이터가 예측 가능한 패턴을 가지면 적은 비트로도 효율적으로 표현할 수 있게 되는 거죠.
두 번째로 QJL 단계에서 첫 단계에서 남은 미세한 오차를 단 1비트만 써서 보정합니다.
이게 수학적으로 내적(inner product) 추정의 편향(bias)을 제거해주기 때문에 어텐션 메커니즘의 정확도가 유지됩니다.
다만 주의할 점은 "손실 없음"이라는 게 다운스트림 태스크 성능(벤치마크 점수) 기준이라는 것입니다.
개별 숫자 값 자체는 당연히 달라지지만
최종적으로 모델이 내놓는 답변 품질에는 영향이 없다는 뜻으로
이건 JPEG처럼 픽셀 값은 바뀌지만 사람 눈에는 차이가 없는 것과 비슷한 원리인데
TurboQuant의 경우는 벤치마크 수치상으로도 차이가 없다니 상당히 인상적인 결과 라고 한다.
---
메모리의 종류는 다양하고 위에 말한 캐쉬는 이번에 나온 그 캐쉬의 종류가 아닙니다.
느리고 느리고 느린 D램을 지금 많이 사용하는 이유는 그 때 당시 제일 저렴해서 인데 성능이 많이 좋아 졌지요.
많이 사용이라는 표현 보다 선택 되어 졌다고 하는게 맞겠네요. 가장 싸게 만들 수 있는 것중 하나로 전기가 들어와도 없어지는 특성 때문에 사라지기전에 복사 하는것
---
위에 jpg 나와서 이야기 인데 압축에는 원본 유지가 훼손이 있습니다.
데이터베이스도 유실이 없는게 있고 유실이 있는것이 있습니다.
상식적으로는 이게 더 중요할듯 하고 예는 요즘 LLM 매일 조금씩 무료로 사용가능하니 물어보면 됩니다.
캐쉬를 쉽게 접하는 것은 윈도우 부팅하고 엑셀 실행한 다음 종료하고 다시 실행하면 빠르지요. 이게 캐쉬 입니다.
같은 것을 실행 했을때 효과를 보는 것이 캐쉬이고 매번 다른것 실행하면 캐쉬의 의미가 없지만 작은 단위의 내부적으로는 동일하게 실행 되는것이 상당하기 때문에 있는것이죠.
무한정 저장할 수 없으니 적중율이 떨어지는 것을 자동 삭제 하고 새로운 것을 보관하고 있습니다.
