openAI GPT4 Vision 시각정보 API 사용해보기
앞으로 3년만 지나도 참 많은 것이 변해 있을것 같습니다.
지금도 GPT4는 쓸만 합니다. 3.5 버전 까진 사실 뭐 그렇구나. 글은 좀 쓰는 구나 그런데 4버전은 간단한 함수 같은 것은 뚝딱 입니다.
GPT4에 눈을 달아준 비전 브리뷰를 API를 통해서 사용해 보았습니다.
사진 정보 이용 할 때는 빠른 처리를 위해서 해주는 것이 있는데 여기서도 그렇습니다. 그렇기 때문에 사용하실 분은 어떻게 축소 되는지 설명이 있으니 반드시 읽어 보셔야 합니다.
아래 curl 사용하여 잘 되는지 테스트하기 쉬운 예 입니다.
그리고 예제를 복사해 올때 어퍼스트로피 같은것이 문제가 되는 경우가 있으니 특수문자가 될만한것이 질문에 포함되어 있다면 자세히 보시고 뺀 다음 테스트해 보시면 됩니다.
vscode에 있는것 긁어서 붙였더니 짤리네요. 위에 데이터에 해당하는 부분입니다.
-d '{"model":"gpt-4-vision-preview","messages":[{"role":"user","content":[{"type":"text","text":"새가 몇 마리"},{"type":"image_url","image_url":{"url":"https://cdn.pixabay.com/photo/2014/11/21/15/39/grey-crowned-cranes-540657_1280.jpg","detail":"high"}}]}],"max_tokens":300}'
그리고 위 예제는 첨부된 링크 타고 들어가면 "빠른시작" 부분에 있는 예제 입니다.
거기서 curl 선택하면 나오는것에 몇 글자만 변경한 것입니다.
아래는 이번에 새로나온 달리3를 한글로 말했더니 아래것을 보여주네요
왜 무섭게? 생긴놈이 나왔지!! 물론 3개는 이것과는 완전 다릅니다.
앞으로 왠만한것은 틀에 잘 맞춰서 자동으로 해주는것이 많을듯. 글씨 못써도 컴퓨터 워드프로세스 쓰면 틀만 잘 맞추면 누가 작성한 문서이든 별 차이 없는것 처럼.
● 참고자료