Internet

OpenAI에 딥 러닝 AI 모델 GPT-4o 'omni' 모델이 ChatGPT를 구동하기 시작

월요일에 OpenAI는 GPT-4o 라는 새로운 주력 생성 AI 모델을 발표했다. 여기서 'o'는 '옴니'를 나타내며 텍스트, 음성 및 비디오를 처리하는 모델의 능력을 의미한다. GPT-4o는 앞으로 몇 주 동안 회사의 개발자 및 소비자를 대상으로 '반복적으로' 펼쳐질 예정이다.

OpenAI의 CTO Mira Murati는 GPT-4o가 'GPT-4 수준'의 지능을 제공하지만 여러 가지 모달리티 및 미디어에서 GPT-4의 능력을 향상시킨다고 말했다.

Murati는 월요일 OpenAI 사무실에서 스트리밍된 프레젠테이션에서 'GPT-4o는 음성, 텍스트 및 비전을 이유하며, 이는 우리와 기계 간 상호 작용의 미래를 바라보는 중요한 요소입니다.'라고 말했다.

예전에 OpenAI의 이끌던 '가장 첨단'모델인 GPT-4 Turbo는 이미지와 텍스트의 조합으로 훈련받았으며 이미지와 텍스트를 분석하여 이미지에서 텍스트 추출하거나 해당 이미지의 내용을 설명하는 작업과 같은 작업을 수행할 수 있었다. 그러나 GPT-4o는 음성을 추가했다.

이것으로 무엇을 가능하게 해줄까? 다양한 것들.

이미지 제공: OpenAI

GPT-4o는 OpenAI의 AI 기반 챗봇 ChatGPT에서 사용자 경험을 크게 개선했다. 플랫폼은 오랫동안 텍스트 음성 변환 모델을 사용하여 채팅봇의 응답을 텍스트로 변환했지만, GPT-4o는 이를 슈퍼 차지하여 사용자가 챗봇과 더 많이 협력할 수 있게 했다.

예를 들어, 사용자는 GPT-4o 기반 ChatGPT에 질문을 하고 ChatGPT가 답변하는 동안 ChatGPT를 방해할 수 있다. 이 모델은 '실시간' 대응을 제공하며 사용자의 음성의 세부 사항에 대해 파악하고 '다양한 감정 스타일 범위'에서 음성을 생성할 수 있다고 OpenAI는 말한다.(노래 등을 포함)

GPT-4o는 또한 ChatGPT의 비전 능력을 업그레이드했다. 사진 또는 데스크톱 화면을 제공하면 ChatGPT가 빠르게 관련 질문에 대답할 수 있으며, 이 질문은 '이 소프트웨어 코드에서 무슨 일이 일어나고 있습니까?'에서부터 '이 사람이 입은 셔츠의 브랜드는 무엇입니까?'와 같은 주제로 이어질 수 있다.

ChatGPT의 코딩 작업에서 사용되는 데스크탑 앱
이미지 제공: OpenAI

이러한 기능은 미래에 더 발전할 것이라고 Murati는 말했다. 오늘 날에는 GPT-4o가 다른 언어로 작성된 메뉴의 사진을 보고 번역할 수 있지만, 미래에는, 예를 들어, '라이브 스포츠 게임'을 '시청'하고 규칙을 설명할 수 있게 ChatGPT를 허용할 수 있을 것이다.

'이러한 모델이 더욱 복잡해지고 있는 사실을 알고 있지만, 상호 작용 경험이 실제로 더 자연스럽고 쉬워지도록하고 사용자가 UI에 집중할 필요가 없으며, 그저 ChatGPT와의 협업에만 집중할 수 있도록하고 싶습니다.'라고 Murati는 말했다. '이 몇 년간, 우리는 이러한 모델의 지능을 개선하는 데 매우 집중해왔지만, 이것은 실제로 사용 편의 측면에서 엄청난 발전을 이루고 있는 것입니다.

OpenAI는 GPT-4o가 약 50개 언어에서 향상된 성능을 제공하여 더욱 다국어로 지원된다고 주장한다. 그리고 OpenAI의 API 및 Microsoft의 Azure OpenAI 서비스에서 GPT-4o는 GPT-4 Turbo보다 두 배 빠르며 절반의 가격으로 더 높은 요금 한도를 가지고 있다고 회사는 말한다.

현재 음성은 모든 고객을 대상으로 한 GPT-4o API의 일부가 아니다. 남용의 위험을 인용하여, OpenAI는 GPT-4o의 새로운 오디오 기능을 '믿을 수 있는 소수의 파트너'에게 먼저 지원할 예정이라고 말했다.

오늘부터 GPT-4o는 ChatGPT의 무료 티어에서 사용 가능하며 OpenAI의 프리미엄 ChatGPT Plus 및 Team 플랜 가입자에게도 '메시지 한도가 5배 더 높은' 장점이 제공된다. (OpenAI는 사용자가 요금 한도에 도달하면 ChatGPT가 자동으로 GPT-3.5로 전환된다고 언급한다.) GPT-4o에 의해 밑바닥이 지탱되는 향상된 ChatGPT 음성 경험이 알파로 다음 달쯤부터 Plus 사용자에게 제공되며 기업 중심 옵션과 함께 제공된다.

관련된 뉴스로, OpenAI는 워웹에서 챗GPT의 새롭고 '대화 형' 홈 화면 및 메시지 레이아웃을 갖춘 업데이트된 챗GPT UI를 발표했으며, macOS용 ChatGPT의 데스크톱 버전을 출시하여 사용자가 키보드에 바로가기를 통해 질문하거나 스크린샷을 찍고 토론할 수 있다. ChatGPT Plus 사용자는 오늘부터 이 앱에 액세스하며 Windows 버전은 올해 나중에 출시될 예정이다.

또한, OpenAI의 AI 모델을 기반으로 제작된 제3자 챗봇의 라이브러리 및 제작 도구가 제공되는 GPT Store는 이제 ChatGPT의 무료 티어 사용자에게 이용 가능하다. 무료 사용자는 ChatGPT가 '기억력' 기능(앞으로의 상호 작용을 위해 사용자의 선호도를 '기억'하는 기능), 파일 및 사진 업로드, 시기적절한 질문에 대한 답변을 위해 웹 검색 등과 같이 이전에 유료화되었던 ChatGPT 기능을 활용할 수 있다.

우리는 AI 뉴스레터를 시작합니다! 6월 5일 이메일로 받기 시작하도록 여기를 클릭하여 등록하세요.

Related Articles

Back to top button