AI가 기업 금고에 갇혀 있지 않고 글로벌 혁신가 커뮤니티에 의해 벽돌 하나하나 개방된 공간에 구축되는 미래를 상상해 보세요. 경쟁이 아닌 협업이 발전을 촉진하고 윤리적 고려 사항이 실제 성과와 동일한 비중을 차지하는 곳입니다. 이것은 공상과학 소설이 아니라 AI 개발의 중심에서 일어나고 있는 오픈 소스 혁명입니다. 그러나 Big Tech는 제한된 모델을 오픈 소스로 위장하면서 진정한 개방형 커뮤니티의 이점을 얻으려고 시도하는 자체 의제를 가지고 있습니다.
코드의 레이어를 벗겨내고 이러한 노력 뒤에 숨은 진실을 밝혀 보겠습니다. 오픈 소스 AI의 미래에 대한 이러한 탐구는 AI 개발에서 "가짜"를 분석하고 "진짜 AI"를 옹호하여 그 아래에서 윙윙거리는 오픈 소스 소프트웨어인 혁신 엔진을 밝혀낼 것입니다. 결론은 오픈 소스 AI가 오픈 소스 데이터 스택을 갖게 될 것이라는 것입니다.
필요성
The Atlantic에 실린 Matteo Wong의 최근 기사 ' '개방형' AI란 존재한 적 없다 '는 진정한 오픈 소스 AI에 대한 학계와 소프트웨어 커뮤니티의 성장 추세를 설명합니다. “대중이 더 쉽고 저렴하게 사용하고, 연구하고, 재현할 수 있는 상대적으로 투명한 모델을 만들어 업무, 경찰, 여가, 심지어 종교까지 변화시킬 수 있는 잠재력을 가질 수 있는 고도로 집중된 기술을 민주화하려는 시도입니다.” 동일한 Atlantic은 Meta와 같은 Big Tech 회사가 제품을 '개방형 세척'하여 시장에서 이러한 요구를 충족시키려고 노력하고 있음을 시사합니다. 그들은 제품을 실제로 오픈소스화하지 않고도 오픈소스 커뮤니티의 품질과 긍정적인 평판을 취하고 있습니다. 그러나 실제를 대체할 수 있는 것은 없습니다. 이는 진정한 오픈 소스 소프트웨어가 혁신과 협업을 주도하기 때문입니다. 이는 AI를 책임감 있게 발전시키는 데 절실히 필요한 두 가지 특성입니다.
프리텐더스
LLaMA 2는 연구 및 상업적 용도로 무료로 사용할 수 있는 Meta 에서 만든 대규모 언어 모델입니다. 일부 사람들은 LLaMA 2가 오픈 소스라고 제안합니다. 그러나 Meta는 모델 사용에 대해 몇 가지 심각한 제한을 구현했습니다. 예를 들어, LLaMA 2는 다른 대규모 언어 모델을 개선하는 데 사용할 수 없습니다. 전통에 어긋나는 입장 민간 집단혁신 모델 소프트웨어 커뮤니티의 모든 사람의 이익을 위해 혁신의 자유롭고 개방적인 공개를 촉진하는 개방형 소프트웨어입니다.
Meta는 월간 사용자가 7억 명에 달하는 제품과 LLaMA 2의 통합을 허용하지 않고 모델이 훈련된 데이터나 모델을 구축하는 데 사용한 코드를 공개하지 않음으로써 모델 사용을 더욱 방해했습니다. 공개하지 않음으로써 Meta는 본질적인 편견과 우발적인 차별에 대한 질문을 제기하고 있습니다. 차별적인 데이터에 대해 훈련된 모델은 차별적인 대응을 하다 . 소프트웨어 커뮤니티 전체가 모델을 구축하는 데 사용된 코드를 보고 안전 장치가 내장되어 있는지 확인하거나 이를 훈련하는 데 사용된 데이터를 볼 수 없다면 우리는 이러한 도덕적 질문에 대해 어둠 속에 남겨지게 됩니다. 그럴 때 AI에 관한 연구 발표 정의보다는 성과에 더 관심을 갖고 있으며 이러한 난독화는 특히 혼란스럽습니다.
진짜 것들
미스트랄 AI 특히 Mistral 7B 및 Mixtral 8x7B와 같은 오픈 소스 대규모 언어 모델로 인정을 받았습니다. 회사는 AI 모델에 대한 광범위한 접근성을 보장하고 개방형 소프트웨어 커뮤니티의 검토, 수정 및 재사용을 장려하기 위해 노력하고 있습니다.
vLLM "벡터화된 저지연 모델 서비스"를 의미하며 대규모 언어 모델(LLM)의 속도를 높이고 최적화하도록 특별히 설계된 오픈 소스 라이브러리입니다. LLM의 성능과 유용성을 크게 향상시킬 수 있는 강력한 도구입니다. 이는 챗봇 및 가상 비서부터 콘텐츠 생성 및 코드 생성에 이르기까지 다양한 AI 애플리케이션을 작업하는 개발자에게 귀중한 자산이 됩니다. 그래서 Mistral은 7B 및 8x7B 모델의 추론 서버로 vLLM을 사용할 것을 권장합니다.
엘레우더AI GPT-3를 논의하기 위한 Discord 서버에서 선도적인 비영리 연구 기관으로 성장한 비영리 AI 연구소입니다. 이 그룹은 자연어 처리 분야의 개방형 과학 표준을 교육하고 홍보하는 작업으로 유명합니다. 다양한 오픈소스 대형 언어 모델을 출시했으며 AI 정렬 및 해석 가능성과 관련된 연구 프로젝트에 참여하고 있습니다. 그들의 LM-하네스 프로젝트는 아마도 언어 모델을 위한 최고의 오픈 소스 평가 도구일 것입니다.
파이-2 무게 이상의 성능을 발휘하는 Microsoft의 LLM입니다. 합성 텍스트와 필터링된 웹사이트를 혼합하여 훈련된 이 작지만 강력한 모델은 질문 답변, 요약, 번역과 같은 작업에 탁월합니다. Phi-2를 진정으로 차별화하는 것은 추론과 언어 이해에 중점을 두어 고급 정렬 기술 없이도 인상적인 성능을 발휘한다는 것입니다.
많은 유능한 오픈 소스 임베딩 모델이 전체 오픈 소스 생성 AI 공간을 강화하고 있습니다. 이는 오픈 소스에 대한 현재의 최첨단 기술이며 다음을 포함합니다. UAE-대형-V1 그리고 다국어-e5-largel .
끊임없이 성장하는 이 분야에는 더 많은 것들이 있습니다. 이 제한된 목록은 시작에 불과합니다.
오픈 소스가 혁신을 주도하다
극도의 개방형 혁신이라는 철학을 수용하면서 오픈 소스 소프트웨어 개발에 진정으로 참여하는 기업은 다음을 인정함으로써 전통적인 경쟁 우위 개념에 도전합니다. 좋은 코드나 훌륭한 아이디어가 모두 조직 내에 있는 것은 아닙니다. . 이 교대는 다음을 지원합니다. 논쟁 오픈 소스 생태계 내에서 혁신을 공유하면 시장 성장이 더 빨라지고 소규모 소프트웨어 회사에도 더 제한된 R&D 자금이 제공됩니다. 혜택을 받을 수 있는 기회 오픈 소스 소프트웨어에 존재하는 R&D 유출로 인해 발생합니다. 이는 전통적인 아웃소싱과 달리 개방형 혁신이 이루어지기 때문입니다. 내부 자원 강화 내부 R&D 노력을 줄이지 않으면서 커뮤니티의 집단 지성을 활용합니다. 이는 오픈 소스 소프트웨어 회사가 조직 외부에서 사고 리더십과 코드를 추구하기 위해 예산을 희생할 필요가 없다는 것을 의미합니다.
또한 오픈 소스 소프트웨어 회사는 전략적으로 혁신을 주도합니다. 코드를 조기에 자주 릴리스 , 소프트웨어 커뮤니티의 혁신 프로세스의 누적 특성을 인식합니다. 많은 사람들이 이미 알고 있는 사실은 바로 오픈 소스 소프트웨어가 혁신을 주도한다는 것입니다.
오픈소스로 협업 촉진
을 통해 네트워킹 오픈 소스 소프트웨어 커뮤니티에서 기업가는 단기 및 장기 목표를 모두 달성할 수 있습니다. 단기 이익 목표는 회사를 성장시키고, 장기 이익 목표는 회사를 지탱합니다. 동시에 이러한 네트워킹 노력은 네트워크 자체를 스스로 영속화하여 다음 기업가를 위해 성장시킵니다. 오픈 소스 플랫폼은 소스 코드에 대한 액세스를 제공하여 개발자가 업그레이드, 플러그인 및 기타 소프트웨어를 만들고 요구 사항에 따라 사용할 수 있도록 한다는 것은 잘 알려져 있습니다. 이러한 특별한 종류의 협업은 광범위한 소프트웨어 커뮤니티에서 Kubernetes를 광범위하게 채택하면서 호황을 누렸습니다. 이제 그 어느 때보다 현대 기술은 마찰이 거의 없이 함께 작동하며 거의 모든 곳에서 몇 분 안에 함께 사용할 수 있습니다.
거대 기술 기업은 내부 도구를 유지 관리하고 개발하기 위해 만든 프레임워크, 라이브러리 및 언어를 자유롭게 릴리스할 때 오픈 소스 커뮤니티에 내재된 이러한 긴밀한 협력을 인정합니다. 이를 통해 자신의 제품을 개발할 수 있는 개발자 풀이 심화되고 유사한 기술이 어떻게 작동해야 하는지에 대한 표준이 설정되기 시작합니다. 같은 Atlantic 기사에서는 Meta 창립자인 Mark Zuckerberg가 “이제 업계 최고의 개발자 모두가 우리가 내부적으로 사용하는 도구를 사용하고 있기 때문에 이를 제공하는 것이 우리에게 매우 가치 있었다”고 말한 것을 인용했습니다.
오픈 소스가 오픈 소스를 탄생시키다
이것이 바로 우리가 오픈 소스 기업 간의 시너지 효과를 자주 보는 이유입니다. 오픈 소스 AI 및 ML 회사는 객체 스토리지와 같은 기본 제품부터 전체 스택, 시각화 도구에 이르기까지 다른 오픈 소스 제품을 사용하여 자연스럽게 솔루션을 개발할 것입니다. 하나의 오픈소스 회사가 앞으로 나아갈 때 우리 모두는 그렇게 합니다. 이러한 응집력 있고 혼합된 접근 방식은 아마도 인간 중심 접근 방식을 취하는 AI 개발을 위한 최선의 방법일 것입니다. 오픈 소스 AI에 대한 시장 요구에 내재된 이러한 자연적 힘은 혁신 및 협업이라는 오픈 소스 소프트웨어의 특성과 결합되어 AI 데이터 스택 오픈 소스를 주도할 것입니다.
다음 주소로 이메일을 보내 이 대화와 커뮤니티에 참여하고 기여해 주세요. hello@min.io 또는 Slack 채널을 통해 메시지를 보내주세요.