생성형 인공지능
생성형 인공지능(生成型人工智能, generative artificial intelligence) 또는 생성형 AI(generative AI)는 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 일종의 인공지능(AI) 시스템이다.[1][2] 생성형 AI는 입력 트레이닝 데이터의 패턴과 구조를 학습한 다음 유사 특징이 있는 새로운 데이터를 만들어낸다.[3][4]
저명한 생성형 AI 시스템으로는 ChatGPT(및 빙 챗 변종), 오픈AI가 GPT-3 및 GPT-4 대형 언어 모델로 개발한 챗봇,[5] 그리고 구글이 LaMDA 모델로 개발한 챗봇인 바드 등이 있다.[6] 그 밖의 생성형 AI 모델로는 스테이블 디퓨전, Midjourney, DALL-E 등의 인공지능 아트 시스템들이 포함된다.[7]
생성형 AI는 예술, 작문, 소프트웨어 개발, 의료, 금융, 게이밍, 마케팅, 패션을 포함한 다양한 산업 부문에 걸쳐 잠재적으로 응용된다.[8][9] 생성형 AI의 투자는 2020년대 초에 급증했으며 마이크로소프트, 구글, 바이두와 같은 대기업들과 생성형 AI 모델을 개발하는 수많은, 규모가 더 작은 기업들이 참여했다.[1][10][11] 그러나 생성형 AI의 잠재적 오용에 대한 우려도 있는데, 예를 들어 사람을 속이기 위해 사용할 수 있는 가짜뉴스나 딥페이크를 만드는 것을 들 수 있다.[12]
역사
편집기계 학습 분야는 창립 이래 생성 모델을 포함한 통계 모델을 사용하여 데이터를 모델링하고 예측해 왔다. 2000년대 후반부터 딥 러닝의 출현은 이미지 및 비디오 처리, 텍스트 분석, 음성 인식 및 기타 작업의 발전과 연구를 주도했다. 그러나 대부분의 심층 신경망은 컨벌루션 신경망 기반 이미지 분류와 같은 분류 작업을 수행하는 판별 모델로 훈련되었다.
2014년에는 배리에이셔널 오토인코더(Variational Autoencoder) 및 생성형 적대 신경망(Generative Adversarial Network)과 같은 발전을 통해 이미지와 같은 복잡한 데이터의 판별 모델이 아닌 생성형 모델을 학습할 수 있는 최초의 실용적인 심층 신경망이 탄생했다. 이러한 심층 생성 모델은 이미지에 대한 클래스 레이블뿐만 아니라 전체 이미지를 출력할 수 있는 최초의 모델이다.
2017년에 변환기 네트워크는 생성형 모델의 발전을 가능하게 하여 2018년에 사전 훈련된 제너레이티브 트랜스포머를 처음으로 선보였다.[13] 그 뒤를 이어 2019년에는 GPT-2가 비지도 학습을 파운데이션 모델로 다양한 작업으로 일반화하는 능력을 시연했다.[14]
2021년에 트랜스포머 기반 픽셀 생성 모델인 DALL-E의 출시에 이어 Midjourney 및 스테이블 디퓨전은 자연어 프롬프트에서 실용적인 고품질 인공 지능 예술의 출현을 표시했다.
2023년에 GPT-4가 출시되었다. 마이크로소프트 리서치 팀은 "합리적으로 인공 일반 지능(AGI) 시스템의 초기(아직 불완전한) 버전으로 볼 수 있다"고 결론지었다.[15]
모달에 따른 입력
편집생성형 AI 시스템은 데이터 집합에 비지도 기계 학습 또는 자기 지도 기계 학습을 적용함으로써 구성된다. 생성형 AI 시스템의 기능은 사용되는 데이터 집합의 양상이나 형태에 따라 달라진다.
생성형 AI는 유니모달(unimodal) 또는 멀티모달(multimodal)일 수 있다. 유니모달 시스템은 오직 하나의 입력만 받는 반면 멀티모달 시스템은 둘 이상의 입력을 받을 수 있다.[16] 예를 들어 오픈AI의 GPT-4의 한 버전은 텍스트와 이미지 입력을 둘 다 수용한다.[17]
- 텍스트: 단어나 낱말 분석으로 훈련되는 생성형 AI 시스템으로는 GPT-3, LaMDA, LLaMA, BLOOM, GPT-4 등이 있다.(대형 언어 모델 문서 참고) 자연어 처리, 기계 번역, 자연어 생성을 할 수 있으며 다른 작업을 위해 파운데이션 모델로서 사용할 수 있다.[18] 자료 집합에는 북코퍼스, 위키백과 등이 포함된다.
- 코드: 자연어 문구뿐 아니라 대형 언어 모델은 프로그래밍 언어 텍스트상에서 훈련이 가능하므로 새로운 컴퓨터 프로그램을 위한 소스 코드 생성을 할 수 있다.[19] 그 예로 오픈AI 코덱스 등이 있다.
- 이미지: : 텍스트 캡션이 있는 이미지 집합에서 훈련되는 생성형 AI 시스템으로는 구글 브레인, DALL-E, Midjourney, 스테이블 디퓨전 등이 있다.(인공지능 예술, 생성형 예술, 합성 미디어 문서 참고) 이들은 텍스트 대 이미지 생성 및 신경 스타일 전송(NST)에 사용된다.[20] 데이터 집합으로는 LAION-5B 등이 있다.
- 분자: 아미노산 서열 또는 분자 표현에서 훈련되는 생성형 AI 시스템으로는 DNA나 단백질을 표현하는 단순화된 분자입력 라인입력 시스템(SMILES) 등이 있다. 알파골드 등은 단백질의 구조 예측 및 신약 개발에 사용된다.[21] 다양한 생물 데이터 집합이 데이터 집합으로 사용된다.
- 음악: MusicLM 등의 생성형 AI 시스템은 '왜곡된 기타 리프(riff)의 차분한 바이올린 멜로디'와 같은 텍스트 문구를 기반으로 새로운 음악 샘플을 생성하기 위해 텍스트 주해와 더불어 녹음 음악의 오디오 파형을 가지고 훈련이 가능하다.[22]
- 오디오: 가우디오랩의 FALL-E 등 이미지나 텍스트 등을 입력하면 AI가 백색 잡음에서 해당하는 소리를 자동으로 생성해 내는 기술이다.[23]
- 비디오: 어노테이션이 있는 영상으로 훈련된 생성형 AI는 시간 일관적 비디오 클립을 생성할 수 있다. 그 예로 RunwayML에 의한 Gen1[24]과 메타 플랫폼스의 메이크-어-비디오(Make-A-Video) 등이 있다.[25]
- 로봇 동작: 로봇 시스템 움직임을 통해 훈련된 생성형 AI는 모션 플래닝을 위한 새로운 궤적을 생성할 수 있다. 예를 들어 구글 리서치의 UniPi는 "파란색 그릇을 집어", "노란 스폰지로 그릇을 닦아"와 같은 프롬프트를 사용하여 로봇 팔의 움직임을 통제할 수 있다.[26]
같이 보기
편집각주
편집- ↑ 가 나 Griffith, Erin; Metz, Cade (2023년 1월 27일). “Anthropic Said to Be Closing In on $300 Million in New A.I. Funding”. 《The New York Times》. 2023년 3월 14일에 확인함.
- ↑ Lanxon, Nate; Bass, Dina; Davalos, Jackie (2023년 3월 10일). “A Cheat Sheet to AI Buzzwords and Their Meanings”. 《Bloomberg News》. 2023년 3월 14일에 확인함.
- ↑ Pasick, Adam (2023년 3월 27일). “Artificial Intelligence Glossary: Neural Networks and Other Terms Explained”. 《The New York Times》 (미국 영어). ISSN 0362-4331. 2023년 4월 22일에 확인함.
- ↑ Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (2016년 6월 16일). “Generative models”. 《OpenAI》.
- ↑ Metz, Cade (2023년 3월 14일). “OpenAI Plans to Up the Ante in Tech's A.I. Race”. 《The New York Times》 (미국 영어). ISSN 0362-4331. 2023년 3월 31일에 확인함.
- ↑ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo; Huang, Yanping; Krikun, Maxim; Lepikhin, Dmitry; Qin, James; Chen, Dehao; Xu, Yuanzhong; Chen, Zhifeng; Roberts, Adam; Bosma, Maarten; Zhao, Vincent; Zhou, Yanqi; Chang, Chung-Ching; Krivokon, Igor; Rusch, Will; Pickett, Marc; Srinivasan, Pranesh; Man, Laichee; Meier-Hellstern, Kathleen; Ringel Morris, Meredith; Doshi, Tulsee; Delos Santos, Renelito; Duke, Toju; Soraker, Johnny; Zevenbergen, Ben; Prabhakaran, Vinodkumar; Diaz, Mark; Hutchinson, Ben; Olson, Kristen; Molina, Alejandra; Hoffman-John, Erin; Lee, Josh; Aroyo, Lora; Rajakumar, Ravi; Butryna, Alena; Lamm, Matthew; Kuzmina, Viktoriya; Fenton, Joe; Cohen; Aaron; Bernstein, Rachel; Kurzweil, Ray; Aguera-Arcas, Blaise; Cui, Claire; Croak, Marian; Chi, Ed; Le, Quoc (2022년 1월 20일). “LaMDA: Language Models for Dialog Applications”. arXiv:2201.08239.
- ↑ Roose, Kevin (2022년 10월 21일). “A Coming-Out Party for Generative A.I., Silicon Valley's New Craze”. 《The New York Times》. 2023년 3월 14일에 확인함.
- ↑ “Don't fear an AI-induced jobs apocalypse just yet”. The Economist. 2023년 3월 6일. 2023년 3월 14일에 확인함.
- ↑ Harreis, H.; Koullias, T.; Roberts, Roger. “Generative AI: Unlocking the future of fashion”.
- ↑ “The race of the AI labs heats up”. The Economist. 2023년 1월 30일. 2023년 3월 14일에 확인함.
- ↑ Yang, June; Gokturk, Burak (2023년 3월 14일). “Google Cloud brings generative AI to developers, businesses, and governments”.
- ↑ Justin Hendrix (2023년 5월 16일). “Transcript: Senate Judiciary Subcommittee Hearing on Oversight of AI”. 《techpolicy.press》. 2023년 5월 19일에 확인함.
- ↑ “finetune-transformer-lm”. 《GitHub》. 2023년 5월 19일에 확인함.
- ↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya; 외. (2019). “Language models are unsupervised multitask learners”. 《OpenAI blog》 1 (8): 9.
- ↑ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023년 3월 22일). “Sparks of Artificial General Intelligence: Early experiments with GPT-4”. arXiv:2303.12712.
- ↑ https://www.marktechpost.com/2023/03/21/a-history-of-generative-ai-from-gan-to-gpt-4/
- ↑ “Explainer: What is Generative AI, the technology behind OpenAI's ChatGPT?”. 《Reuters》. 2023년 3월 17일. 2023년 3월 17일에 확인함.
- ↑ Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J; Bosselut, A; Brunskill, E; Brynjolfsson, E (2021년 8월 16일). “On the opportunities and risks of foundation models”. arXiv:2108.07258.
- ↑ Chen, Ming; Tworek, Jakub; Jun, Hongyu; Yuan, Qinyuan; Pinto, Hanyu Philippe De Oliveira; Kaplan, Jerry; Edwards, Haley; Burda, Yannick; Joseph, Nicholas; Brockman, Greg; Ray, Alvin (2021년 7월 6일). “Evaluating Large Language Models Trained on Code”. arXiv:2107.03374.
- ↑ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021). 〈Zero-shot text-to-image generation〉. 《International Conference on Machine Learning》. PMLR. 8821–8831쪽.
- ↑ Heaven, Will Douglas (2023년 2월 15일). “AI is dreaming up drugs that no one has ever seen. Now we've got to see if they work”. 《MIT Technology Review》. Massachusetts Institute of Technology. 2023년 3월 15일에 확인함.
- ↑ Agostinelli, Andrea; Denk, Timo I.; Borsos, Zalán; Engel, Jesse; Verzetti, Mauro; Caillon, Antoine; Huang, Qingqing; Jansen, Aren; Roberts, Adam; Tagliasacchi, Marco; Sharifi, Matt; Zeghidour, Neil; Frank, Christian (2023년 1월 26일). “MusicLM: Generating Music From Text”. arXiv:2301.11325.
- ↑ 이주영 (2023년 7월 20일). “가우디오랩, 소리 생성AI로 만든 효과음 오디오북에 적용”.
- ↑ Metz, Cade (2023년 4월 4일). “Instant Videos Could Represent the Next Leap in A.I. Technology”. 《The New York Times》 (영어).
- ↑ Queenie Wong (2022년 9월 29일). “Facebook Parent Meta's AI Tool Can Create Artsy Videos From Text”. cnet.com. 2023년 4월 4일에 확인함.
- ↑ Sherry Yang, Yilun Du (2023년 4월 12일). “UniPi: Learning universal policies via text-guided video generation”. 《Google Research, Brain Team》. Google AI Blog.