๋ณธ๋ฌธ

[AI ์ž…๋ฌธ] ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ์—ฌ์ •

๋ฐ˜์‘ํ˜•

[AI ์ž…๋ฌธ] ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ์—ฌ์ •์€ AI์˜ ๊ธฐ๋ณธ ๊ฐœ๋…๋ถ€ํ„ฐ ์‹ฌํ™” ํ•™์Šต ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ๊ฐœ๋ฐœ ๋„๊ตฌ๊นŒ์ง€ ํญ๋„“๊ฒŒ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

์•„๋ž˜๋Š” ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ์ฃผ์š” ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค:

 

1. AI ๋ฐ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ์ดํ•ด:

- ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP): ์ปดํ“จํ„ฐ๊ฐ€ ์‚ฌ๋žŒ์˜ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๋Š” ์›๋ฆฌ์™€ ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ผ์ƒ ๋Œ€ํ™”๋ถ€ํ„ฐ ๋ณต์žกํ•œ ๋ฌธ์„œ๊นŒ์ง€, ์–ธ์–ด์˜ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

- LLM (Large Language Model): ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ธ GPT, Cohere, LLaMA ๋“ฑ์˜ ๊ฐœ๋…๊ณผ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด๋“ค์ด ์–ด๋–ป๊ฒŒ ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋Œ€ํ™”, ๊ธ€์“ฐ๊ธฐ, ์งˆ๋ฌธ ์‘๋‹ต ๋“ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š”์ง€ ์•Œ์•„๋ด…๋‹ˆ๋‹ค.

 

2. AI ํ•™์Šต ๋ฐฉ๋ฒ•๊ณผ ๊ธฐ์ˆ ์˜ ์‹ฌํ™”:

- ๋ชจ๋ธ ๊ฐœ์„  ๋ฐฉ๋ฒ•: AI ๋ชจ๋ธ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๋ฏธ์„ธ์กฐ์ •(Fine-Tuning)๊ณผ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ(RAG) ๊ฐ™์€ ๊ธฐ์ˆ ์„ ํ†ตํ•ด, ๋ชจ๋ธ์ด ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์›๋‹ˆ๋‹ค.

- ํŒŒ์ธํŠœ๋‹๊ณผ ์ง€๋„ ํ•™์Šต: ํŠน์ • ์ž‘์—…์ด๋‚˜ ์ฃผ์ œ์— AI ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ๋” ์ž˜ ๋งž์ถ”๋„๋ก ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ณผ์ •์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ๋ฒ”์šฉ์„ฑ์„ ๋„˜์–ด ํŠน์ˆ˜ํ•œ ๋ชฉ์ ์— ๋งž๊ฒŒ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋•์Šต๋‹ˆ๋‹ค.

 

3. AI ๊ฐœ๋ฐœ์— ์‚ฌ์šฉ๋˜๋Š” ๋„๊ตฌ์™€ ํ”„๋ ˆ์ž„์›Œํฌ:

- ๊ธฐ์ˆ  ๋„๊ตฌ: ํ…์ŠคํŠธ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ AI ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž„๋ฒ ๋”ฉ ๊ธฐ์ˆ , ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ €์žฅํ•˜๊ณ  ๊ฒ€์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์‹œ์Šคํ…œ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

- ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ํ”Œ๋žซํผ: PyTorch, TensorFlow์™€ ๊ฐ™์€ AI ๊ฐœ๋ฐœ ํ”„๋ ˆ์ž„์›Œํฌ์™€ Hugging Face, LangChain๊ณผ ๊ฐ™์€ ํ”Œ๋žซํผ์„ ํ†ตํ•ด, AI ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ๋” ์‰ฝ๊ฒŒ ๊ตฌ์ถ•ํ•˜๊ณ , ํ•™์Šตํ•˜๋ฉฐ, ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ง€์‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


1. AI ๋ฐ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ์ดํ•ด:

- ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP; Natural Language Processing)

  - ์ปดํ“จํ„ฐ๊ฐ€ ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ์ˆ 

 

- LLM(Large Language Model)

  - ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šต๋œ ์ธ๊ณต์ง€๋Šฅ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  - ์ด ๋ชจ๋ธ๋“ค์€ ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์–ด, ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•˜๊ฑฐ๋‚˜, ๊ธ€์„ ์“ฐ๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๊ธฐ๋ฐ˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  - (24๋…„ 3์›” ๊ธฐ์ค€) LLM Model TOP5

    - 1. GPT (OpenAI): ๋‹ค์–‘ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์‚ฌ์šฉ๋˜๋Š” ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

      - ๋Œ€ํ™”ํ˜• ํ…์ŠคํŠธ ์ƒ์„ฑ์— ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, ์ผ์ƒ์ ์ธ ๋Œ€ํ™”, ํ…์ŠคํŠธ ์ƒ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์–‘ํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ํƒ์›”ํ•ฉ๋‹ˆ๋‹ค.
    - 2. Cohere: ์ •ํ™•๋„์™€ ๊ฒฌ๊ณ ์„ฑ์—์„œ ๋†’์€ ํ‰๊ฐ€๋ฅผ ๋ฐ›๋Š” ๋ชจ๋ธ๋กœ, ์—ฌ๋Ÿฌ ํšŒ์‚ฌ์—์„œ AI ๊ฒฝํ—˜ ์ œ๊ณต์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    - 3. LLaMA (Meta AI): ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋กœ ์ œ๊ณต๋˜๋ฉฐ, GPT-3 ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ์—ฐ๊ตฌ์šฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

      - ์—ฐ๊ตฌ ๋ฐ ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋” ๋„๋ฆฌ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ์„ฑ๋Šฅ์˜ ์–ธ์–ด ์ดํ•ด ๋ฐ ์ƒ์„ฑ ์ž‘์—…์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
      - ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์— ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ๊ธ‰ NLP ์—ฐ๊ตฌ ๋ฐ ์–ธ์–ด ์ดํ•ด ์ž‘์—…์— ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    - 4. Falcon (TII): ์˜คํ”ˆ ์†Œ์Šค LLM ์ค‘ ํ•˜๋‚˜๋กœ, ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ์ ํ•ฉํ•˜๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
    - 5. BLOOM: 70๊ฐœ๊ตญ ์ด์ƒ์˜ ํ˜‘๋ ฅ์„ ํ†ตํ•ด ์ถœ์‹œ๋œ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

https://www.thedatahunt.com/trend-insight/what-is-llm

 

 


2. AI ํ•™์Šต ๋ฐฉ๋ฒ•๊ณผ ๊ธฐ์ˆ ์˜ ์‹ฌํ™”:

- LLM์— ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ์—ฐ๋™ํ•˜๋Š” ๋ฒ•

  - LLM์— ํ•™์Šต ๊ณผ์ •์— ํฌํ•จ๋˜์ง€ ์•Š์€ ์ง€์‹์„ ์ฃผ์ž…ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ 2๊ฐ€์ง€ ์ž…๋‹ˆ๋‹ค. (Fine-tuning vs RAG)

  - 1. Fine-Tuning: ์ƒˆ๋กœ์šด ์ง€์‹์— ๊ด€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ์ด์šฉํ•ด์„œ LLM์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ Fine-Tuning ํ•ฉ๋‹ˆ๋‹ค.

  - 2. RAG(Retrieval-Augmented Generation): ์ƒˆ๋กœ์šด ์ง€์‹์— ๊ด€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ Embeddingํ•ด์„œ Vector Storage์— ์ €์žฅํ•˜๊ณ , ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ์„ ์ง„ํ–‰ํ• ๋•Œ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ๊ฐ€์ ธ์˜จ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ด์šฉํ•ด์„œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ตฌ์„ฑํ•œ๋’ค LLM์œผ๋กœ๋ถ€ํ„ฐ ๋‹ต๋ณ€์„ ์–ป์–ด๋ƒ…๋‹ˆ๋‹ค.

RAG(Retrieval-Augmented Generation)

 

- ํŒŒ์ธํŠœ๋‹(fine tuning)

  - ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋„๋ฉ”์ธ์— ๋†’์€ ์ ํ•ฉ์„ฑ์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด, ์ด๋ฏธ ํ›ˆ๋ จ๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์— ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๊ฐ€์ ์ธ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž‘์—…

 

- Supervised fine-tuning
  - ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ์ถ”๊ฐ€์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋ชจ๋ธ์€ ํŠน์ • ์ž‘์—…์˜ ์„ธ๋ถ€์ ์ธ ํŠน์„ฑ์„ ํ•™์Šตํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํ•™์Šต ์‹œ๊ฐ„๊ณผ ๊ณ„์‚ฐ ์ž์›์„ ์ ˆ์•ฝํ•˜๋ฉด์„œ ๊ณ ํ’ˆ์งˆ์˜ ๋งž์ถคํ˜• ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

  - Supervised fine-tuning์„ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด, ์ด๋ฏธ ์–ด๋Š ์ •๋„ ๊ธฐ์ดˆ ๊ต์œก์„ ๋ฐ›์€ ํ•™์ƒ์ด ํŠน์ • ๊ณผ๋ชฉ์— ๋” ์ „๋ฌธ์ ์ธ ์ง€์‹์„ ์–ป๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€ ์ˆ˜์—…์„ ๋ฐ›๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. 
  - ์˜ˆ๋ฅผ ๋“ค์–ด, ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ณ ๋“ฑํ•™๊ต ์กธ์—…ํ•œ ํ•™์ƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•ด๋ด…์‹œ๋‹ค. ์ด ํ•™์ƒ์€ ๋‹ค์–‘ํ•œ ๊ธฐ๋ณธ ์ง€์‹์„ ๊ฐ–๊ณ  ์žˆ์ง€๋งŒ, ์•„์ง ์ „๋ฌธ ๋ถ„์•ผ์— ๋Œ€ํ•œ ๊นŠ์€ ์ง€์‹์€ ์—†์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ด ํ•™์ƒ์ด ์˜ํ•™์„ ์ „๊ณตํ•˜๊ณ  ์‹ถ๋‹ค๊ณ  ๊ฒฐ์ •ํ–ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์˜ํ•™๊ณผ ๊ด€๋ จ๋œ ์ถ”๊ฐ€ ์ˆ˜์—…๊ณผ ์‹ค์Šต์„ ํ†ตํ•ด, ์ด ํ•™์ƒ์€ ์˜ํ•™ ๋ถ„์•ผ์—์„œ ํ•„์š”ํ•œ ์ „๋ฌธ ์ง€์‹๊ณผ ๊ธฐ์ˆ ์„ ์Šต๋“ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ณ ๋“ฑํ•™๊ต์—์„œ ๋ฐฐ์šด ๊ธฐ๋ณธ ์ง€์‹์€ ๋ชจ๋ธ์ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด ์–ป์€ ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์— ํ•ด๋‹นํ•˜๊ณ , ์˜ํ•™๊ณผ ๊ด€๋ จ๋œ ์ถ”๊ฐ€ ์ˆ˜์—…์€ ํŠน์ • ์ž‘์—…(์˜ˆ: ์งˆ๋ฌธ ์‘๋‹ต, ๋ฌธ์„œ ๋ถ„๋ฅ˜)์— ๋งž๊ฒŒ ๋ชจ๋ธ์„ ์„ธ๋ถ€ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.

https://medium.com/neo4j/knowledge-graphs-llms-fine-tuning-vs-retrieval-augmented-generation-30e875d63a35

 

- RAG(Retrieval-Augmented Generation)

  - ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ๋‹ต๋ณ€ ์ƒ์„ฑ ๋ชจ๋ธ: ์ •๋ณด ๊ฒ€์ƒ‰(IR)์„ ํ†ตํ•ด ์–ป์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ชจ๋ธ์„ ๋ณด๊ฐ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

  - ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์— ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ๊ฒฐํ•ฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ฃผ์–ด์ง„ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๊ด€๋ จ ๋ฌธ์„œ๋ฅผ ๊ฒ€์ƒ‰ํ•œ ๋‹ค์Œ, ๊ทธ ๋ฌธ์„œ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ๊ธฐ์–ต์— ์˜์กดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•˜์—ฌ ๋” ์ •ํ™•ํ•˜๊ณ  ๊นŠ์ด ์žˆ๋Š” ๋‹ต๋ณ€์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

  - p.s. ์ƒ์„ธ์„ค๋ช… https://python.langchain.com/docs/use_cases/question_answering/

https://neo4j.com/developer-blog/knowledge-graphs-llms-multi-hop-question-answering/

 

 


3. AI ๊ฐœ๋ฐœ์— ์‚ฌ์šฉ๋˜๋Š” ๋„๊ตฌ์™€ ํ”„๋ ˆ์ž„์›Œํฌ:

- ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค(Vector DB) == ๋ฒกํ„ฐ ์Šคํ† ์–ด(Vector Store)

  - ๊ณ ์ฐจ์› ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ์˜ ํšจ์œจ์ ์ธ ๊ฒ€์ƒ‰์„ ์ง€์›ํ•˜์—ฌ, ์ž์—ฐ์–ด ์งˆ๋ฌธ์ด๋‚˜ ์ด๋ฏธ์ง€ ๋“ฑ์„ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ด๋Ÿฌํ•œ ๋ฒกํ„ฐ๋“ค ์‚ฌ์ด์˜ ์œ ์‚ฌ์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰

  - ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์—์„œ ๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ €์žฅํ•˜๊ณ , ์‚ฌ์šฉ์ž์˜ ์ฟผ๋ฆฌ์— ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฐพ์•„๋‚ด๋Š” ๋ฐ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  - (2024๋…„๋„ 3์›” ๊ธฐ์ค€) ๋Œ€ํ‘œ์ ์ธ ๋ฒกํ„ฐ ์ €์žฅ์†Œ(vector store)

    - Elasticsearch with the Vector Search plugin, Milvus, Faiss (Facebook AI Similarity Search), ChromaDB, Pinecone ๋“ฑ

 

 

- ์ž„๋ฒ ๋”ฉ(Embedding)

  - ์‚ฌ๋žŒ์„ ๊ธ€์„ ์ฝ์„๋•Œ ํ…์ŠคํŠธ๋ฅผ ๋ฐ”๋กœ ์ฝ์–ด์„œ ์ดํ•ดํ•œ๋‹ค๋ฉด, ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ๋“ค์€ ํ…์ŠคํŠธ๋ฅผ ์ง์ ‘์ ์œผ๋กœ ์ž…๋ ฅ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ฒกํ„ฐ๋กœ ์ˆ˜์น˜ํ™”ํ•œ ๋’ค์— ์ฒ˜๋ฆฌํ•œ๋‹ค. (๋ฌธ์„œ, ๋ฌธ์žฅ, ๋‹จ์–ด ๋“ฑ)

  - ์ด๋•Œ ํ…์ŠคํŠธ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๊ณผ์ •์„ '์ž„๋ฒ ๋”ฉ'์ด๋ผ๊ณ  ํ•œ๋‹ค.

  - ์•„๋ž˜ ์˜ˆ์‹œ์™€ ๊ฐ™์€ ์‹์œผ๋กœ ์‹ค์ˆ˜๊ฐ€ ๋‚˜์—ด๋œ ๊ฐ’์ธ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด์„œ ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•œ๋‹ค.

  - (2024.3 ๊ธฐ์ค€) ๋Œ€ํ‘œ์ ์ธ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ
    - BERT(Bidirectional Encoder Representations from Transformers), GPT-3(Generative Pre-trained Transformer 3), Transformer-XL, Amazon Titan

  - ์ž„๋ฒ ๋”ฉ ์˜ˆ์‹œ
    - ์‚ฌ๊ณผ > (๋‹จ์–ด ์ž„๋ฒ ๋”ฉ) > ๋ฒกํ„ฐ: [0.12, 0.34, 0.75, -0.12]
    - ์•ˆ๋…•ํ•˜์„ธ์š” > (๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ) > ๋ฒกํ„ฐ: [0.88, 0.13, 0.754, -0.42]
    - '์„œ์šธ ์ฒญ๋…„ ์ •์ฑ…์ด...์ค‘๋žต' > (๋ฌธ์„œ ์ž„๋ฒ ๋”ฉ) > ๋ฒกํ„ฐ: [0.66, 0.33, 0.22, -0.99]

 

- Chunk

  - ๋ฐ์ดํ„ฐ๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์ž‘์€, ๊ด€๋ฆฌํ•˜๊ธฐ ์‰ฌ์šด ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆˆ ํ•˜๋‚˜์˜ ๋ฉ์–ด๋ฆฌ

  - Chunking

    - ๋ถ„ํ•  ์ž‘์—…(Chunk)์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ, ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธ ์žˆ๋Š” ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ์ˆ .

    - NLP(์ž์—ฐ์–ด ์ฒ˜๋ฆฌ)์—์„œ chunking์€ ๋ฌธ์žฅ์„ ๋ช…์‚ฌ๊ตฌ, ๋™์‚ฌ๊ตฌ ๊ฐ™์€ ์˜๋ฏธ ์žˆ๋Š” ์กฐ๊ฐ์œผ๋กœ ๋ถ„๋ฆฌํ•ด ์ •๋ณด ์ถ”์ถœ์ด๋‚˜ ๋ฌธ์„œ ๋ถ„์„์„ ์šฉ์ดํ•˜๊ฒŒ ํ•œ๋‹ค.

https://aws.amazon.com/ko/what-is/langchain/

 

- ๋ฐ์ดํ„ฐ ์…‹(dataset)
  - ํŠน์ • ์ž‘์—…์ด๋‚˜ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•ด ์ˆ˜์ง‘๋˜๊ณ  ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ์˜ ์ง‘ํ•ฉ์œผ๋กœ, ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ฑฐ๋‚˜ ํ†ต๊ณ„์  ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ์š”์†Œ
    - ๋ฐ์ดํ„ฐ์…‹์ด๋ž€ ๋จธ์‹ ๋Ÿฌ๋‹, ํ†ต๊ณ„, ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ด€๋ จ ๋ฐ์ดํ„ฐ์˜ ๋ชจ์Œ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” ์ˆซ์ž, ๋‹จ์–ด, ์ด๋ฏธ์ง€ ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋กœ ์กด์žฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠน์ • ์ฃผ์ œ๋‚˜ ๋ชฉ์ ์„ ๊ฐ€์ง€๊ณ  ์ •๋ฆฌ๋œ ์ •๋ณด์˜ ์ง‘ํ•ฉ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ์ˆ˜๋งŽ์€ ๋ฌธ์žฅ์ด๋‚˜ ๋‹จ๋ฝ์œผ๋กœ ๊ตฌ์„ฑ๋  ์ˆ˜ ์žˆ๊ณ , ์ด๋ฏธ์ง€ ์ธ์‹ ๋ชจ๋ธ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ํŒŒ์ผ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    - ๋ฐ์ดํ„ฐ์…‹์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ๋•Œ 'ํ•™์Šต'์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ๊ฐ ์ด๋ฏธ์ง€๊ฐ€ ์–ด๋–ค ์นดํ…Œ๊ณ ๋ฆฌ์— ์†ํ•˜๋Š”์ง€์˜ ์ •๋ณด(๋ ˆ์ด๋ธ”)์™€ ํ•จ๊ป˜ ์ œ๊ณต๋˜์–ด, ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์–ด๋–ค ์นดํ…Œ๊ณ ๋ฆฌ์ธ์ง€ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

https://indiaai.gov.in/article/training-data-used-to-train-llm-models

- ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„

  - Python์˜ Pandas ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ…Œ์ด๋ธ” ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ (Python์˜ ์—‘์…€๊ณผ ๊ฐ™์€๊ฒƒ-)

 

- ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(cosine similarity)
  - (24๋…„ 2์›” ๊ธฐ์ค€) ๋ฒกํ„ฐ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•
  - ๋‘ ๋ฒกํ„ฐ ๊ฐ„์˜ ์ฝ”์‚ฌ์ธ ๊ฐ๋„๋ผ๋Š” ๊ฐœ๋…์„ ์ด์šฉํ•ด์„œ ๋ฒกํ„ฐ๊ฐ„ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•
    - ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜
    - ๋ณ€ํ™˜๋œ ๋ฒกํ„ฐ๋“ค๋ผ๋ฆฌ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๋ฒกํ„ฐ๋ฅผ ์ฐพ์œผ๋ฉด, ๋‘ ๋ฌธ์žฅ์€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์žฅ

https://en.wikipedia.org/wiki/Cosine_similarity
https://www.learndatasci.com/glossary/cosine-similarity/

 

- ๋žญ์ฒด์ธ(LangChain)
  - ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ƒ์„ฑ์„ ๊ฐ„์†Œํ™”ํ•˜๋„๋ก ์„ค๊ณ„๋œ SW ๊ฐœ๋ฐœ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.
  - LangChain์€ API๋ฅผ ํ†ตํ•ด์„œ ์–ธ์–ด๋ชจ๋ธ์„ ํ˜ธ์ถœํ•˜๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ์‹ํ•˜๊ฑฐ๋‚˜ ํƒ€ ์‹œ์Šคํ…œ์— ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์„ ๋„์™€์ค๋‹ˆ๋‹ค.
  - ๋žญ์ฒด์ธ์˜ ์žฅ์ 

    - 1. ์†์‰ฌ์šด ๊ตฌํ˜„

      - ๋ณต์žกํ•œ LLM์„ ๊ฐ„๋‹จํ•œ ๋ช‡์ค„์˜ ์ฝ”๋“œ๋กœ ์†์‰ฝ๊ฒŒ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      - ๋‹ค์–‘ํ•œ LLM ๋ชจ๋ธ์„ ์•„์ฃผ ์‰ฝ๊ฒŒ ๊ฐˆ์•„ ๋ผ์šธ ์ˆ˜ ์žˆ์Œ

      - ๋‹ค์–‘ํ•œ ํˆด๊ณผ์˜ ํŽธ๋ฆฌํ•œ ์—ฐ๋™ ๋„ ๊ฐ€๋Šฅํ•˜๊ณ , Vector Stores๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ž์—ฐ์–ด๋ฅผ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ์ €์žฅ, ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋Š” ๋ถ€๋ถ„๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

    - 2. ๊ธด ์ปจํ…์ŠคํŠธ์˜ ์ง€์‹ ์ฃผ์ž… ๊ฐ€๋Šฅ

      - Document Loaders๋ฅผ ํ™œ์šฉํ•ด์„œ PDF๋‚˜ ํ…์ŠคํŠธ ํŒŒ์ผ๊ณผ ๊ฐ™์€ ๋ฌธ์„œ๋„ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      - GPT-3.5์˜ 4096 ํ† ํฐ ์ œํ•œ์œผ๋กœ ์ธํ•ด ๊ธด ์ปจํ…์ŠคํŠธ์˜ ๋‚ด์šฉ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ํž˜๋“ค๋‹ค๋Š” ๋ฌธ์ œ์ ์ด ์žˆ๋Š”๋ฐ ๋žญ์ฒด์ธ์„ ์ด์šฉํ•˜๋ฉด ๋”๊ธด ์ปจํ…์ŠคํŠธ์˜ ์ •๋ณด๋กœ LLM๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    - 3. ์ถœ์ฒ˜ ํ™•์ธ ๊ฐ€๋Šฅ

      - LLM์˜ ๋งŽ์€ ๋ถ€๋ถ„์ด ๋ธ”๋ž™๋ฐ•์Šค์™€ ํ™•๋ฅ ์ ์œผ๋กœ ๋™์ž‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— LLM์ด ๋งŒ๋“ค์–ด๋‚ธ ํ…์ŠคํŠธ๊ฐ€ ์™œ๊ทธ๋ ‡๊ฒŒ ์ƒ์„ฑ๋˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์–ด๋ ต๊ณ  ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ (Hallucination) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์œ„ํ—˜์„ฑ์ด ์žˆ์ง€๋งŒ, ๋žญ์ฒด์ธ์„ ์ด์šฉํ•˜๋ฉด ๋ช…ํ™•ํ•œ ์ถœ์ฒ˜์™€ ํ•จ๊ป˜ LLM์ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  - langchain ์‹ค์Šต: https://python.langchain.com/docs/get_started/quickstart

https://www.langchain.com/

 

 

- ์–‘์žํ™”(Quantization)
  - LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)์—์„œ ์–ธ๊ธ‰๋˜๋Š” "์–‘์žํ™”"๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ , ์‹คํ–‰ ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๋ฐฐํฌ๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ, ์–‘์žํ™”๋Š” ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜(๊ฐ€์ค‘์น˜)๋ฅผ ๋” ์ ์€ ๋น„ํŠธ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  - ์ผ๋ฐ˜์ ์œผ๋กœ, ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” 32๋น„ํŠธ ๋ถ€๋™์†Œ์ˆ˜์  ํ˜•์‹์œผ๋กœ ์ €์žฅ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์–‘์žํ™”๋ฅผ ํ†ตํ•ด ์ด ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ 16๋น„ํŠธ, 8๋น„ํŠธ, ์‹ฌ์ง€์–ด๋Š” ๋” ๋‚ฎ์€ ๋น„ํŠธ ์ˆ˜์˜ ์ •์ˆ˜๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ชจ๋ธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ค„์–ด๋“ค๊ณ , ์—ฐ์‚ฐ ์†๋„๊ฐ€ ๋นจ๋ผ์ง€๋ฉฐ, ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ๋‚˜ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค ๊ฐ™์€ ์ž์› ์ œํ•œ์ ์ธ ํ™˜๊ฒฝ์—์„œ๋„ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  - ์–‘์žํ™”๋Š” ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ™์€ ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์‹ค์ œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ํšจ์œจ์ ์œผ๋กœ ๋ฐฐํฌํ•˜๊ณ ์ž ํ•  ๋•Œ ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ›ผ์†ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์‹คํ–‰ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์–‘์žํ™”๋Š” ๋ชจ๋ธ์„ ์‹ค์ œ ํ™˜๊ฒฝ์— ์ ์šฉํ•˜๋Š” ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

 

- SOTA(State-of-the-art)

  - 'ํ˜„์žฌ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ'๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋กœ, ํ˜„์žฌ ์ˆ˜์ค€์—์„œ ๊ฐ€์žฅ ์ •ํ™•๋„๊ฐ€ ๋†’์€ ๋ชจ๋ธ์„ ์˜๋ฏธ

  - LLM SOTA: (24๋…„ 2์›” ๊ธฐ์ค€) OpenAI, AOAI(Azure OpenAI), PaLM(Google), Claude(Anthropic)


- Data lake

  - ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ณธ ํ˜•ํƒœ๋กœ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐํ•œ ์ €์žฅ์†Œ๋กœ, ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋จธ์‹  ๋Ÿฌ๋‹์— ํ™œ์šฉ

  - ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ €์žฅ: ์กฐํ™”๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ, ๋ฐ˜๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ, ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ

  - AWS S3, Google Cloud Storage, Azure Data Lake Storage ๋“ฑ

https://www.qlik.com/us/data-lake

 

- Amazon Redshift

  - AWS๊ฐ€ ์ œ๊ณตํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ์„œ๋น„์Šค๋กœ, ํŽ˜ํƒ€๋ฐ”์ดํŠธ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ ์ €์žฅ ๋ฐ ๋ถ„์„์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. SQL ๊ธฐ๋ฐ˜ ์ฟผ๋ฆฌ ์‚ฌ์šฉ, ์ปฌ๋Ÿผ ๊ธฐ๋ฐ˜ ์ €์žฅ ๋ฐฉ์‹, ๋ฐ์ดํ„ฐ ์••์ถ• ๊ธฐ์ˆ ๋กœ ๋น ๋ฅธ ๋ถ„์„ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‚ฌ์šฉ์ž๋Š” ํ•„์š”์— ๋”ฐ๋ผ ๋ฆฌ์†Œ์Šค๋ฅผ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณด์•ˆ, ๋น„์šฉ ํšจ์œจ์„ฑ, AWS ๋ฐ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์™€์˜ ํ˜ธํ™˜์„ฑ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

  - https://aws.amazon.com/ko/solutions/guidance/devops-on-amazon-redshift/?did=sl_card&trk=sl_card

Amazon Redshift์—์„œ ๊ฐœ๋ฐœ ๋ฐ ์šด์˜(DevOps)์„ ์‹คํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ๋ชจ๋ฒ” ์‚ฌ๋ก€


- FastAPI
  - Python ๊ธฐ๋ฐ˜์˜ ์›น์„œ๋ฒ„๋ฅผ ๋น ๋ฅด๊ฒŒ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ์˜คํ”ˆ์†Œ์Šค: ๋น„๋™๊ธฐ ์ง€์› ๊ณ ์„ฑ๋Šฅ ํŒŒ์ด์ฌ ์›น ํ”„๋ ˆ์ž„์›Œํฌ
  - FastAPI๋ฅผ ์ƒ์„ฑํ•˜๋ฉด ๋น ๋ฅด๊ฒŒ ์›น์„œ๋ฒ„๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ

    - ์˜ˆ์‹œ
      - ใ…‡ใ…‡ใ…‡์•„ํŒŒํŠธ == (๋กœ์ปฌ)์„œ๋ฒ„
      - ใ…‡ใ…‡๋™ ใ…‡ใ…‡ํ˜ธ == FastAPI
  - ์‹ค์Šต: https://github.com/i-am-shuan/LLM-telegram-chatbot/blob/main/README.md

ChatGPT๋กœ ์งˆ์˜์‘๋‹ต ๋ฐ DALLE.2 ๋ชจ๋ธ๊ธฐ๋ฐ˜ ๊ทธ๋ฆผ์„ ๊ทธ๋ ค์ฃผ๋Š” Telegram AI Chatbot


- Python REPL
  - Python REPL์€ "Read-Eval-Print Loop"์˜ ์•ฝ์ž๋กœ, ์‚ฌ์šฉ์ž๋กœ๋ถ€ํ„ฐ ๋ช…๋ น์„ ๋ฐ›์•„ ์ฝ๊ณ (Read), ํ•ด๋‹น ๋ช…๋ น์„ ์‹คํ–‰(Eval), ๊ฒฐ๊ณผ๋ฅผ ์ถœ๋ ฅ(Print)ํ•˜๋Š” ๋ฐ˜๋ณต(Loop) ๊ณผ์ •์„ ๋งํ•ฉ๋‹ˆ๋‹ค. REPL์€ ๊ฐœ๋ฐœ์ž๊ฐ€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋ฅผ ๋Œ€ํ™”์‹์œผ๋กœ ํƒ์ƒ‰ํ•˜๊ณ  ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  - Python์—์„œ REPL์€ ๋ณดํ†ต Python ์ธํ„ฐํ”„๋ฆฌํ„ฐ๋ฅผ ์‹คํ–‰ํ•จ์œผ๋กœ์จ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ„ฐ๋ฏธ๋„์ด๋‚˜ ๋ช…๋ น ํ”„๋กฌํ”„ํŠธ์—์„œ `python` ๋˜๋Š” `python3` ๋ช…๋ น์–ด๋ฅผ ์ž…๋ ฅํ•˜๋ฉด Python์˜ REPL ํ™˜๊ฒฝ์ด ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค. ์ด ํ™˜๊ฒฝ์—์„œ๋Š” Python ์ฝ”๋“œ๋ฅผ ํ•œ ์ค„์”ฉ ์ž…๋ ฅํ•˜๊ณ  ๋ฐ”๋กœ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ํ•™์Šต, ๋น ๋ฅธ ํ…Œ์ŠคํŠธ ์‹คํ–‰, ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํƒ์ƒ‰, ๋‹จํŽธ ์ฝ”๋“œ ์‹คํ—˜ ๋“ฑ์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  - REPL ํ™˜๊ฒฝ์€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์˜ ์ฆ‰๊ฐ์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜์—ฌ ๊ฐœ๋ฐœ ๊ณผ์ •์„ ๋” ๋น ๋ฅด๊ณ  ์ง๊ด€์ ์œผ๋กœ ๋งŒ๋“ค์–ด ์ค๋‹ˆ๋‹ค.

 

- pytorch

  - ๋”ฅ๋Ÿฌ๋‹ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๊ณ  ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•œ ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ (FAIR; Facebook AI Research)

 

- tensorflow

  - ๊ตฌ๊ธ€์ด ๊ฐœ๋ฐœํ•œ ์˜คํ”ˆ์†Œ์Šค ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ

 

- ํ—ˆ๊น…ํŽ˜์ด์Šค(Hugging Face)
  - ํ—ˆ๊น…ํŽ˜์ด์Šค๋Š” ๊นƒํ—™(GitHub)๊ณผ ๊ฐ™์ด ์ฝ”๋“œ๋ฅผ ํ˜ธ์ŠคํŒ…ํ•˜๋Š” ํ”Œ๋žซํผ์˜ ๊ธฐ๋Šฅ์„ ์ผ๋ถ€ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ฃผ๋กœ ์ธ๊ณต์ง€๋Šฅ, ํŠนํžˆ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต์œ ํ•˜๊ณ  ํ˜‘์—…ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘” ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค. ํ—ˆ๊น…ํŽ˜์ด์Šค๋Š” ์˜คํ”ˆ์†Œ์Šค ๊ธฐ์—ฌ, ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํ„ฐ์…‹ ๊ณต์œ , ๊ทธ๋ฆฌ๊ณ  ๋จธ์‹ ๋Ÿฌ๋‹ ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ฐ„์˜ ํ˜‘๋ ฅ์„ ์ด‰์ง„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•˜๋ฉฐ, ํŠนํžˆ Transformers ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ์ž˜ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์„ ์œ„ํ•œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ—ˆ๊น…ํŽ˜์ด์Šค๋Š” ๊นƒํ—™์ฒ˜๋Ÿผ ์ฝ”๋“œ ๊ณต์œ  ํ”Œ๋žซํผ์˜ ์—ญํ• ์„ ํ•˜๊ธฐ๋„ ํ•˜์ง€๋งŒ, ์ฃผ๋กœ AI ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์— ํŠนํ™”๋œ ํ”Œ๋žซํผ์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ๋” ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค.

https://huggingface.co/

 

- Multimodal
  - LLM(Large Language Models) ๋ถ„์•ผ์—์„œ Multimodal ์ด๋ž€ ์šฉ์–ด๋Š” ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(์˜ˆ: ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ)๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด๋‚˜ ์‹œ์Šคํ…œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, Multimodal์€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ •๋ณด๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ˆ ์˜ ๋ฒ”์œ„๋ฅผ ์ง€์นญํ•ฉ๋‹ˆ๋‹ค.
- ์ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ์˜ˆ๋กœ ์„ค๋ช…ํ•˜์ž๋ฉด, ์ธ๊ฐ„์ด ์„ธ์ƒ์„ ๊ฒฝํ—˜ํ•˜๋Š” ๋ฐฉ์‹์„ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ณด๊ณ , ๋“ฃ๊ณ , ๋งํ•˜๊ณ , ์ฝ๊ณ , ์“ฐ๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ์ •๋ณด๋ฅผ ๋ฐ›์•„๋“ค์ด๊ณ  ์†Œํ†ตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์นœ๊ตฌ์™€ ๋Œ€ํ™”ํ•  ๋•Œ, ์šฐ๋ฆฌ๋Š” ๊ทธ๋“ค์ด ํ•˜๋Š” ๋ง๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ‘œ์ •, ๋ชธ์ง“, ๊ทธ๋ฆฌ๊ณ  ์ฃผ๋ณ€ ํ™˜๊ฒฝ์˜ ์‹œ๊ฐ์  ์š”์†Œ๋“ค๋„ ํ•จ๊ป˜ ํ•ด์„ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ๋‹ค์–‘ํ•œ ์ •๋ณด ํ˜•ํƒœ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์šฐ๋ฆฌ๋Š” ์ƒํ™ฉ์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ , ๋ณด๋‹ค ์ ์ ˆํ•˜๊ฒŒ ๋ฐ˜์‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  - Multimodal ๋ชจ๋ธ์—์„œ๋„ ๋น„์Šทํ•œ ์›๋ฆฌ๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ ์ •๋ณด๋งŒ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€์‹ , ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋” ํ’๋ถ€ํ•˜๊ณ  ์ •ํ™•ํ•œ ์ •๋ณด ์ดํ•ด ๋ฐ ์ƒ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ๋น„๋””์˜ค ๋‚ด์šฉ์— ๊ธฐ๋ฐ˜ํ•œ ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•˜๋Š” ๋“ฑ์˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  - ๊ฒฐ๋ก ์ ์œผ๋กœ, Multimodal์€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ˆ ์„ ๋งํ•˜๋ฉฐ, ์ด๋Š” LLM ๋ถ„์•ผ์—์„œ ๋ณด๋‹ค ๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ธ๊ฐ„๊ณผ ์ปดํ“จํ„ฐ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

 

- T5(Text-to-Text Transfer Transformer)
  - Google Research์˜ ํŒ€์— ์˜ํ•ด ๊ฐœ๋ฐœ๋œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. T5๋Š” ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์„ ํ…์ŠคํŠธ-ํˆฌ-ํ…์ŠคํŠธ์˜ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ๋ฌธ ์‘๋‹ต(QA), ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋“ฑ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์ผํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 
  - NLP(Natural Language Processing): ์ปดํ“จํ„ฐ๊ฐ€ ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ•ด์„ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ธฐ์ˆ  ๋ถ„์•ผ
  - T5 ๋ชจ๋ธ์˜ ํŠน์ง•
    - ํ†ตํ•ฉ๋œ ์ ‘๊ทผ ๋ฐฉ์‹: T5๋Š” ๋ชจ๋“  NLP ์ž‘์—…์„ ์ž…๋ ฅ ํ…์ŠคํŠธ์—์„œ ์ถœ๋ ฅ ํ…์ŠคํŠธ๋กœ์˜ ๋ณ€ํ™˜ ๊ณผ์ •์œผ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ์ž‘์—…์„ ์œ ์—ฐํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    - ์‚ฌ์ „ ํ•™์Šต๊ณผ ๋ฏธ์„ธ ์กฐ์ •: T5๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ์‚ฌ์ „ ํ•™์Šต์„ ๊ฑฐ์นœ ํ›„, ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋ชจ๋ธ์ด ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ์ดํ•ด๋ฅผ ์Šต๋“ํ•˜๊ณ , ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ์ตœ์ ํ™”๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    - ์‹คํ—˜์  ๋ฐฉ๋ฒ•๋ก : T5 ๊ฐœ๋ฐœ ํŒ€์€ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ, ํ•™์Šต๋ฅ , ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ณ€์ˆ˜๋“ค์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํญ๋„“๊ฒŒ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ์„ค๊ณ„์™€ ํ•™์Šต ์ „๋žต์— ๋Œ€ํ•œ ๊นŠ์€ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  - ๊ด€๋ จ๋œ ์„œ๋น„์Šค๋“ค
    - T5 ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ NLP ๊ธฐ๋ฐ˜ ์„œ๋น„์Šค์™€ ์ œํ’ˆ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์„œ๋น„์Šค, ์ž๋™ ์š”์•ฝ ๋„๊ตฌ, ์ฑ—๋ด‡, ๊ฐ€์ƒ ๋น„์„œ, ๊ฒ€์ƒ‰ ์—”์ง„ ์ตœ์ ํ™” ๋„๊ตฌ, ๊ฐ์ • ๋ถ„์„ ์„œ๋น„์Šค ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ Google Cloud์˜ Natural Language API, Google ๋ฒˆ์—ญ๊ธฐ, ๋‹ค์–‘ํ•œ ์จ๋“œ ํŒŒํ‹ฐ ๊ฐœ๋ฐœ์ž ๋„๊ตฌ์™€ ์„œ๋น„์Šค๊ฐ€ T5 ๋˜๋Š” ์œ ์‚ฌํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.


- Tenant

  - ํด๋ผ์šฐ๋“œ ํ™˜๊ฒฝ์—์„œ ์ž์›์„ ๊ณต์œ ํ•˜๋Š” ๋…๋ฆฝ์ ์ธ ์‚ฌ์šฉ์ž ๋˜๋Š” ์กฐ์ง ๋‹จ์œ„
์˜ˆ๋ฅผ ๋“ค์–ด, ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค๋ฅผ ์ด์šฉํ•˜๋Š” ์—ฌ๋Ÿฌ ํšŒ์‚ฌ๊ฐ€ ์žˆ์„ ๋•Œ, ๊ฐ ํšŒ์‚ฌ๋Š” 'ํ…Œ๋„ŒํŠธ'๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์ด๋“ค์€ ๊ฐ™์€ ์ธํ”„๋ผ(์„œ๋ฒ„, ์Šคํ† ๋ฆฌ์ง€ ๋“ฑ)๋ฅผ ๊ณต์œ ํ•˜์ง€๋งŒ, ๊ฐ์ž์˜ ๋ฐ์ดํ„ฐ, ์„ค์ •, ์‚ฌ์šฉ์ž ๊ด€๋ฆฌ ๋“ฑ์€ ์™„์ „ํžˆ ๋…๋ฆฝ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ, ์—ฌ๋Ÿฌ ํ…Œ๋„ŒํŠธ๊ฐ€ ๊ฐ™์€ ํ™˜๊ฒฝ์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ์„œ๋กœ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๊ณ , ์ž์›์„ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜์ž๋ฉด, 'ํ…Œ๋„ŒํŠธ'๋Š” ๋ฉ€ํ‹ฐํ…Œ๋„Œ์‹œ ํ™˜๊ฒฝ์—์„œ ์ž์›์„ ๊ณต์œ ํ•˜๋ฉด์„œ๋„ ์„œ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ์šด์˜๋  ์ˆ˜ ์žˆ๋Š” ๊ฐœ๋ณ„ ์‚ฌ์šฉ์ž๋‚˜ ์กฐ์ง์„ ์ง€์นญํ•˜๋Š” ์šฉ์–ด์ž…๋‹ˆ๋‹ค.

 

-  ๋ฉ€ํ‹ฐํ…Œ๋„Œ์‹œ(Multi-Tenancy)

  - ๋‹จ์ผ ์ธ์Šคํ„ด์Šค์˜ ์†Œํ”„ํŠธ์›จ์–ด ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์ด ์—ฌ๋Ÿฌ ์‚ฌ์šฉ์ž(ํ…Œ๋„ŒํŠธ)์— ์˜ํ•ด ๊ณต์œ ๋˜์–ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ์—์„œ ๊ฐ ํ…Œ๋„ŒํŠธ๋Š” ๋งˆ์น˜ ์ž์‹ ๋งŒ์˜ ๋…๋ฆฝ๋œ ์†Œํ”„ํŠธ์›จ์–ด ์ธ์Šคํ„ด์Šค๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋Š๋ผ์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๋‹ค๋ฅธ ํ…Œ๋„ŒํŠธ์™€ ๋ฌผ๋ฆฌ์  ์ธํ”„๋ผ(์„œ๋ฒ„, ์Šคํ† ๋ฆฌ์ง€ ๋“ฑ)์™€ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ธ์Šคํ„ด์Šค๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค.

  - ๋ฉ€ํ‹ฐํ…Œ๋„Œ์‹œ์˜ ์ฃผ์š” ์ด์ ์€ ์ž์›์˜ ํšจ์œจ์  ์‚ฌ์šฉ์ž…๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ธ์Šคํ„ด์Šค์™€ ์ธํ”„๋ผ๋ฅผ ์—ฌ๋Ÿฌ ํ…Œ๋„ŒํŠธ๊ฐ€ ๊ณต์œ ํ•จ์œผ๋กœ์จ, ๊ฐ ํ…Œ๋„ŒํŠธ๋Š” ๋น„์šฉ์„ ์ ˆ๊ฐํ•˜๋ฉด์„œ ํ•„์š”ํ•œ ์„œ๋น„์Šค๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์„œ๋น„์Šค ์ œ๊ณต์ž๋Š” ์œ ์ง€๋ณด์ˆ˜์™€ ์—…๊ทธ๋ ˆ์ด๋“œ๋ฅผ ํ•œ ๋ฒˆ๋งŒ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋ชจ๋“  ํ…Œ๋„ŒํŠธ์— ์ ์šฉ๋˜๋ฏ€๋กœ ์šด์˜์˜ ํšจ์œจ์„ฑ์ด ๋†’์•„์ง‘๋‹ˆ๋‹ค.

  - ๋ฉ€ํ‹ฐํ…Œ๋„Œ์‹œ๋Š” ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค, SaaS(์†Œํ”„ํŠธ์›จ์–ด as a ์„œ๋น„์Šค) ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๋“ฑ ๋‹ค์–‘ํ•œ IT ์„œ๋น„์Šค์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ํ…Œ๋„ŒํŠธ๋Š” ๊ฐœ๋ณ„์ ์ธ ๋ฐ์ดํ„ฐ, ์„ค์ •, ์‚ฌ์šฉ์ž ๊ด€๋ฆฌ ๊ถŒํ•œ์„ ๊ฐ–์ง€๋งŒ, ๊ธฐ๋ณธ์ ์ธ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ฝ”๋“œ์™€ ํ•˜๋“œ์›จ์–ด ์ž์›์€ ๋‹ค๋ฅธ ํ…Œ๋„ŒํŠธ์™€ ๊ณต์œ ํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

 

- ๋žœ๋”ฉ์กด(Landing Zone)

  - ํด๋ผ์šฐ๋“œ ํ™˜๊ฒฝ์—์„œ ์•ˆ์ „ํ•˜๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ž์›์„ ๋ฐฐํฌํ•˜๊ณ  ๊ด€๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ ๊ตฌ์„ฑ ์š”์†Œ์™€ ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ œ๊ณตํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. AWS, Azure, Google Cloud Platform ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค ์ œ๊ณต์—…์ฒด๋“ค์€ ๊ฐ๊ฐ์˜ ๋žœ๋”ฉ์กด ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋Š” ์กฐ์ง์ด ํด๋ผ์šฐ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๊ณผ ์„œ๋น„์Šค๋ฅผ ๋น ๋ฅด๊ฒŒ ๋ฐฐํฌํ•˜๊ณ  ์šด์˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  - ๋žœ๋”ฉ์กด์€ ๋ณด์•ˆ, ๋„คํŠธ์›Œํ‚น, ์ธ์ฆ ๋ฐ ๊ถŒํ•œ ๋ถ€์—ฌ, ๋กœ๊น… ๋ฐ ๋ชจ๋‹ˆํ„ฐ๋ง๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์—…์€ ํด๋ผ์šฐ๋“œ ํ™˜๊ฒฝ์„ ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ณ  ๊ทœ๋ชจ์— ๋งž๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋žœ๋”ฉ์กด์€ ๋ฉ€ํ‹ฐ ๊ณ„์ • ์ „๋žต, ์กฐ์ง์˜ ์ •์ฑ…๊ณผ ๊ทœ์ • ์ค€์ˆ˜ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ง€์›ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ๋ณด์•ˆ๊ณผ ๊ฑฐ๋ฒ„๋„Œ์Šค๋ฅผ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

 

- provisioning

  - ๋ฆฌ์†Œ์Šค๋ฅผ ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž๊ฒŒ ์„ค์ •ํ•˜๊ณ  ๋ฐฐํฌํ•˜๋Š” ๊ณผ์ • (sw, hw, network ์„ค์ •, ์‹œ์Šคํ…œ ๊ตฌ์„ฑ, ์„œ๋ฒ„ ํ• ๋‹น, ์‚ฌ์šฉ์ž ๊ณ„์ •์ƒ์„ฑ ๋“ฑ)

 

- ๋ชจ๋”๋ ˆ์ด์…˜ ํ•„ํ„ฐ(Moderation Filter)

  - ์˜จ๋ผ์ธ์—์„œ ๋ถ€์ ์ ˆํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์ž๋™ ๋˜๋Š” ์ˆ˜๋™์œผ๋กœ ๊ฒ€ํ† ํ•˜์—ฌ ํ•„ํ„ฐ๋งํ•˜๋Š” ๊ธฐ์ˆ 

๋ฐ˜์‘ํ˜•

๊ณต์œ 

๋Œ“๊ธ€