embedding guide

https://ai.google.dev/docs/embeddings_guide

Gemini API의 μž„λ² λ”© μ„œλΉ„μŠ€λŠ” 단어, ꡬ문, λ¬Έμž₯에 λŒ€ν•œ μ΅œμ²¨λ‹¨ μž„λ² λ”©μ„ μƒμ„±ν•©λ‹ˆλ‹€. μ΄λ ‡κ²Œ μƒμ„±λœ μž„λ² λ”©μ€ μ‹œλ§¨ν‹± 검색, ν…μŠ€νŠΈ λΆ„λ₯˜, ν΄λŸ¬μŠ€ν„°λ§ λ“± λ‹€μ–‘ν•œ μžμ—°μ–΄ 처리 μž‘μ—…μ— μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 νŽ˜μ΄μ§€μ—μ„œλŠ” μž„λ² λ”©μ΄ 무엇인지 μ„€λͺ…ν•˜κ³  μž„λ² λ”© μ„œλΉ„μŠ€λ₯Ό μ‹œμž‘ν•˜λŠ” 데 도움이 λ˜λŠ” λͺ‡ κ°€μ§€ μ£Όμš” μ‚¬μš© 사둀λ₯Ό κ°•μ‘°ν•©λ‹ˆλ‹€.

What are embeddings

ν…μŠ€νŠΈ μž„λ² λ”©μ€ ν…μŠ€νŠΈλ₯Ό 숫자 λ²‘ν„°λ‘œ λ³€ν™˜ν•˜λŠ” μžμ—°μ–΄ 처리(NLP) κΈ°μˆ μž…λ‹ˆλ‹€. μž„λ² λ”©μ€ 의미둠적 μ˜λ―Έμ™€ λ¬Έλ§₯을 ν¬μ°©ν•˜μ—¬ λΉ„μŠ·ν•œ 의미의 ν…μŠ€νŠΈκ°€ 더 κ°€κΉŒμš΄ μž„λ² λ”©μ„ 갖도둝 ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, "λ‚˜λŠ” 개λ₯Ό 동물병원에 데렀갔닀"와 "λ‚˜λŠ” 고양이λ₯Ό 동물병원에 데렀갔닀"λΌλŠ” λ¬Έμž₯은 λͺ¨λ‘ λΉ„μŠ·ν•œ λ§₯락을 μ„€λͺ…ν•˜κΈ° λ•Œλ¬Έμ— 벑터 κ³΅κ°„μ—μ„œ μ„œλ‘œ κ°€κΉŒμš΄ μž„λ² λ”©μ„ κ°–κ²Œ λ©λ‹ˆλ‹€.

μ΄λŠ” λ²‘ν„°μ—μ„œλŠ” μž‘λ™ν•˜μ§€λ§Œ ν…μŠ€νŠΈμ—μ„œλŠ” 직접 μž‘λ™ν•˜μ§€ μ•ŠλŠ” λ§Žμ€ μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•  수 있기 λ•Œλ¬Έμ— μ€‘μš”ν•©λ‹ˆλ‹€.

μ΄λŸ¬ν•œ μž„λ² λ”© λ˜λŠ” 벑터λ₯Ό μ‚¬μš©ν•˜μ—¬ μ„œλ‘œ λ‹€λ₯Έ ν…μŠ€νŠΈλ₯Ό λΉ„κ΅ν•˜κ³  μ„œλ‘œμ˜ 관계λ₯Ό 이해할 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, '고양이'와 '개'λΌλŠ” ν…μŠ€νŠΈμ˜ μž„λ² λ”©μ΄ μ„œλ‘œ 가깝닀면 이 λ‹¨μ–΄μ˜ μ˜λ―Έλ‚˜ λ¬Έλ§₯ λ˜λŠ” 두 단어가 μœ μ‚¬ν•˜λ‹€λŠ” 것을 μΆ”λ‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 κΈ°λŠ₯은 λ‹€μŒ μ„Ήμ…˜μ—μ„œ μ„€λͺ…ν•˜λŠ” λ‹€μ–‘ν•œ μ‚¬μš© 사둀λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

Use cases

ν…μŠ€νŠΈ μž„λ² λ”©μ€ λ‹€μ–‘ν•œ NLP μ‚¬μš© 사둀λ₯Ό μ§€μ›ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄

  • 정보 검색: μž…λ ₯ ν…μŠ€νŠΈκ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ 의미적으둜 μœ μ‚¬ν•œ ν…μŠ€νŠΈλ₯Ό κ²€μƒ‰ν•˜λŠ” 것이 λͺ©ν‘œμž…λ‹ˆλ‹€. μ‹œλ§¨ν‹± 검색, μ§ˆλ¬Έμ— λŒ€ν•œ λ‹΅λ³€, μš”μ•½ λ“± 정보 검색 μ‹œμŠ€ν…œμ„ 톡해 λ‹€μ–‘ν•œ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ„ 지원할 수 μžˆμŠ΅λ‹ˆλ‹€. μ˜ˆμ‹œλŠ” λ¬Έμ„œ 검색 λ…ΈνŠΈλΆμ„ μ°Έκ³ ν•˜μ„Έμš”.(https://ai.google.dev/examples/doc_search_emb)

  • λΆ„λ₯˜: μž„λ² λ”©μ„ μ‚¬μš©ν•˜μ—¬ λ¬Έμ„œλ₯Ό μΉ΄ν…Œκ³ λ¦¬λ‘œ λΆ„λ₯˜ν•˜λŠ” λͺ¨λΈμ„ ν›ˆλ ¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ μ‚¬μš©μž λŒ“κΈ€μ„ 뢀정적 λ˜λŠ” 긍정적 λŒ“κΈ€λ‘œ λΆ„λ₯˜ν•˜λ €λŠ” 경우 μž„λ² λ”© μ„œλΉ„μŠ€λ₯Ό μ‚¬μš©ν•˜μ—¬ 각 λŒ“κΈ€μ˜ 벑터 ν‘œν˜„μ„ 가져와 λΆ„λ₯˜κΈ°λ₯Ό ν›ˆλ ¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μžμ„Έν•œ λ‚΄μš©μ€ Gemini λΆ„λ₯˜κΈ° μ˜ˆμ‹œλ₯Ό μ°Έμ‘°ν•˜μ„Έμš”.(https://ai.google.dev/examples/train_text_classifier_embeddings)

  • ν΄λŸ¬μŠ€ν„°λ§: ν…μŠ€νŠΈμ˜ 벑터λ₯Ό λΉ„κ΅ν•˜λ©΄ μ–Όλ§ˆλ‚˜ λΉ„μŠ·ν•˜κ±°λ‚˜ λ‹€λ₯Έμ§€ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 이 κΈ°λŠ₯은 μœ μ‚¬ν•œ ν…μŠ€νŠΈλ‚˜ λ¬Έμ„œλ₯Ό ν•¨κ»˜ κ·Έλ£Ήν™”ν•˜λŠ” ν΄λŸ¬μŠ€ν„°λ§ λͺ¨λΈμ„ ν›ˆλ ¨ν•˜κ³  λ°μ΄ν„°μ˜ 이상 μ§•ν›„λ₯Ό κ°μ§€ν•˜λŠ” 데 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.(https://ai.google.dev/examples/clustering_with_embeddings,https://ai.google.dev/examples/anomaly_detection)

  • 벑터 DB: μƒμ„±λœ μž„λ² λ”©μ„ 벑터 DB에 μ €μž₯ν•˜μ—¬ NLP μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ˜ μ •ν™•μ„±κ³Ό νš¨μœ¨μ„±μ„ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€. 이 νŠœν† λ¦¬μ–Όμ„ μ°Έμ‘°ν•˜μ—¬ 벑터 DBλ₯Ό μ‚¬μš©ν•˜μ—¬ λ¬Έμ„œ 검색 κΈ°λŠ₯을 κ°œμ„ ν•˜λŠ” 방법을 μ•Œμ•„λ³΄μ„Έμš”.(https://ai.google.dev/examples/vectordb_with_chroma)

Last updated

Was this helpful?