π― ΠΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΠ΅ AI ΠΌΠΎΠ΄Π΅Π»ΠΈ
ΠΠ΅ΠΌΠΎΠ½ΡΡΡΠ°ΡΠΈΡ ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ Π·Π°Π΄Π°Ρ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ³ΠΎ Π·ΡΠ΅Π½ΠΈΡ ΠΈ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ Π·Π²ΡΠΊΠ° Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Hugging Face Transformers
Zero-Shot Audio Classification
ΠΡΠ±Π΅ΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ
audio_classifier - ΠΎΠ±ΡΠ°Ρ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ, emotion_classifier - ΡΠΌΠΎΡΠΈΠΈ Π² ΡΠ΅ΡΠΈ
Automatic Speech Recognition (ASR)
ΠΡΠ±Π΅ΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ
whisper - ΠΌΠ½ΠΎΠ³ΠΎΡΠ·ΡΡΠ½Π°Ρ, wav2vec2 - ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½Π°Ρ Π΄Π»Ρ ΡΡΡΡΠΊΠΎΠ³ΠΎ
Text-to-Speech (TTS)
ΠΡΠ±Π΅ΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ
silero - Π²ΡΡΠΎΠΊΠΎΠ΅ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ, gtts - Google TTS, mms - Facebook MMS
Object Detection
Image Segmentation
Image Captioning
Visual Question Answering
Zero-Shot Image Classification
Image Retrieval
π ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅ΠΌΡΠ΅ Π·Π°Π΄Π°ΡΠΈ:
- π΅ ΠΡΠ΄ΠΈΠΎ: ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ, ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΠ΅ ΡΠ΅ΡΠΈ, ΡΠΈΠ½ΡΠ΅Π· ΡΠ΅ΡΠΈ
- ποΈ ΠΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ΅ Π·ΡΠ΅Π½ΠΈΠ΅: ΠΠ΅ΡΠ΅ΠΊΡΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΡ, ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ
- π€ ΠΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΠ΅: ΠΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠ΅ Π²ΠΎΠΏΡΠΎΡΡ, zero-shot ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ, ΠΏΠΎΠΈΡΠΊ ΠΏΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌ