ํ๋ก๊ทธ๋จ ๊ฐ์
PocketSphinx ๊ฐ์
PocketSphinx๋ CMU Sphinx์ ๊ฒฝ๋ํ๋ ๋ฒ์ ์ผ๋ก, ๋ชจ๋ฐ์ผ ๋ฐ ์๋ฒ ๋๋ ์ฅ์น์์ ์คํ๋ผ์ธ์ผ๋ก ์๋ํ๋ ์์ฑ ์ธ์ ์์ง์ ๋๋ค. ์ธํฐ๋ท ์ฐ๊ฒฐ ์์ด๋ ์ค์๊ฐ์ผ๋ก ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ ์ ์์ด ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ์๋ต ์๋ ๋ฉด์์ ์ฐ์ํฉ๋๋ค.
๊ฐ๋ฐ์ฌ:
Carnegie Mellon University
๋ผ์ด์ ์ค:
BSD License
์ง์ ์ธ์ด:
์์ด, ์ค๊ตญ์ด, ํ๋์ค์ด, ๋
์ผ์ด, ์คํ์ธ์ด ๋ฑ
ํ๋ซํผ:
Android, iOS, Linux, Windows, macOS
๊ธฐ์ ์ ๋ณด
ํต์ฌ ํน์ง
- โข ์คํ๋ผ์ธ ์๋์ผ๋ก ๊ฐ์ธ์ ๋ณด ๋ณดํธ
- โข ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ก ๋น ๋ฅธ ์๋ต ์๋
- โข ๋ค์ํ ์ธ์ด ๋ชจ๋ธ ์ง์
- โข ์ปค์คํ ์ดํ ๋ฐ ์ธ์ด ๋ชจ๋ธ ํ์ต ๊ฐ๋ฅ
- โข ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ์์ฑ ์ธ์
๊ธฐ์ ์ฌ์
- โข ์์ฑ ์ธ์ ์ ํ๋: 85-95% (ํ๊ฒฝ์ ๋ฐ๋ผ)
- โข ์ง์ฐ ์๊ฐ: 100-300ms
- โข ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋: 50-200MB
- โข CPU ์ฌ์ฉ๋: ๋ฎ์-์ค๊ฐ
- โข ์ง์ ์ค๋์ค ํ์: WAV, FLAC, MP3
์ฌ์ฉ ๋ฐฉ๋ฒ
์ค์น ๋ฐ ์ค์
1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค์น
pip install pocketsphinx
2. ์ธ์ด ๋ชจ๋ธ ๋ค์ด๋ก๋
# ์์ด ๋ชจ๋ธ ์์
wget https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
๊ธฐ๋ณธ ์ฌ์ฉ๋ฒ
Python ์์ ์ฝ๋
import pyaudio
import pysphinx
# ์์ฑ ์ธ์๊ธฐ ์ด๊ธฐํ
recognizer = pysphinx.SpeechRecognizer()
# ๋ง์ดํฌ์์ ์์ฑ ์
๋ ฅ ๋ฐ๊ธฐ
with pyaudio.PyAudio() as audio:
stream = audio.open(format=pyaudio.paInt16, channels=1,
rate=16000, input=True, frames_per_buffer=1024)
print("๋ง์ํด ์ฃผ์ธ์...")
# ์ค์๊ฐ ์์ฑ ์ธ์
for frame in stream:
result = recognizer.recognize(frame)
if result:
print(f"์ธ์ ๊ฒฐ๊ณผ: {result}")
ํ๋ก๊ทธ๋จ ํ๊ฐ
ํ๊ฐ ์ ์
์ ๋ฌธ์ฑ
7.5/10
ํ์ต๋์ด๋
6.5/10
์ฌ์ฉํธ์์ฑ
7.0/10
ํ์ฉ๋
7.5/10
์ฅ๋จ์
์ฅ์
- โข ์คํ๋ผ์ธ ์๋์ผ๋ก ๊ฐ์ธ์ ๋ณด ๋ณดํธ
- โข ๋น ๋ฅธ ์๋ต ์๋
- โข ์คํ์์ค๋ก ๋ฌด๋ฃ ์ฌ์ฉ
- โข ๋ค์ํ ํ๋ซํผ ์ง์
- โข ์ปค์คํฐ๋ง์ด์ง ๊ฐ๋ฅ
๋จ์
- โข ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ์๋ฃจ์ ๋๋น ์ ํ๋ ๋ฎ์
- โข ์ธ์ด ๋ชจ๋ธ ํฌ๊ธฐ ์ ํ
- โข ์ค์ ๋ฐ ํ๋ ๋ณต์ก์ฑ
- โข ์ ํ๋ ์ธ์ด ์ง์