Faster Whisper hilfe benötigt.

  • Registrierung ist offen, allerdings wurden web.de und gmx.de als Mailanbieter gesperrt. Es gibt aktuell ein Problem mit dem Mailserver, demnach landen die Mails derzeit meistens im Spam.

Turbohax

New member
Newfag
May 5, 2024
22
6
3
Hallo zusammen. Ich hatte schon etwas länger vor mich damit zu beschäftigen ein Programm zu installieren welches mir Sprachdateien Transkribiert. Ich bin bei meiner Rechersche auf Faster Whisper gestoßen und das klingt soweit sehr vielversprechend. Jetzt bin ich aber kein Coder und habe wenig Ahnung davon lokal eine AI zum laufen zu bringen. Ich habe mir mal deren GitHub durchgelesen: https://github.com/SYSTRAN/faster-whisper?tab=readme-ov-file

Ich bin schon soweit, dass ich pip installiert habe und damit dieses Faster Whisper auch. Außerdem habe ich cuDNN 8 for CUDA 12 für die GPU installiert.
1. Frage. In der Anleitung wollen die von mir, dass ich auch eine andere Version (cuBLAS for CUDA 12) Diese scheint aber nicht für Windows 10 vorhanden zu sein. Ich habe kurz recherschiert und ein ganzes CUDA Toolkit 12.6 gefunden. Das ist 3 GB groß und das kann man für Windows installieren. Ich habe das stattdessen genommen passt das??? Vlt fehlt mir hier etwas..

2. Nun soweit habe ich das alles und jetzt verstehe ich noch nicht so ganz wie ich das ganze ausführe und dann auch noch klug ausführe, dass das Programm die GPU ( GTX 1070TI) für das rechnen benutzt.

Also mir fehlt hier einfach die weitere Vorgehensweise die sich mir nicht aus deren Anleitung ergibt. Muss ich einfach in die powershell das Programm faster Whisper aufrufen dahinter dann den Speicherort meiner MP3 Datei und dann schreiben language = German und was dann? Also bin leider lost und habe das gefühl es fehlt gar nicht mehr so viel um das zum laufen zu bringen. Wäre toll wenn jemand erbarmen mit mir hat und mir helfen könnte.

GaLiGrü

Turbo
 
Naja das ist halt n python library da steht doch usage:

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

Bin leider nicht am PC aber Speicher dir das als .py und passe entsprechend die kommentierten Zeilen an.