callstackincubator
diff --git a/‎apps/example-apple/package.json
Lines changed: 1 addition & 0 deletions b/‎apps/example-apple/package.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎apps/example-apple/src/schema-demos.ts
Lines changed: 18 additions & 1 deletion b/‎apps/example-apple/src/schema-demos.ts
Lines changed: 18 additions & 1 deletion
diff --git a/‎bun.lock
Lines changed: 4 additions & 1 deletion b/‎bun.lock
Lines changed: 4 additions & 1 deletion
diff --git a/‎packages/apple-llm/ios/speech/AppleSpeech.mm
Lines changed: 98 additions & 11 deletions b/‎packages/apple-llm/ios/speech/AppleSpeech.mm
Lines changed: 98 additions & 11 deletions
diff --git a/‎packages/apple-llm/ios/speech/AppleSpeechImpl.swift
Lines changed: 145 additions & 5 deletions b/‎packages/apple-llm/ios/speech/AppleSpeechImpl.swift
Lines changed: 145 additions & 5 deletions
@@ -17,6 +17,7 @@
     "@ungap/structured-clone": "^1.3.0",
     "ai": "^5.0.0-beta.25",
     "expo": "^53.0.0",
+    "expo-clipboard": "~7.1.5",
     "expo-document-picker": "~13.1.6",
     "expo-status-bar": "2.2.3",
     "react": "19.0.0",
 
@@ -1,5 +1,12 @@
 import { createAppleProvider } from '@react-native-ai/apple'
-import { experimental_transcribe, generateObject, streamText, tool } from 'ai'
+import {
+  experimental_generateSpeech,
+  experimental_transcribe,
+  generateObject,
+  streamText,
+  tool,
+} from 'ai'
+import * as Clipboard from 'expo-clipboard'
 import { z } from 'zod'
 
 const getWeather = tool({
@@ -128,6 +135,15 @@ export async function basicTranscribeDemo() {
   return response.text
 }
 
+export async function basicSpeechDemo() {
+  const response = await experimental_generateSpeech({
+    model: apple.speechModel(),
+    text: 'What is the weather in Wroclaw?',
+  })
+  await Clipboard.setStringAsync(response.audio.base64)
+  return 'Speech copied to clipboard. Go to https://base64.guru/converter/decode/audio to play.'
+}
+
 export const schemaDemos = {
   basicString: { name: 'String', func: basicStringDemo },
   basicStringStreaming: {
@@ -140,6 +156,7 @@ export const schemaDemos = {
   basicObject: { name: 'Object', func: basicObjectDemo },
   basicArray: { name: 'Array', func: basicArrayDemo },
   basicTranscribe: { name: 'Transcribe', func: basicTranscribeDemo },
+  basicSpeech: { name: 'Speech', func: basicSpeechDemo },
 }
 
 export type DemoKey = keyof typeof schemaDemos
@@ -68,6 +68,7 @@
         "@ungap/structured-clone": "^1.3.0",
         "ai": "^5.0.0-beta.25",
         "expo": "^53.0.0",
+        "expo-clipboard": "~7.1.5",
         "expo-document-picker": "~13.1.6",
         "expo-status-bar": "2.2.3",
         "react": "19.0.0",
@@ -84,7 +85,7 @@
     },
     "packages/apple-llm": {
       "name": "@react-native-ai/apple",
-      "version": "0.2.0",
+      "version": "0.4.0",
       "dependencies": {
         "@ai-sdk/provider": "^2.0.0-beta.1",
         "@ai-sdk/provider-utils": "^3.0.0-beta.5",
@@ -1554,6 +1555,8 @@
 
     "expo-asset": ["expo-asset@11.1.7", "", { "dependencies": { "@expo/image-utils": "^0.7.6", "expo-constants": "~17.1.7" }, "peerDependencies": { "expo": "*", "react": "*", "react-native": "*" } }, "sha512-b5P8GpjUh08fRCf6m5XPVAh7ra42cQrHBIMgH2UXP+xsj4Wufl6pLy6jRF5w6U7DranUMbsXm8TOyq4EHy7ADg=="],
 
+    "expo-clipboard": ["expo-clipboard@7.1.5", "", { "peerDependencies": { "expo": "*", "react": "*", "react-native": "*" } }, "sha512-TCANUGOxouoJXxKBW5ASJl2WlmQLGpuZGemDCL2fO5ZMl57DGTypUmagb0CVUFxDl0yAtFIcESd78UsF9o64aw=="],
+
     "expo-constants": ["expo-constants@17.1.7", "", { "dependencies": { "@expo/config": "~11.0.12", "@expo/env": "~1.0.7" }, "peerDependencies": { "expo": "*", "react-native": "*" } }, "sha512-byBjGsJ6T6FrLlhOBxw4EaiMXrZEn/MlUYIj/JAd+FS7ll5X/S4qVRbIimSJtdW47hXMq0zxPfJX6njtA56hHA=="],
 
     "expo-document-picker": ["expo-document-picker@13.1.6", "", { "peerDependencies": { "expo": "*" } }, "sha512-8FTQPDOkyCvFN/i4xyqzH7ELW4AsB6B3XBZQjn1FEdqpozo6rpNJRr7sWFU/93WrLgA9FJEKpKbyr6XxczK6BA=="],
 
@@ -25,6 +25,7 @@ @interface AppleSpeech : NativeAppleSpeechSpecBase <NativeAppleSpeechSpec, RCTCa
 
 using namespace facebook;
 using namespace JS::NativeAppleLLM;
+using namespace react;
 
 @implementation AppleSpeech
 
@@ -42,21 +43,107 @@ + (NSString *)moduleName {
   return @"NativeAppleSpeech";
 }
 
-- (std::shared_ptr<react::TurboModule>)getTurboModule:(const react::ObjCTurboModule::InitParams &)params {
-  return std::make_shared<react::NativeAppleSpeechSpecJSI>(params);
+- (void)installGenerateFunc:(std::shared_ptr<facebook::react::CallInvoker>)jsInvoker {
+  AppleSpeechImpl *speechModule = _speech;
+  
+  auto runOnJS = [jsInvoker](std::function<void()>&& f) {
+    jsInvoker->invokeAsync(std::move(f));
+  };
+  
+  jsInvoker->invokeAsync([speechModule, runOnJS](jsi::Runtime& rt) {
+    @try {
+      auto global = rt.global();
+      
+      auto generateAudioFunc = jsi::Function::createFromHostFunction(
+        rt,
+        jsi::PropNameID::forAscii(rt, "generateAudio"),
+        2,
+        [speechModule, runOnJS](jsi::Runtime& rt, const jsi::Value& thisVal, const jsi::Value* args, size_t count) -> jsi::Value {
+          if (count < 1 || !args[0].isString()) {
+            throw jsi::JSError(rt, "First argument must be a string (text)");
+          }
+          
+          auto textStr = args[0].asString(rt).utf8(rt);
+          NSString *text = [NSString stringWithUTF8String:textStr.c_str()];
+          
+          auto *options = [NSMutableDictionary new];
+          if (count > 1 && args[1].isObject()) {
+            auto opts = args[1].asObject(rt);
+            
+            if (opts.hasProperty(rt, "language")) {
+              auto langProp = opts.getProperty(rt, "language");
+              if (langProp.isString()) {
+                auto langStr = langProp.asString(rt).utf8(rt);
+                options[@"language"] = [NSString stringWithUTF8String:langStr.c_str()];
+              }
+            }
+            
+            if (opts.hasProperty(rt, "voice")) {
+              auto voiceProp = opts.getProperty(rt, "voice");
+              if (voiceProp.isString()) {
+                auto voiceStr = voiceProp.asString(rt).utf8(rt);
+                options[@"voice"] = [NSString stringWithUTF8String:voiceStr.c_str()];
+              }
+            }
+          }
+          
+          auto Promise = rt.global().getPropertyAsFunction(rt, "Promise");
+          
+          return Promise.callAsConstructor(rt, jsi::Function::createFromHostFunction(
+            rt,
+            jsi::PropNameID::forAscii(rt, "executor"),
+            2,
+            [speechModule, text, options, runOnJS](jsi::Runtime& rt, const jsi::Value& thisVal, const jsi::Value* args, size_t count) -> jsi::Value {
+              auto resolve = std::make_shared<jsi::Function>(args[0].asObject(rt).asFunction(rt));
+              auto reject = std::make_shared<jsi::Function>(args[1].asObject(rt).asFunction(rt));
+              
+              [speechModule generateAudio:text options:options resolve:^(NSData *audioData) {
+                runOnJS([resolve, audioData, &rt]() {
+                  class NSDataMutableBuffer : public facebook::jsi::MutableBuffer {
+                  public:
+                    NSDataMutableBuffer(uint8_t* data, size_t size) : _data(data), _size(size) {}
+                    uint8_t* data() override { return _data; }
+                    size_t size() const override { return _size; }
+                  private:
+                    uint8_t* _data;
+                    size_t _size;
+                  };
+
+                  uint8_t* data = (uint8_t*)[audioData bytes];
+                  size_t size = [audioData length];
+                  
+                  auto mutableBuffer = std::make_shared<NSDataMutableBuffer>(data, size);
+                  auto arrayBuffer = jsi::ArrayBuffer(rt, mutableBuffer);
+
+                  resolve->call(rt, std::move(arrayBuffer));
+                });
+              } reject:^(NSString *code, NSString *message, NSError *error) {
+                runOnJS([reject, message, &rt]() {
+                  auto jsError = jsi::String::createFromUtf8(rt, [message UTF8String]);
+                  reject->call(rt, jsError);
+                });
+              }];
+              
+              return jsi::Value::undefined();
+            }
+          ));
+        }
+      );
+      
+      global.setProperty(rt, "__apple__llm__generate_audio__", generateAudioFunc);
+    } @catch (NSException *exception) {
+      throw jsi::JSError(rt, [[NSString stringWithFormat:@"Failed to install generateAudio handler: %@", exception.reason] UTF8String]);
+    }
+  });
 }
 
-- (nonnull NSNumber *)isAvailable { 
-  return @([_speech isAvailable]);
+- (std::shared_ptr<react::TurboModule>)getTurboModule:(const react::ObjCTurboModule::InitParams &)params {
+  [self installGenerateFunc:params.jsInvoker];
+  return std::make_shared<react::NativeAppleSpeechSpecJSI>(params);
 }
 
-- (void)generate:(nonnull NSString *)text options:(JS::NativeAppleLLM::SpeechOptions &)options resolve:(nonnull RCTPromiseResolveBlock)resolve reject:(nonnull RCTPromiseRejectBlock)reject { 
-  NSDictionary *opts = @{
-    @"language": options.language().has_value() ? @(options.language().value().c_str()) : [NSNull null],
-    @"voice": options.voice().has_value() ? @(options.voice().value().c_str()) : [NSNull null]
-  };
-  
-  [_speech generate:text options:opts resolve:resolve reject:reject];
+- (void)getVoices:(nonnull RCTPromiseResolveBlock)resolve reject:(nonnull RCTPromiseRejectBlock)reject { 
+  [_speech getVoices:resolve reject:reject];
 }
 
 @end
@@ -10,14 +10,154 @@ import AVFoundation
 
 @objc
 public class AppleSpeechImpl: NSObject {
+  private let speechSynthesizer = AVSpeechSynthesizer()
+  
   @objc
-  public func isAvailable() -> Bool {
-    return true // AVSpeechSynthesizer is available on all iOS versions we support
+  public func getVoices(_ resolve: @escaping ([Any]) -> Void, reject: @escaping (String, String, Error?) -> Void) {
+    Task {
+      if #available(iOS 17.0, *) {
+        await withCheckedContinuation { continuation in
+          AVSpeechSynthesizer.requestPersonalVoiceAuthorization { _ in
+            continuation.resume()
+          }
+        }
+      }
+      
+      let allVoices = AVSpeechSynthesisVoice.speechVoices()
+      let voiceInfos = allVoices.map { $0.toDictionary() }
+      resolve(voiceInfos)
+    }
   }
 
   @objc
-  public func generate(_ text: String, options: [String: Any]?, resolve: @escaping (Any?) -> Void, reject: @escaping (String, String, Error?) -> Void) {
-    // TODO: Implement text-to-speech functionality
-    resolve(nil)
+  public func generateAudio(_ text: String, options: [String: Any], resolve: @escaping (Data) -> Void, reject: @escaping (String, String, Error?) -> Void) {
+    let utterance = AVSpeechUtterance(string: text)
+    
+    utterance.voice = if let voiceId = options["voice"] as? String {
+      AVSpeechSynthesisVoice(identifier: voiceId)
+    } else if let language = options["language"] as? String {
+      AVSpeechSynthesisVoice(language: language)
+    } else {
+      nil
+    }
+    
+    var collectedBuffers: [AVAudioPCMBuffer] = []
+    
+    var resolveCallback: ((Data) -> Void)? = resolve
+    var rejectCallback: ((String, String, Error?) -> Void)? = reject
+    
+    speechSynthesizer.write(utterance) { buffer in
+      guard let pcm = buffer as? AVAudioPCMBuffer else { return }
+      
+      if pcm.frameLength == 0 {
+        guard let resolve = resolveCallback, let reject = rejectCallback else { return }
+        
+        do {
+          let data = try AppleSpeechImpl.wavData(from: collectedBuffers)
+          resolve(data)
+        } catch {
+          reject("AppleSpeech", "Error generating WAV data", error)
+        }
+        
+        resolveCallback = nil
+        rejectCallback = nil
+        return
+      }
+      
+      collectedBuffers.append(pcm)
+    }
+  }
+}
+
+extension AppleSpeechImpl {
+  /// Build a single WAV file by generating the header using the first buffer's
+  /// format and then concatenating the raw PCM payloads of all subsequent buffers.
+  /// Assumes all buffers share the same format and are WAV-compatible.
+  static func wavData(from buffers: [AVAudioPCMBuffer]) throws -> Data {
+    guard let first = buffers.first else {
+      throw NSError(domain: "WAV", code: -2,
+                    userInfo: [NSLocalizedDescriptionKey: "No audio buffers collected"])
+    }
+    
+    let channels = Int(first.format.channelCount)
+    let sampleRate = Int(first.format.sampleRate)
+    let isFloat32 = (first.format.commonFormat == .pcmFormatFloat32)
+    let bitsPerSample = isFloat32 ? 32 : 16
+    let byteRate = sampleRate * channels * bitsPerSample / 8
+    let blockAlign = channels * bitsPerSample / 8
+    
+    // Helper: little-endian encoders
+    func le16(_ v: Int) -> [UInt8] { [UInt8(v & 0xff), UInt8((v >> 8) & 0xff)] }
+    func le32(_ v: Int) -> [UInt8] {
+      [UInt8(v & 0xff), UInt8((v >> 8) & 0xff),
+       UInt8((v >> 16) & 0xff), UInt8((v >> 24) & 0xff)]
+    }
+    
+    // Estimate capacity from actual valid bytes in each buffer
+    let estimatedCapacity = buffers.reduce(0) { acc, buf in
+      let audioBuffer = buf.audioBufferList.pointee.mBuffers
+      return acc + Int(audioBuffer.mDataByteSize)
+    }
+    
+    var payload = Data()
+    payload.reserveCapacity(estimatedCapacity)
+    
+    // Concatenate payloads using mDataByteSize, which is kept in sync with frameLength
+    for buf in buffers {
+      let m = buf.audioBufferList.pointee.mBuffers
+      let byteCount = Int(m.mDataByteSize)
+      if let p = m.mData {
+        payload.append(contentsOf: UnsafeRawBufferPointer(start: p, count: byteCount))
+      }
+    }
+    
+    let dataChunkSize = payload.count
+    let fmtChunkSize = 16
+    let riffChunkSize = 4 + (8 + fmtChunkSize) + (8 + dataChunkSize)
+    
+    var header = Data()
+    header.append(contentsOf: Array("RIFF".utf8))
+    header.append(contentsOf: le32(riffChunkSize))
+    header.append(contentsOf: Array("WAVE".utf8))
+    
+    // fmt chunk
+    header.append(contentsOf: Array("fmt ".utf8))
+    header.append(contentsOf: le32(fmtChunkSize))
+    header.append(contentsOf: le16(isFloat32 ? 3 : 1)) // 3 = IEEE float, 1 = PCM
+    header.append(contentsOf: le16(channels))
+    header.append(contentsOf: le32(sampleRate))
+    header.append(contentsOf: le32(byteRate))
+    header.append(contentsOf: le16(blockAlign))
+    header.append(contentsOf: le16(bitsPerSample))
+    
+    // data chunk
+    header.append(contentsOf: Array("data".utf8))
+    header.append(contentsOf: le32(dataChunkSize))
+    
+    var out = Data(capacity: header.count + payload.count)
+    out.append(header)
+    out.append(payload)
+    
+    return out
+  }
+}
+
+extension AVSpeechSynthesisVoice {
+  func toDictionary() -> [String: Any] {
+    var data = [
+      "identifier": self.identifier,
+      "name": self.name,
+      "language": self.language,
+      "quality": quality,
+      "isPersonalVoice": false,
+      "isNoveltyVoice": false
+    ] as [String : Any]
+    
+    if #available(iOS 17.0, *) {
+      data["isPersonalVoice"] = self.voiceTraits.contains(.isPersonalVoice)
+      data["isNoveltyVoice"] = self.voiceTraits.contains(.isNoveltyVoice)
+    }
+    
+    return data
   }
 }