busyoucow が 2022年09月26日04時32分20秒に編集

初版

タイトルの変更

NumTone

タグの変更

SPRESENSE

NeuralNetworkConsol

カメラボード

メイン画像の変更

メイン画像が設定されました

記事種類の変更

製作品

ライセンスの変更

(CC BY 4+) Creative Commons Attribution CC BY version 4.0 or later

本文の変更

NumTone　～とりあえずAI使ってみよう！～ spresense、かっこいいですよね。マイコンボード上で動くAI（エッジAI）を使って何かしたい！そう思って使い方調べてみても、動画見ているだけで頭がクラクラ… そう感じている人は、少なくないはずです！ちょいとお試しで、手っ取り早く何か作ってみよう！そんな人のための記事です。 AIを使って、演奏してみましょう！必要なもの - spresenseメイン基板 - spresenseカメラボード - spresense拡張ボード（公式） - googleアカウント　か　Sony ID - 小さめのスピーカ（開発中はヘッドフォンの方がよい） - i5第四世代以上のCPUを搭載したWindowsパソコン（GPUがついているとよい） - 日本国内にてインターネットが使える環境 - MicroUSB to USBケーブル - MicroSDメモリーカード（４Gバイト以上を推奨） - メモ用紙１０枚と筆記用具それでは作ってみましょう！〇spresenseを組み立て、カメラボードと拡張ボードがちゃんと接続されているか確認する　まず、こちらを参考にしてArduinoIDEをインストールしてspresense用の開発環境を整えます　LEDを光らせるところまで行ってください　　https://developer.sony.com/develop/spresense/docs/arduino_set_up_ja.html 　スピーカかヘッドフォンも接続してしまいましょう ![キャプションを入力できます](https://camo.elchika.com/7216d8940055ceedac09c2a2198687591dc1bc1f/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f64663733383335342d336563642d346234342d383732352d373330343363396339616563/) 　次にこちらを参考にしてMicroUSBケーブルをメインボードに接続し、拡張ボードが実際に接続されているか動作確認をします　リチウムポリマーバッテリーのところは行わなくてよいです　　https://deviceplus.jp/mc-general/spresense-02/ 　更にカメラボードが実際に接続されているか動作確認をします。　ボタンを押して操作する以降のところは行わなくてよいです　　https://deviceplus.jp/mc-general/spresense-05/ 　ここまできて何故、動作確認を行うのか疑問に思う方も多いと思います　他のマイコン入門デバイスと違って、spresennseはメインボードに何か接続した際きちんと繋がった感が薄いのです　差し込んでも接続されていないケースが多いため、手っ取り早く動作するもので確認をしないと　動作しなかった際何処に不具合があるのかわからなくなることが多いのです　面倒くさがらず、一歩一歩確認しながら行ってください〇NeuralNetworkConsolを「インストール」する　ここからNeuralNetworkConsol Windows版（アプリ）をダウンロードしてインストールしてください　　https://dl.sony.com/ja/app/ 　インストール方法はこちらを参考にしてください　　https://www.mgo-tec.com/blog-entry-nnc-introduction.html 　インストールにはGoogleアカウントかSony IDが必要ですが、日本国内であれば2022年９月現在無料で使えます　クラウド版は従量課金であり無料枠が少ないため、試しに使う用途には推奨しません　Windows版（アプリ）はインストールしたパソコン自体で機械学習を行い学習済みモデルを作成します　機械学習には比較的マシンパワーを必要とするため、できればGPUを搭載したパソコンで行うことを推奨します　ゲーミングPCなどがお勧めです。ビジネス向けパソコンでも動作はしますが時間がかかります　学習済みモデルを一度作成すれば、あとはそれをspresenseに組み込んで単体にて動作します〇サンプルプロジェクトで学習済みモデルファイルを生成するここの手書き文字MNISTデータセットをダウンロードする以降を行ってください https://www.mgo-tec.com/blog-entry-nnc-introduction.html もしくは、ここからtutorial.image_classification.digitsをダウンロードし NeuralNetworkConsole Windows版でダウンロードしたファイルdigits.sdcprojをプロジェクトで開くで開いてください https://dl.sony.com/ja/project/ この場合、次の画面になります ![キャプションを入力できます](https://camo.elchika.com/f046c9a1f62849254991ca8b5b8d1e2c6cc39a17/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f33643834373937662d313935362d346435612d393361312d646565383939333566386264/) digits.sdcprojをクリックすると、次の画面になります ![キャプションを入力できます](https://camo.elchika.com/61e24a77d894d4fd580be3f18dd30215b4bc6075/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f37616666363638652d373866302d343638642d396539372d356332663638373937663739/) 右上のデータセットをクリックします ![キャプションを入力できます](https://camo.elchika.com/454378579a943c01969d0c0ee5154c117cb2aa6d/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f64313738646663302d646565372d343633362d393836642d626231373830366462373562/) 左のTrainingをクリックし、右上のデータセットから下のアイコンをクリックするとデータセットを開くことができます ![キャプションを入力できます](https://camo.elchika.com/be084a5e98101f83af4db8ab255051c8be9de242/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f30336534313235302d326532302d346361362d616235352d633937626334646538633834/) 右に一覧が出るのでmnist_training.csvをクリックします。 ![キャプションを入力できます](https://camo.elchika.com/acf24f47138dd7dab4282965bd9d99f966ca42b8/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f31336635306265342d646236632d346463382d383962352d333833353037383465396466/) この画面が出るとトレーニング用のデータセットをセットされます次にValidationをクリックします ![キャプションを入力できます](https://camo.elchika.com/375629720ce3eb6e57515cecec399ba204ad488e/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f38623633666238342d613061392d346634652d386630332d326536336433386432353264/) 右に一覧が出るのでmnist_test.csvをクリックします左上の学習をクリックして右上の学習を確認して実行をクリックすると、機械学習が始まりますここは結構時間がかかり、RTX2060というGPUを使用して20分弱でした ![キャプションを入力できます](https://camo.elchika.com/041d714a26ca3468592d7c2aee6801c5b03de5e2/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f64656236383039342d326137312d346364642d383131622d656438643134623234656132/) 終了したら、右上の評価を確認して実行をクリックします ![キャプションを入力できます](https://camo.elchika.com/03fa47951faa994dd5b182bc17ae31f4fc36f163/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f63303934303835642d396230302d346637322d393133322d363936346132383131396432/) 終了したら、左上の結果を右クリックして、エクスポート→NNBを選択します ![キャプションを入力できます](https://camo.elchika.com/1ebddcefe5e4b1c4e5e285de9172fa309bada57f/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f65333931393838322d633062392d343062312d616132332d353966373333623139626136/) model.nnbという学習済みファイルが生成されるので、これをnumtone.nnbにリネームして MicroSDカードにコピーし、spresense拡張ボードに差し込みます。 ![キャプションを入力できます](https://camo.elchika.com/9cde4f2d2d1ce7f97fa55ba703b58d13e0da856b/687474703a2f2f73746f726167652e676f6f676c65617069732e636f6d2f656c6368696b612f76312f757365722f32376666653531622d663536372d343163352d623931342d6261393063313164316435332f66636535633964332d656565302d343330372d396466362d666436306166376164663736/) 〇spresense上で動作させるこちらのコードをspresense上にて実行してください ```arduino:Numtone本体 #include <Camera.h> #include <SPI.h> #include <EEPROM.h> #include <SDHCI.h> #include <NetPBM.h> #include <DNNRT.h> #include <Audio.h> AudioClass *theAudio; SDClass SD; #define DNN_IMG_W 28 #define DNN_IMG_H 28 #define CAM_IMG_W 320 #define CAM_IMG_H 240 #define CAM_CLIP_X 104 #define CAM_CLIP_Y 0 #define CAM_CLIP_W 112 #define CAM_CLIP_H 224 int data[10] = {0,262,294,330,349,392,440,494,523,552}; int count = 1; uint8_t buf[DNN_IMG_W*DNN_IMG_H]; DNNRT dnnrt; DNNVariable input(DNN_IMG_W*DNN_IMG_H); static uint8_t const label[11] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; void CamCB(CamImage img) { if (!img.isAvailable()) { Serial.println("Image is not available. Try again"); return; } CamImage small; CamErr err = img.clipAndResizeImageByHW(small , CAM_CLIP_X, CAM_CLIP_Y , CAM_CLIP_X + CAM_CLIP_W -1 , CAM_CLIP_Y + CAM_CLIP_H -1 , DNN_IMG_W, DNN_IMG_H); if (!small.isAvailable()){ putStringOnLcd("Clip and Reize Error:" + String(err), ILI9341_RED); return; } small.convertPixFormat(CAM_IMAGE_PIX_FMT_RGB565); uint16_t* tmp = (uint16_t*)small.getImgBuff(); float *dnnbuf = input.data(); float f_max = 0.0; for (int n = 0; n < DNN_IMG_H*DNN_IMG_W; ++n) { dnnbuf[n] = (float)((tmp[n] & 0x07E0) >> 5); if (dnnbuf[n] > f_max) f_max = dnnbuf[n]; } for (int n = 0; n < DNN_IMG_W*DNN_IMG_H; ++n) { dnnbuf[n] /= f_max; } String gStrResult = "?"; dnnrt.inputVariable(input, 0); dnnrt.forward(); DNNVariable output = dnnrt.outputVariable(0); int index = output.maxIndex(); if (index < 10) { gStrResult = String(label[index]) + String(":") + String(output[index]); } else { gStrResult = String("?:") + String(output[index]); } Serial.println(gStrResult); img.convertPixFormat(CAM_IMAGE_PIX_FMT_RGB565); uint16_t* imgBuf = (uint16_t*)img.getImgBuff(); } void setup() { Serial.begin(115200); //while (!Serial) { // ; // wait for serial port to connect. Needed for native USB port only //} theSD.begin(); theAudio = AudioClass::getInstance(); theAudio->begin(); puts("initialization Audio Library"); theAudio->setPlayerMode(AS_SETPLAYER_OUTPUTDEVICE_SPHP, 0, 0); File nnbfile = SD.open("numtone.nnb"); if (!nnbfile) { Serial.print("nnb not found"); return; } int ret = dnnrt.begin(nnbfile); if (ret < 0) { Serial.println("Runtime initialization failure."); if (ret == -16) { Serial.print("Please install bootloader!"); Serial.println(" or consider memory configuration!"); } else { Serial.println(ret); } return; } theCamera.begin(); theCamera.startStreaming(true, CamCB); //dnnrt.inputVariable(input, 0); //dnnrt.forward(); } void loop() { puts("loop!!"); DNNVariable output = dnnrt.outputVariable(0); int index = output.maxIndex(); //theAudio->setBeep(1,-40,262); theAudio->setBeep(1,-40,data[index]); usleep(500 * 1000); theAudio->setBeep(0,0,0); usleep(100000); } ``` メモ用紙に０～９までの数字を大きめに書いて、カメラに見せると数字によって音階が鳴ると思います数字を入れ替えることによって演奏？できるので、これはもう新しい楽器！？独立して動作するので、パソコンからMicroUSBケーブルを外しモバイルバッテリーに付け替えても楽しめます〇最後に今回はSonyより提供されているデータセットを使用して学習モデルを生成しましたしかし、これで満足できない方も多いと思いますハンドサインで演奏したり、人の顔で演奏したり？その思いが、機械学習を本格的に学習するきっかけになれば幸いです spresenseに関してSonyより提供された様々なドキュメント、および有志の方々の記事を「大いに」参考にさせていただきましたこの場を借りてお礼申し上げます