Skip to main content

Data flow problem

WprowadzenieIntroduction

AbyTo skutecznieeffectively wprowadzićintegrate AI dointo EO iand umożliwićenable poszczególnymindividual chapteromchapters wykorzystanieto pełnifully możliwościleverage tejthe technologii,potential należyof najpierwthis rozwiazaćtechnology, problemthe przepływuissue danychof wewnątrzdata naszejflow organizacji.within our organization must first be addressed.

KażdyEach chapter posiadahas dwatwo głównemain rodzajetypes danych:of data:

  1. DaneData swojegospecific chapteru,to indywidualnetheir dlachapter, danegounique chapteruto ithat dostępnechapter tylkoand dlaaccessible członkówonly danegoto chapteruits -members jak np.for informacjeexample, oinformation członkachabout chapteru,chapter budżeciemembers, chapteru,chapter wewnętrznychbudgets, procedurachinternal chapteruchapter itp.procedures, etc.
  2. DaneData wspólneshared dlaacross całegothe entire EO - jaksuch oficjalneas materiałyofficial szkoleniowetraining omaterials forum,for poradnikiforums, dlaguides poszczególnychfor członkówindividual zarządu,board materiałymembers, brandingoweand branding materials.

ObydwaBoth punktypoints wymagająrequire przemyśleniacareful iconsideration zaprojektowania,and aledesign, wbut tejin dyskusjithis chciałbymdiscussion, sięI skupićwould nalike punkcieto numerfocus on point number 2 - czylidata danychshared wspólnychacross dlathe całegoentire EO.

ObecnyCurrent schematData przepływuFlow danychModel

WIn obecnymthe rozwiązaniucurrent AI dlasolution EOfor wykorzystujemyEO, oprogramowaniewe CogniVisuse AI.

Wthe CogniVis AI tworzymysoftware.

osobną

In instancjęCogniVis /AI, jednostkęwe oprogramowaniacreate dlaa każdegoseparate chapteru.instance/unit Dziękiof temuthe każdysoftware for each chapter. This ensures that each chapter mahas pełnięfull kontrolicontrol nadover swoimiits danymidata iand możecan swobodniefreely zarządzaćmanage kontamiuser użytkownikówaccounts dlafor swojegoits chapteru.chapter.

1.png

Legenda:Legend:

  1. Niebieskie cylindry

    Blue tocylinders instancjerepresent CogniVis dlainstances poszczególnychfor chapterówindividual chapters (przykładowo dlae.g., EO Poland, EO Berlin, EO Argentina).

  2. Zielone prostopadłościany

    Green torectangles podłączonerepresent źródłaconnected danychdata sources (tak zwaneso-called connectors) dofor instancjieach danegochapter’s chapteru.instance. KażdyEach chapter możecan używaćuse różnychdifferent źródełdata danychsources - przykładowofor example, EO Poland możemay korzystaćuse ze swojegoits Google Drive, EO Berlin zits Microsoft SharepointSharePoint, aand EO Argentina zits Dropboxa.Dropbox.

  3. Adding Data to a Chapter Instance
Dodawanie

Let's danychconsider doa instancjisimple chapteru

example:

Przyjmijmy następujący prosty przykład: każdyeach chapter chcewants dodaćto doadd swojejtwo instancjifiles 2to pliki,its abyinstance późniejso that AI mógłcan zlater nichuse korzystaćthem ito odpowiadaćrespond nato pytaniaquestions zrelated nimito związane:these files:

1. PierwszyThe plikfirst tofile arkuszis za danymispreadsheet członkówwith danegodata chapteruon the members of that chapter

PrzykładowyExample arkuszspreadsheet zwith danymimember członków:data: https://docs.google.com/spreadsheets/d/1BbusZF1i6689Je_JOENt4arsVNTTC9phJ0NmznI51Ug/edit?usp=sharing

KażdyEach chapter będziewill miałhave takisuch arkusza osobnospreadsheet dlaseparately, siebieand i każdyeach chapter chce,wants abyits tylkosheet jegoto członkowiebe mieliaccessible dostęponly doto jegoits arkusza.members.

KażdyThus, each chapter dodawill więcadd takithis arkuszspreadsheet (oznaczonymarked fioletowympurple koloremin nathe diagramiediagram poniżej)below) doto swojegoits źródładata danych.source. TrzymającFollowing sięour naszegoexample przykładowego schematuschema (see diagram poniżej)below):

  1. EO Poland dodawill arkuszadd the sheet "EO Poland Member Information Sheet" doto swojegoits Google DriveDrive.

  2. EO Berlin dodawill arkuszadd the sheet "EO Berlin Member Information Sheet" doto swojegoits Microsoft SharepointSharePoint.

  3. EO Argentina dodawill arkuszadd the sheet "EO Argentina Member Information Sheet" doto swojegoits DropboxaDropbox.

  • 2. DrugiThe pliksecond tofile is the PDF "SampleForumAgenda.pdf",pdf," którywhich jestis oficjalnyman dokumentemofficial ściągniętymdocument zedownloaded stronyfrom https://www.eonetwork.org/

  • WAgain, tym przypadku ponownie każdyeach chapter dodawill doadd swojegothis źródła danych wspomniany plikfile "SampleForumAgenda.pdf" (oznaczonymarked czerwonymred koloremin nathe diagramiediagram poniżej)below) to its data source.

    2.png

    IstotnaProblem problemuAnalysis

    WIn powyższymthe schemacieabove przepływudata danychflow słuszneschema, jest,it żeis każdycorrect that each chapter dodaadds doits swojejmember instancjidata sheet to its CogniVis arkuszinstance, zas danymi swoich członków, ponieważ każdyeach chapter będziewill miałhave tena plikdifferent innyfile, iand dostępaccess doshould niegobe powinienrestricted byćwithin ograniczonythat tylko w obrębie danej instancji.instance.

    NatomiastHowever, sytuacjąit nieoptymalnąis jest,suboptimal żethat plikthe "SampleForumAgenda.pdf" równieżfile dodawanyis jestalso indywidualnieadded doindividually każdejto instancji,each pomimoinstance, tegodespite żebeing jestidentical identyczny,and acontaining zawartedata wshared nimby daneall EO wspólne dla wszystkich chapterów EO.chapters.

    JeśliFor przykładowoexample, if EO Global wypuścireleases nowąa wersjęnew tegoversion pliku,of this file, all chapters will have to wszystkieupdate chapteryit będąindividually musiałyin indywidualnietheir dokonaćinstances, aktualizacji,adding każdaa nalot swojejof instancji.maintenance Dokładawork and creating risks, such as a chapter forgetting to mnóstwoupdate pracyand związanejusing zoutdated utrzymaniemversions iof tworzythe wieleofficial ryzyk,EO np.documents.

    że

    Moreover, jakiśthe issue becomes more complex considering the large volume of official EO data and documents, and the continuous release of new ones. If each chapter zapomnihas tegoto zrobićindividually iupdate niethese będziefiles, korzystaćdata zdiscrepancies najaktualniejszejwill wersjiquickly oficjalnychemerge, dokumentówleading EO.

    to

    Dodatkowoinconsistencies sprawęand, skomplikujeeventually, fakt,complete żedisarray, oficjalnychsignificantly danychreducing ithe dokumentóweffectiveness odof EOthe jestAI bardzothat wielerelies ion ciąglethis pojawiają się nowe. Jeśli każdy chapter będzie musiał indywidualnie dokonywać aktualizacji tych danych bardzo szybko pojawią się rozjazdy / różnice w tych danych, aż w końcu zapanuje zupełny bałagan, przez co efektywność sztucznej inteligencji, która na tych danych ma się opierać, bardzo spadnie.data.

    RozwiązanieSolution iand sugerowanySuggested schematData przepływuFlow danychModel

    NależyThe zmienićdata przepływflow danychshould tak,be abychanged oficjalneso dokumentythat ithe daneofficial zdocuments and data from EO Global, którewhich are wspólneshared dlaby wszystkichall chapterówEO EO,chapters, miałyhave swojea jednesingle źródło,source zfrom któregowhich następnie zaciągać będą dane wszystkie instancjeall CogniVis wszystkichinstances chapterów.for all chapters can pull data.

    WIn tejthis sytuacjiscenario, daneindividual indywidualnedata (jaksuch arkuszeas zmember danymidata członkówsheets chapteru -marked zaznaczonein napurple) fioletowo)would nadalstill będąbe indywidualnieadded dodawaneindividually przezby każdyeach chapter doto swojejits instnacji.own instance.

    JednakHowever, danecommon wspólnedata dlafor całegothe entire EO (jaksuch plikas the "SampleForumAgenda.pdf" -file zaznaczony namarked czerwono)in powinnyred) znajdowaćshould siębe wstored jednym,in oficjalnyma repozytoriumsingle, danychofficial EO Global,Global któredata zawierałobyrepository zawszethat najaktualniejszealways dane.contains the most up-to-date data.

    WtedyThen, wszystkie instancjeall CogniVis wszystkichinstances chapterówfor all EO mogłybychapters zaciągaćcould oficjalnepull globalneofficial daneglobal zdata repozytoriumfrom the EO Global,Global arepository, swojewhile prywatneadding danetheir dodawaćprivate indywidualniedata doindividually swoichto instancji.their own instances.

    DziękiThis temuwould znaczącosignificantly zmniejszyreduce sięthe ciężarmaintenance utrzymaniaburden danychof wspólnychshared dladata całegofor the entire EO, boas wystarczyit jewould utrzymywaćonly ineed aktualizowaćto tylkobe wmaintained jednymand miejscu.updated in one place.

    3.png

    CzymWhat dokładnieExactly powinnoShould być Oficjalne Repozytorium Danychthe EO Global?Global Official Data Repository Be?

    PoniżejBelow kilkaare propozycjisome isuggestions uwagand doconsiderations możliwychfor rozwiązań:possible solutions:

    1. Cloud storageStorage

    WIn najprostszymthe rozwiązaniusimplest mogłoby być to przygotowane przezsolution, EO Global could set up cloud storage (DyskGoogle Google,Drive, Microsoft Sharepoint,SharePoint, DropboxDropbox, itp),etc.) którethat byłobywould regularniebe utrzymywaneregularly imaintained aprobowaneand przezapproved zespółby the EO Global.Global team.

    2. Komunikacja przez API zCommunication with https://hub.eonetwork.org/

    BardziejA zaawansowanymmore rozwiązaniemadvanced byłobysolution umożliwieniewould bezpośredniejbe komunikacjienabling poprzezdirect API pomiędzycommunication instancjamibetween the CogniVis ainstances and https://hub.eonetwork.org/.

    The question is whether the data on https://hub.eonetwork.org/ .

    is

    Pytanieregularly czymaintained daneand naalways https://hub.eonetwork.org/contains faktyczniethe latest regularnieversions utrzymywaneof iall zawierają zawsze tylko najaktualniejsze wersje wszystkich dokumentów?documents.

    ProblemIssue zwith plikamiPDFs PDFfor z oficjalnych dokumentówOfficial EO Global Documents

    CogniVis AI dobrzeperforms radziwell sobiein z czytaniem plikówreading PDF ifiles znakomitejand, większościin udzielamost poprawnychcases, odpowiedziprovides nacorrect ichresponses podstawie.based on them.

    Jednakże plikiHowever, PDF files (athe większośćformat dokumentówof most EO Global jestdocuments) ware takiejnot formie)the nieideal solution najlepszymand rozwiązaniemcreate imany wlong-term długoterminowymcomplications, użytkowaniusuch tworzą wiele komplikacji, takich jak:as:

    • TrudnościDifficulties zin ekstrakcjądata danychextraction: StrukturaThe plikówstructure of PDF jestfiles projektowanais przededesigned wszystkimprimarily dofor prezentacjivisual treścipresentation wrather sposóbthan wizualny,storing aand nieprocessing doinformation przechowywaniaby i przetwarzania informacji przez maszyny.machines. AI częstooften napotykaencounters problemyissues zin poprawnymcorrectly rozpoznawaniemrecognizing tekstu,text, tabel,tables, grafikgraphics, orazand układudocument dokumentu,layout, coleading prowadzito doerrors błędówin wdata ekstrakcji danych.extraction.
    • BrakLack spójnejof struktury:consistent Pliki PDF nie mają ujednoliconego standardu układu danych. Nawet w podobnych dokumentach formatowanie może się różnić, co utrudnia AI interpretację informacji, takich jak nagłówki, listy czy sekcje tekstu.
    • Ograniczony dostęp do metadanych: W przeciwieństwie do innych formatów, takich jak JSON, XML czy CSV, pliki PDF nie zawierają strukturalnych metadanych, które mogą być łatwo analizowane przez algorytmy. To znacznie ogranicza możliwości wyszukiwania i filtrowania informacji.
    • Problemy z kodowaniem znakówstructure: PDF możefiles przechowywaćdo tekstnot whave różnycha formatachunified kodowania,standard cofor częstodata powodujelayout. problemyEven zin rozpoznawaniemsimilar niektórychdocuments, znaków,formatting szczególniemay wvary, dokumentachcomplicating wielojęzycznychAI's lubinterpretation wof przypadkuinformation niestandardowychsuch czcionek.as headers, lists, or text sections.
    • NieefektywneLimited przetwarzanieaccess danychto wielostronicowychmetadata: AlgorytmyUnlike other formats like JSON, XML, or CSV, PDF files do not contain structured metadata that can be easily analyzed by algorithms. This greatly limits the ability to search and filter information.
    • Character encoding issues: PDF can store text in different encoding formats, which often causes problems in recognizing certain characters, especially in multilingual documents or when using non-standard fonts.
    • Inefficient processing of multi-page data: AI mogąalgorithms miećmay trudnościstruggle zto rozpoznawaniemrecognize kontekstu,context jeśliwhen treścicontent is podzielonespread naacross wielemultiple stron.pages. NaFor przykładexample, zdaniasentences mogąmay byćbreak przerwaneat nathe końcuend jednejof stronyone ipage kontynuowaneand nacontinue następnej,on cothe możenext, skutkowaćleading błędnąto interpretacją.incorrect interpretations.
    • BrakLack możliwościof szybkiejefficient iand sprawnejquick aktualizacjiupdates: PDF-yPDFs are zazwyczajgenerally statyczne,static, comaking sprawia,them żeunsuitable niefor nadajądynamic sięupdates doand dynamicznychautomatic aktualizacjidata iretrieval. automatycznegoFor zaciąganiaAI, najnowszychthis danych.means Wmanual kontekście AI oznaczaupdates to koniecznośćsources każdorazowejare ręcznejrequired aktualizacjieach źródeł.time.
    • TrudnościChallenges zin rozpoznawaniemrecognizing obrazówimages: CzęstoPDF PDF-yfiles zawierająoften tekstcontain zapisanytext jakostored obrazy,as coimages, wymagawhich dodatkowegorequires przetwarzaniaadditional zprocessing użyciemusing OCR (Optical Character Recognition), conot nieonly tylkolengthening wydłużathe procesanalysis analizy,process alebut takżealso możepotentially generowaćgenerating błędy,errors, zwłaszczaespecially wwith przypadkulow-quality niskiej jakości skanów.scans.
    • SkomplikowanaComplicated analizasemantic semantycznaanalysis: AI trudniejhas jestdifficulty zrozumiećunderstanding kontekstcontext win plikachPDF PDF,files gdyżsince tekstthe częstotext jestis rozmieszczonyoften warranged sposóbin nieliniowya nonlinear manner (np.e.g., win kolumnach,columns wstawionyor winserted ramkach)in frames). MożeThis can lead to prowadzićmisinterpretation doof błędnejcontext, interpretacjimeaning, kontekstu,and sensurelationships ibetween zależnościtext pomiędzy fragmentami tekstu.fragments.

    JestThis is a problem to problemsolve doin rozwiązaniathe na przyszłośćfuture (obecniecurrently, naweteven wykorzystującusing PDFyPDFs, możemywe dostaryczćcan wieledeliver wartościa zalot pomocąof value with AI dlafor EO). NatomaistHowever, docelowothe należałobyultimate wymyślećgoal innewould rozwiązanie.be Potrzebnyto byłbydevise jakiśa different solution. A document management system zarządzaniawould dokumentami,be któryneeded umożłiwiałbythat tworzeniewould optymalnejallow strukturyfor dlathe creation of an optimal structure for AI orazand łatwąeasy aktualizację.updates.

    PodsumowanieSummary

    MusimyWe przedeprimarily wszystkimneed znaleźćto rozwiązaniefind dlaa Oficjalnegosolution Repozytoriumfor Danychthe EO Global.Global PotraktujcieOfficial tenData dokumentRepository. jakoTreat otwarciethis burzydocument mózgówas ithe wbeginning komentarzachof napiszciea pomysłybrainstorming nasession rozwiązanieand tegoshare wyzwania.your ideas for addressing this challenge in the comments.